P2-akademiet Bioinformatikk

I 1860-åra ruslet munken Gregor Mendel rundt i hagen sin for å studere erteplantenes arvelighet. Dette regnes som begynnelsen på genetikken som fag. Men det gikk nesten førti år før arvelighetsarbeidet ble ført videre. I år 1900 ble Mendels resultater gjenoppdaget, som det heter, av tre forskere uavhengig av hverandre. Dermed kan det sies å være godt belegg for påstanden at arvelære som fag er 102 år gammel i år. Arvelæra dreier seg om kunnskap om informasjonsbærerne mellom generasjonene, i alt fra encellete arter til mennesket, som jo også består av celler. Det var imidlertid ikke så veldig mye man visste på den tida om celler. Det som fantes av kunnskap var for en stor del det som kom fra å kikke i mikroskoper. Heller ikke hadde man så veldig mye kunnskap om de molekylene som befant seg inne i cellene, i det fagfeltet som heter biokjemi. Og det skulle ta nesten mer enn halvparten av denne tida til å fastslå den kjemiske sammensetningen og strukturen til arvestoffet, og til å få en brukbar forståelse av hvilke biokjemiske stoffer som var de viktigste i celler. Først i 1953 ble DNA-molekylets struktur bestemt.

Ikke lenge før dette hadde en langsom utvikling av datamaskiner også begynt, ikke minst som en følge av den andre verdenskrigen. Så, i den følgende tiårs-perioden ble "det sentrale dogmet" innen biologien lansert. Det dreier seg om at et gen, det vi kan kalle et meningsbærende stykke DNA, en forkortelse for deoksyribonukleinsyre, inneholder informasjon for et mellomprodukt, kalt RNA, en forkortelse for ribonukleinsyre, som i sin tur gir opphav til et protein. For dem som ikke er fortrolig med DNA og RNA er en kort forklaring at DNA er lange informasjonsbærende molekyler som er satt sammen av mindre byggesteiner, kalt nukleotider, med en sukkerdel (kalt deoksyribose) og en informasjonsdel (kalt baser) og en koplingsdel (fosfat-del). RNA er bygget opp på samme måte, men har en liten kjemisk endring i sukkerdelen som fører til at den blant annet er litt mindre stabil. Altså ett gen, ett RNA, ett protein. Tiåret gikk med til å finne ut hvordan informasjonsflyten var. For å illustrere denne med datamaskinas konsept: DNA kan sies å være harddisken, mens RNA kan sammenliknes med datamaskinens hukommelse, og proteinene kan kanskje sammenliknes med elektronikken som får informasjonen ut på skjermen. Datamaskiner har i utgangspunktet bare to tilstander å hjelpe seg med for å gjøre alt den gjør, enten tilstanden 0 eller tilstanden 1. For å få mening ut av det, må dermed flere nuller og enere settes etter hverandre i rekke for å gi opphav til de muligheter datamaskiner i dag gir. For eksempel dersom vi bestemmer oss for at en rekke på fire nuller og enere skal gi én vanlig bokstav, betyr det at vi har skapt oss et alfabet av 2 opphøyd i fjerde, altså 16, mulige bokstaver, mens hvis vi sier at vi skal ha en rekke på åtte nuller og enere betyr det at vi har to opphøyd i åtte, eller totalt 256, mulige bokstaver, altså mer enn nok til å dekke vårt alfabet. Til forskjell fra den enkle null- eller én-løsningen i datamaskinen, er det litt flere grunntilstander i celler. Her er det, i stedet for to, fire muligheter som varierer. Disse kalles baser, som i stedet for en av-og-på-knapp, er kjemiske forbindelser som blir koplet i lange serier. Det er disse seriene som kalles DNA eller arvestoffet. Siden det er fire, betyr det at dersom vi ikke organiserte disse i større serier, ville vi heller ikke her få mye rom til å variere informasjonen. Cellene har løst det ved å si at tre og tre av disse enhetene skal oppfattes som én bokstav. Litt regning vil da tilsi at det ut av dette blir like mange muligheter som det er felter på sjakkbrettet, nemlig 64. Men cellene har ikke bruk for så mange bokstaver, på samme måte som det ikke er bruk for så mange som 256 bokstaver for å dekke opp alfabetet. For det er ikke mer enn tjue bokstaver som brukes for å danne de forskjellige proteinene, som er de molekylene i celler som gjør mesteparten av jobben. Bokstavene i proteiner kalles ikke baser, som i arvestoffet, men aminosyrer, siden de kjemisk sett er helt annerledes enn basene. Proteinene kan sies å være kjeder av de tjue bokstavene. Siden de tjue bokstavene har veldig forskjellige egenskaper, betyr det at forskjellige proteiner også kan få veldig forskjellige egenskaper. Det er for eksempel stor forskjell på de proteinene som danner negler og de som utfører kjemiske reaksjoner inne i cellene.

I løpet av første halvdel av sekstitallet hadde man i tillegg til det sentrale dogmet også fått bestemt hvilken kode som hørte til hvilken protein-bokstav. På dette tidspunkt var det ikke behov for datamaskiner i biologien, og datamaskinene var heller ikke tilstrekkelig utviklet til å yte vesentlig hjelp, dersom behovet hadde vært der. Men det var den gang, og ikke nå! For siden særlig slutten av 1970-tallet har det skjedd en dramatisk utvikling innen cellebiologi, biokjemi og deler av genetikk. En passende samlebetegnelse på disse fagene i dag er molekylærbiologi. I dette ligger at en detaljert forståelse av de forskjellige molekylene i celler, og deres virkemåte, er helt nødvendig for å se de store sammenhenger i det som utgjør livet i alle organismer. Et viktig gjennombrudd kom med kunnskapen om hvordan det er mulig å bestemme rekkefølgen, eller sekvensen, på bokstavene i arvestoffet. Denne metoden kalles sekvensering. Til å begynne med var sekvenseringsmetodene veldig tidkrevende, og det var ikke mulig å skaffe sekvensen til mer enn ett gen i løpet av et større forskningsprosjekt. Fordi mange etter hvert innså at det var helt nødvendig å kjenne "livets bok", som den fullstendige DNA-sekvensen for en art er kalt, ble det etter hvert frustrerende at dette bare var kjent for et par virus. På slutten av 1980-tallet ble det bestemt at det skulle satses storstilt på å gjennomføre den fullstendige bestemmelse av menneskets kode. Dette var en satsning på femårsplaner, med voldsomme økonomiske utlegg for å øke hastigheten på sekvensbestemmelsen. Og her begynner egentlig bioinformatikk som fag. På dette tidspunkt var datamaskinene godt utviklet, både med grafiske verktøy og med mer skreddersydde verktøy for biologen, og ikke minst var internett-verdensveven i ferd med å bli til virkelighet. Alt dette var helt nødvendige forutsetninger for å kunne møte den utfordringen biologen stilles ovenfor i dag.

Så, i løpet av årene fram til århundreskiftet fulgte en voldsom økning i mengden kartlagt arvekode, både for menneskets vedkommende, og for såkalte modellorganismer, slike som gjærsopp, bananflue og mus. Alle disse fungerer som eksperimentelle systemer som på mange måter forteller om virkemåter som også gjelder for mennesket. Den voldsomme økningen i informasjon om sekvensene i arvestoff gjorde det nødvendig å utvikle sentrale databanker, drevet av kraftige maskiner, som blant annet kunne vise hvilke deler som utgjorde gener, og hvilke som ikke gjorde det. Det var også nødvendig å lagre informasjon om hvor de befant seg langs etter de sammenhengende DNA-sekvensene som kalles kromosomer. Og når man så hadde skaffet seg kunnskap om en sekvens, hvordan skulle man lete for å finne fram til om den var kjent fra før eller var helt ny? Det innebar utvikling av veldig raske og effektive søkemekanismer på datasida. Behovet vises ikke minst av at det i dag finnes tilgjengelig sekvenser som totalt utgjør mer enn 16 milliarder bokstaver, fordelt på 16 millioner forskjellige sekvenser og flere hundre forskjellige arter. Og informasjonsmengden dobler seg omlag hver 14. måned. Sommeren etter årtusenskiftet erklærte så den daværende amerikanske president Clinton og den britiske statsministeren Tony Blair med pomp og prakt at menneskets arvemasse var ferdig kartlagt. Som så ofte ellers når det gjelder politikk, var dette også en sannhet med store modifikasjoner. I virkeligheten var den ikke ferdig kartlagt, og er det heller ikke på langt nær den dag i dag. En mer presis beskrivelse av virkeligheten er at 70% av den er godt kartlagt, og at den sannsynlige ferdigstillelsen kan ventes mot slutten av 2003. Faktisk vet man i dag ikke engang hvor mange gener mennesket har.

Anslagene nå ligger et sted mellom 30 000 og 40 000 gener, forutsatt den klassiske definisjonen at et gen inneholder informasjonen til et RNA-molekyl, som i sin tur gir opphav til et protein. Men det er mer komplisert enn som så. La det bare være nevnt at et gen kan settes sammen på forskjellige måter som RNA, avhengig blant annet av hvilken type celle det foregår i. På toppen av dette kommer at proteiner også ofte modifiseres, blant annet ved at mindre molekyler hukes på proteinene. Så totalt vil jeg tro det er snakk om minst hundre tusen forskjellige proteiner biologen skal holde rede på. Sjøl kan jeg kanskje navnet på noen få hundre gener, og har litt mer detaljert kunnskap om noen titalls proteiner. Og jeg tror jeg er ganske gjennomsnittlig som biolog. Det er opplagt at datamaskinen er nødvendig.

En hovedårsak til at vi alle ser forskjellige ut som mennesker, er at selv om menneskene i all hovedsak har det samme arvestoffet, er det allikevel noen forskjeller. Gjennomsnittlig regnes det i dag med at for omlag hver tusende bokstav vil det være en bokstav som avviker mellom forskjellige individer. Siden det i alt er cirka 3 milliarder bokstaver hos mennesker, betyr det at det er variasjon i nesten én million posisjoner. Mange av de posisjonene behøver ikke å bety så mye, fordi de ikke befinner seg i genene som altså oversettes til protein. Men de bokstavene som varierer, og som blir oversatt til protein, kan ha veldig stor betydning. For eksempel finnes det små variasjoner i for eksempel de proteinene som har med avgiftningsreaksjoner å gjøre. Det er ikke minst denne typen variasjon som for eksempel gjør at mennesker reagerer forskjellig på å drikke alkohol. Dette kan skyldes DNA-variasjon mellom mennesker for de proteinene som har med nedbrytning av alkoholen å gjøre. Gjennom kartleggingen av menneskets arvemasse har bare materiale fra noen ytterst få individer blitt kartlagt. Den svære jobben med å kartlegge alle de posisjonene som varierer, og hvilke hyppigheter de forskjellige variantene har i de ulike befolkningsgruppene, er nesten helt ukjent i dag. Å foreta denne kartlegginga er en viktig del av mange biologiske fagfelter. En av disse fagfeltene kalles nå farmakogenomikk, som omskrevet kan sies å bety å forstå hvordan og hvorfor legemidler oppfører seg forskjellig i forskjellige mennesker. På samme måte som for nedbrytningen av alkohol spiller også forskjellige proteiners ulike varianter inn på nedbryting av legemidler. Det å raskt kunne kartlegge hvert enkelt menneskes personlig varianter, og utvikling av metoder for å kunne kartlegge variasjonen raskt, er en viktig del av framtidas visjon om en mer personifisert medisin. Også innen dette feltet vil datamaskinene måtte spille en helt sentral rolle, både i forhold til å håndtere data om variasjonen, og for å finne ut sammenhengene mellom proteinvarianter og det svar den enkelte kropp gir på forskjellige kjemiske stoffer.

Menneskekroppen er en ganske komplisert innretning. Det finnes over to hundre forskjellige typer celler, som danner det som kalles vev. Alt fra muskler, til øyne, til blod. For mindre enn ti år siden var det nesten bare mulig å skille de forskjellige celletypene ved hjelp av mikroskop, for på den måten å forsøke å se på celleformer og i beste fall se etter enkelte proteiner som var helt spesielle for en celletype. Det er dette patologer ofte driver med. Men så skjedde det et teknologisk gjennombrudd, som gjorde at man kunne finne ut hvor mange RNA-molekyler som ble laget fra hvert gen i en celle. Dette åpnet plutselig opp for helt nye perspektiver, både for å se hva slags celletyper som fantes i en prøve, og ikke minst for å gi et innblikk i hva som kunne være feil i forskjellige sykdommer. Om for eksempel et RNA-molekyl, som normalt ikke skulle finnes i en celletype, plutselig var å finne der, kunne dette tolkes som en pekepinn på hva som hadde gått feil, og dermed peke på hva som skulle rettes opp av legen. Dette var og er i hvert fall den gyldne drøm for denne teknologien, som kalles DNA-mikromatrise-teknologi. Denne teknologien er egentlig et direkte produkt av den store satsningen på sekvenseringen av menneskets gener. For som et biprodukt av sekvenserings-satsningen satt man nå med representative biter av de fleste gener, med hvert gen i hvert sitt reagensglass. Det gjorde at det ble mulig å prikke ut litt DNA fra hvert gen i ørsmå mengder på et lite stykke glass, til sammen mange tusen prikker innen et par kvadratcentimeter. Robotteknikk, datamaskiner og moderne kjemi og fysikk har bidratt kraftig til denne utviklingen. I dag er det til og med slik at blekkskrivere ikke bare brukes til å lage utskrifter fra dataskjermen, men også til å lage DNA-brikker. Glassbrikker med DNA-prikker gjorde at i løpet av et forsøk på mindre enn et døgn kunne man nå få informasjon om kanskje tretti tusen gener fra en prøve. I løpet av de siste fem årene har denne mikromatrise-teknologien fått stor utbredelse internasjonalt, og etter hvert også i Norge, slik at det produseres enorme datamengder om gener fra for eksempel pasientprøver. Hvordan skal biologen eller legen trekke ut kunnskap fra slike datamengder? Dette er en kraftig utfordring, som ikke er tilfredsstillende løst i dag. Om man ser på den samlete biomedisinske litteraturen siden det første genet ble kjent og fram til i dag, er bare noe i overkant av 10 000 gener i det hele tatt omtalt. Det betyr at virkemåten for de proteinene menneskegenene gir opphav til er mer eller mindre helt ukjente, bortsett fra at selve DNA-sekvensen for genene nå nærmer seg å være kjent.

La oss se litt mer på proteinene. Som nevnt tidligere, er proteinene det som utgjør mesteparten av strukturen i alle arter. Og det er altså over 100 000 forskjellige av dem. De består av 20 forskjellige byggesteiner, aminosyrer, som alle har veldig forskjellige egenskaper. Når man setter sammen rekker av aminosyrer, kan det gjøres på veldig mange måter, og det fører til at proteinene, til forskjell fra DNA og RNA, har veldig forskjellig både utseende og egenskaper. Utseende på proteinene er veldig viktig for å forstå hva de kan og ikke kan gjøre. Problemet er at det med dagens kunnskap er vanskelig å gjøre det. Det kreves ofte både stor kunnskap og heftige fysisk-kjemiske metoder for å finne ut bare ett proteins utseende. Men også her går det framover, og de siste fem årene har informasjonsmengden i den felles internasjonale databanken vokst kraftig, slik at det nå finnes informasjon om over 10 000 proteiner eller proteindeler. Siden dette er informasjon om romlige, tredimensjonale strukturer, er det utviklet dataprogrammer som viser disse strukturene på dataskjermen. For å få fram det romlige innholdet kan proteinene for eksempel roteres på skjermen, slik at biologen lettere forstår hvordan de ser ut. Men forsatt er det langt fram før man kan si hvordan alle proteinene ser ut. Et veldig viktig poeng er at mange proteiner ofte binder seg til hverandre for å kunne utføre oppgavene de skal utføre i cellene. Enten binder to like proteiner seg sammen, eller de kan binde seg til andre proteiner. For krevende oppgaver, som for eksempel å lage nytt DNA i cellene, går så mye som opp mot hundre proteiner sammen. Cellene sender også beskjeder til hverandre. En måte dette gjøres på er at et eller annet lite signalmolekyl, for eksempel et hormon, fester seg til et protein på overflata av en celle, og dermed påvirker det proteinet kan gjøre og ikke minst hvilke andre proteiner det kan binde seg til. Dette proteinet kan for eksempel strekke seg gjennom laget som omgir cella, og et annet protein festet på innsida av cella, som ligger i nærheten av det første proteinet, sender så beskjed videre gjennom andre proteiner inne i cella om hva som skal skje. Slike signalsystemer styrer det meste av virksomheten i cellene, og det er derfor en helt sentral oppgave å kartlegge disse signalsystemene. I løpet av de siste årene har det også blitt utviklet teknikker for å finne ut hvilke andre proteiner et protein kan binde seg til. En av teknikkene som forsøkes utviklet likner mye på den som benyttes for RNA. Jeg tenker her på såkalte protein-matriser, der etter hvert mange forskjellige proteiner kan trykkes på glassbrikker, som kan gjøre det mulig å finne ut hvilke proteiner som kan bindes til de som er trykket, og hvor mange det er i forskjellige prøver. For tida pågår et stort arbeid med å kartlegge alle de mulige bindingene mellom proteinene. Det eneste som er sikkert i dag, er at antall bindinger kommer til å være stort, sikkert flere hundre tusen, fordi hvert protein ofte kan binde seg til flere enn én fast makker. Ut av dette kommer det til å komme et gigantisk nettverk av samvirkende proteiner. Siden ikke alle gener, og dermed ikke alle proteiner, blir brukt i alle celle, vil i neste omgang de forskjellige nettverkene mellom forkjellige celler, og innen forskjellige celletyper bli kartlagt. For en stor del er dette den viktigste saken på dagens dagsorden innen biologi, slik jeg ser det. Kunnskapen om nettverkene danner på mange måter kartet som skal til for å kunne behandle sykdommer som skyldes avvikende molekyler mye mer fornuftig enn i dag. Eksempelvis kan alle de forskjellige kreftformene som finnes ses på som at et eller flere punkter i signalnettverkene enten har kortsluttet eller blitt kuttet over. Men det er også viktig å finne ut hvor de svake og sterke leddene i nettverkene er. Det vil jo hjelpe lite å kutte en signalvei, dersom en annen signalvei lett kan ta over den samme funksjonen som blir forsøkt påvirket. På denne måten blir det biologens, og i neste omgang legens, jobb å korrigere de spesifikke feilene som har oppstått i akkurat den pasienten som er til behandling. Siden det er så mange punkter i nettverket der feil kan oppstå, betyr det at hver enkelt pasient nesten kan oppfattes som å ha sin helt spesielle tilstand, og at behandlingen helst må være deretter. Men for å komme dit må altså et stort kartleggingsarbeid gjennomføres. Nettverksanalyse har blitt utviklet som en egen datadisiplin. Og mange forskjellige slags nett har blitt analysert. En sammenlikning mellom nettverk av Hollywood-stjerner og proteinnettverk viser faktisk mye av det samme overordnete mønsteret: Noen svært få kjenner veldig mange andre, mens de aller fleste kjenner ganske få! I løpet av de siste par åra har det også blitt utviklet metoder for å kunne fjerne ett og ett protein fra cellene. Dette gjør det lettere å kartlegge hva som skjer med nettverkene, og dermed også raskere føre til svære datamengder som inneholder detaljert informasjon om nettverkene. Uansett er det på grunn av nettverkenes kompleksitet helt nødvendig å utvikle dataredskaper som synliggjør disse nettverkene for biologen og legen på en meningsfull måte. Dette er et arbeid som så vidt har begynt i dag, men som jeg tror vil bli svært viktig for å sikre at legen behandler pasienten ut fra all tilgjengelig informasjon.

I tillegg er det viktig å benytte all den øvrige informasjon som finnes om andre molekyltyper i cellene. Ikke minst gjelder dette de små stoffskifte-molekylene, metabolittene, som har stor innvirking blant annet også i signalnettverkene, ved at de påvirker hvilke valg som gjøres av cellene.

Om vi så løfter blikket litt fra de store datamengdene, og de kompliserte nettverkene, så er det også noen andre utviklingstrekk som er på vei til å få betydning. En måte å se på celler på, er å betrakte dem som små maskiner, og kroppen som fabrikk. Etter min oppfatning er dette en litt gammelmodig betraktning. En mer givende betraktning er å se på hele organismen som et resultat av mange prosesser på mange nivåer, der de fleste prosessene griper inn i hverandre. Det er utviklet mye god prosessteori i andre fagfelter, fra økonomi til styringssystemer i store fabrikker. Det å utnytte kunnskapen fra disse fagfeltene kan komme godt med når prosessene i og mellom celler skal beskrives i detalj. At det ikke mangler på ambisjoner i denne retningen blir stadig klarere etter hvert som det samles så store informasjonsmengder. For eksempel tar noen etter hvert mål av seg til å kunne lage fullstendige teoretiske modeller av celler i datamaskinen, slik at det etter hvert skal kunne bli mulig å endre en faktor i cella, og etterpå observere den beregnede effekt av endringa. Altså litt slik en flysimulator i dag virker for flygeren, kan cellesimulatoren, og etter hvert kropps-simulatoren, bli for molekylærbiologen og framtidas lege. Bioinformatikk som fag må for å møte slike utfordringer etter hvert bli nødt til å ta opp i seg stadig flere elementer fra fagene som blir liggende i skjæringspunktet til biologi, blant annet kjemi, fysikk og altså informatikk. Et viktig poeng her er at etter hvert kan den formelle kunnskapsdisiplinen matematikk, men også statistikk, komme til å spille en stadig viktigere rolle.

For et lite øyeblikk å vende tilbake til Gregor Mendel i innledningen: En kjent biostatistiker viste 60 år etter at Mendel døde at sjansen for at Mendel skulle få så gode eksperimentelle resultater som han faktisk gjorde er mindre enn én sjanse på førti tusen. Det betyr med all sannsynlighet at Mendel ville "hjelpe" samtiden til å forstå de årsakssammenhengene han hadde sett ved "pynte" litt på resultatene sine. I dag er det ikke lenger nødvendig å ty til slike grep for å overbevise dagens biologer om at dette fagfeltet har mye å by på. Det ligger forhåpentligvis i det jeg har sagt her at bioinformatikk på mange måter har en ytterst spennende tid foran seg. Ikke minst på grunn av at utfordringene på mange måter er helt nye, men også fordi kunnskap fra flere felter kan møtes på en fruktbar måte. I tillegg klarer i hvert fall jeg å bli begeistret over de mulighetene som glimrer i det fjerne, ikke minst i betydningen mulighet til å få et helt nytt nivå av innsikt i hvordan liv er organisert. Jeg husker fortsatt for mitt indre blikk hvordan det så ut i en film jeg fikk se på skolen i 1963. Det var en animasjonsfilm om hvordan det så ut inne i celler. Det eneste jeg lærte av den, var at det var bokser og trekanter som hang inne i en ballong som skulle forestille cella, og på mange måter var det en ganske presis oppsummering av det som var kjent på det tidspunkt. Menneskeheten har kommet et godt stykke videre kunnskapsmessig siden da! Men jeg tror også at denne kunnskapen vil bli omsatt til nyttige redskaper for å forbedre menneskenes korte liv på jorda, gjennom helt nye muligheter for å gripe inn i kroniske eller alvorlige sykdommer. Så er spørsmålet hvor lang tid det kan ta før cellesimulatoren er perfekt, og før alle signalnettverk er kartlagt, det vil si når skreddersydd molekylærmedisin virkelig vil få betydning. Det er vanskelig å gjette, men for igjen å komme med min personlige mening, tror jeg framtida for alvor vil banke på om femten til tjue år, for den som lever så lenge