3. Evolutionære implikationer
Så vidt vi ved, repræsenterer tessera-koden den første kvantitative forklaring på oprindelsen af degeneration i forfædrenes koder. Som sådan kan den være relevant for at forklare udviklingen af den genetiske kode. I anden del af denne artikel analyserer vi de mulige evolutionære implikationer af tessera-koden. Med henblik herpå minder vi om den evolutionære hypotese, som Watanabe & Yokobori har fremlagt, og som er baseret på analysen af oversættelse i eksisterende mitokondrier (se figur 4 tilpasset fra ). Figur 4 viser milepæle, som der er en vis enighed om, og som repræsenterer de evolutionære trin fra en primitiv genetisk kode til de nuværende varianter. Hvis vi tager udgangspunkt i de eksisterende varianter og går tilbage i tiden, finder vi den første milepæl, dvs. den universelle genetiske kode fra LUCA. Det antages, at denne kode har en struktur, der svarer til den nuværende genetiske standardkode for kernevåben. Den enkleste variant af de eksisterende koder er hvirveldyrenes mitokondrielle genetiske kode, som hovedsagelig af denne grund er blevet foreslået som en model for forgængeren for den universelle LUCA-kode: den tidlige kode (den anden milepæl fra højre i figur 4). Den vigtigste evolutionære nyhed, som overgangen fra den tidlige kode til den universelle kode indebærer, er fremkomsten af post-transkriptionelle modifikationer i tRNA’er. Dette understøttes af den kendsgerning, at et umodificeret U på den første position i anticodonet i nogle eksisterende mitokondrier fra Metazoer kan danne par med alle baserne på den tredje position i codonet . Dette gør det muligt at afkode familier af kodoner uden brug af modificerede nukleotider (en familie er en gruppe af fire kodoner, der deler de to første baser og koder for den samme aminosyre). I forslaget af Watanabe & Yokobori , er den tidlige kode afledt af en primitiv kode med færre, mere degenererede aminosyrer, dvs. Jukes’ kode . En sådan kode formodes kun at blive dannet af familier med undtagelse af en aminosyre og stopsignalet, som har degeneration to, dvs. er kodet af to kodoner.
Repræsentation af udviklingen af den genetiske kode, tilpasset fra . Hver cirkel eller firkant repræsenterer en milepæl. Den nederste linje viser udviklingen af kodonlængden, som vores teori indebærer.
Nu er vores hovedpåstand, at tessera-koden repræsenterer en forfader til den tidlige kode, nemlig en præ-tidlig kode, der er placeret mellem den primitive og den tidlige kode. Der er flere argumenter, der understøtter, at tessera-koden er en før-tidlig kode (den firkantede milepæl i figur 4). Først og fremmest har den præcis den samme degenerationsstruktur som den tidlige genetiske kode. Desuden er tessera-koden i overensstemmelse med Baranov et al.’s hypotese om, at koden opstod med lange oligonukleotider efterfulgt af en reduktion af kodonlængden, indtil det optimale antal på 3 blev nået. Hvis man antager, at den før-tidlige kode har kodoner af længde 4, indebærer det, at også den primitive kode har kodoner af længde mindst 4. Vi viser faktisk, at Jukes’ primitive genetiske kode kan gennemføres med generiske kodoner af længde 4. I den følgende beskrivelse bruger vi udtrykket kodon til at betegne kodoner af længde 4 eller tetracodoner. Jukes’ kode har 15 aminosyrer med degeneration 4, en aminosyre med degeneration 2 og to stopkodoner. Samlet set er der 15 elementer med degeneration 4 og 2 elementer med degeneration 2. Hvis vi antager, at denne kode stammer fra kodoner med 4 nukleotider, betyder det, at der kan vælges 17 elementer/aminosyrer, som kan kodes af enten to eller fire kodoner fra et sæt på 44 = 256 kodoner. Bemærk, at mængden af 256 kodoner kan opdeles i en delmængde på 32 kodoner, der har nogle symmetrier (disse svarer til de to første kolonner i tessera-koden i tabel 1), og en delmængde på 224 kodoner uden symmetri. Som det fremgår ovenfor, svarer symmetriske kodoner til aminosyrer med degeneration 2, mens asymmetriske kodoner svarer til aminosyrer med degeneration 4. Hvis vi nu antager en tilfældig mekanisme for tildeling af kodoner til aminosyrer, svarer den degenerationsfordeling, der har den højeste sandsynlighed, nøjagtigt til Jukes’ kode. Vi har vist dette i det elektroniske supplerende materiale B. Jukes antager, at et af elementerne i degeneration 2 er forbundet med stopsignalet. Med dette valg er stopkodoner mindre tilbøjelige til at blive genereret af tilfældige fejl, dvs. at disse elementer er mindre tvetydige end dem med degeneration 4. På samme måde er det naturligt at antage, at det andet element med degeneration 2 svarer til den aminosyre, der koder for startsignalet.
Vi har vist, at den primitive kode (Jukes’ version) naturligt beskrives med kodoner af længde 4. Nu beskriver vi en mulig evolutionær vej fra Jukes’ kode til tessera-koden. I vores tilgang er den primitive kode sammensat af to par symmetriske kodoner og 60 ikke-symmetriske kodoner. Det skal bemærkes, at udvælgelsen af symmetriske kodoner på grund af deres mindre tilbøjelighed til at fejle ved punktmutationer udgør et første skridt til udvælgelse af den symmetriske halvdel af tessera-sættet. Lad os antage, at en ny adaptor med en symmetrisk anticodon dukker op og konkurrerer (bærer den samme aminosyre) med en eksisterende adaptor med en asymmetrisk anticodon. Den nye adaptor kan binde til symmetriske kodoner, der er en del af tessera-sættet (de to første kolonner i tabel 1). En sådan adaptor har en evolutionær fordel i forhold til den adaptor, der bærer et ikke-symmetrisk anticodon, fordi den har to forskellige rumlige konfigurationer, der kan bruges til at binde sig til kodonet. F.eks. bærer adaptoren i figur 2 det palindromiske anticodon AUUA. Hvis adaptoren er omvendt, kan den stadig binde til kodonet/tessera UAAU. Dette selektive pres medfører, at alle symmetriske kodoner (tetracodoner)/tesserae indfanges på bekostning af ikke-symmetriske kodoner. Ved afslutningen af denne proces har vi en kode bestående af 32 symmetriske tesserae og 32 ikke-symmetriske tetracodoner, der ikke nødvendigvis hører til tessersættet. På dette tidspunkt nås et yderligere optimeringstrin ved at vælge ikke-symmetriske tesserae: som vist i , er tesserae immune over for punktmutationer4 og overlever således til ikke-tessera tetracodoner på grund af det evolutionære pres fra afkodningsnøjagtigheden. De 32 symmetriske tesserae er immune over for punktmutationer (der er behov for to samtidige, højst usandsynlige punktmutationer for at skabe en overgang mellem to tesserae). Det betyder, at de tilsvarende tRNA’er ikke fører til inkorporering af en ikke-kognet aminosyre, hvis de bliver udsat for en punktmutation. Denne egenskab ved fejlfinding indebærer en evolutionær fordel med hensyn til nøjagtigheden af proteinsyntesen. De resterende 32 ikke-symmetriske tetracodoner er ikke nødvendigvis tesserae, men de, der er tesserae, har egenskab af fejlimmunitet, således at de gradvist vil blive udvalgt af ovennævnte årsager. Vi opnår således den fuldstændige struktur af tessera-præ-tidlige kode, hvis degenerationsfordeling falder sammen med den tidlige kode (og med den eksisterende mitokondrielle kode for hvirveldyr).
Vi har vist, at overgangen mellem Jukes’ kode og tessera-koden er den mest sandsynlige under minimale forudsætninger. Det er klart, at i denne overgang bliver tessera-genkendelsen mere specifik end tetracodon-genkendelsen i Jukes’ kode. Tessera-kodens egenskab ved fejlfinding gør det muligt at reducere tvetydigheden i forbindelse med aminosyrebelastningen af tetracodon-adaptorer. Til gengæld gør den øgede præcision i tessera-genkendelsen det muligt at forfine valget af aminosyrer som følge af det evolutionære pres på proteinets ydeevne.
Vores hypotese om tessera-koden som en præ-tidlig kode indebærer også en anden vigtig evolutionær overgang, nemlig overgangen mellem tessera-koden og den tidlige kode. Da den tidlige kode formodes at have kodoner af længde tre, er det største problem, som denne overgang indebærer, relateret til ændringen i kodonlængden, som generelt betragtes som skadelig . Det skal bemærkes, at i) enhver teori om kodens oprindelse med en anden kodonlængde end tre må stå over for dette problem, og ii) at en sådan overgang er skadelig, når man når et udviklingsniveau, hvor koden er fastfrosset, da dette indebærer en dramatisk ændring i sekvensen af aminosyrer i alle proteinerne i en organisme; dette er dog ikke nødvendigvis tilfældet i tidligere udviklingstrin, der ligger tættere på kodens oprindelse. Tessera-koden gør det muligt at finde en pæn løsning på problemet med overgangen fra tetracodoner til kodoner. Faktisk er den information, som tessera-sættet indeholder, overflødig. Hvis tre ud af fire bogstaver i en tessera er kendt, kan det manglende bogstav pr. definition udledes entydigt. Ud fra kodningsteoriens synspunkt har tessera-koden og enhver trinukleotisk genetisk kode derfor det samme informationsindhold. Dette indebærer, at der kan etableres en en-til-en-henvisning mellem tesserae og kodoner. Den væsentlige struktur for en sådan afbildning indebærer, at transformationerne mellem tilstødende bogstaver i en tessera bliver til nukleotider i en kodon. Navnlig kan vi, givet en tessera b1b2b3b4, have tre kemiske transformationer mellem tilstødende bogstaver: t12 = f(b1b2) mellem b1 og b2, t23 = f(b2b3) mellem b2 og b3 og t34 = f(b3b4) mellem b3 og b4. Bemærk, at kun to af disse tre transformationer er uafhængige, da t34 = t12. I tabel 4a har vi omarrangeret tessera-koden i henhold til transformationen t12 (rækker) og t23 (kolonner). Vi foreslår, at t12 og t23 afbildes på henholdsvis første og andet nukleotid i kodonet (x1, x2). Denne korrespondance er vist i tabel 3. Desuden afbildes det fjerde bogstav b4 på den tredje nukleotid i kodonet x3. En skematisk fremstilling af kortlægningen er vist i figur 5. Det skal bemærkes, at i henhold til denne kortlægning er kolonnerne i tessersættet kortlagt på kolonnerne i den genetiske kode, således at t23 = I er kortlagt på NAN-kodoner (degeneration non-4), og t23 = KM er kortlagt på NCN-kodoner (kun sammensat af familier); sammenlign tabel 44b med tabel 4c. Vi kan konstatere, at disse to kolonner i tessera-koden har den samme degeneration som de tilsvarende kolonner i den genetiske kode (enten 4 eller 2 + 2). Den naturlige fuldendelse af kortlægningen tildeler t23 = SW til NUN-kodoner og t23 = YR til NGN-kodoner. De to sidstnævnte tildelinger skal tage højde for nogle undtagelser, der skyldes, at Rumer’s symmetri i overgangen fra tesserae til kodoner faktisk bevares, men at den selvkomplementære symmetri ikke kan bevares. Interaktionen mellem tessera og antitessera er mere specifik end interaktionen mellem codon og anticodon på grund af tilstedeværelsen af fire Watson-Crick-lignende kemiske bindinger. I tilfældet med den eksisterende genetiske kode er degenerationen imidlertid hovedsagelig bestemt af interaktionen mellem codon og anticodon på de to første baser. Ved at antage, at bindingsenergien i den tidlige kodetid er sammenlignelig med Watson-Crick-energien, bør tessera-antitessera-interaktionsenergien derfor være ca. dobbelt så stor som den faktiske codon-anticodon-energi.
Skematisk fremstilling af afbildningen mellem tesserne (b1b2b3b4) på kodonet (x1x2x3).
Tabel 3.
Basisstruktur for afbildningen mellem tesserne og kodonerne. De fire transformationer mellem baserne i en tessera er afbildet på de fire nukleotider i et codon.
tesserae transformationer t12,t23 | codonbaser x1, x2 | ||
---|---|---|---|
I | ⟶12345 | A | |
SW | ⟶12345 | U | |
KM | ⟶12345 | C | |
YR | ⟶12345 | ⟶12345 | G |
Tabel 4.
(a) Tessera-koden organiseret i henhold til transformationerne: første-andet-bogstav t12 (rækker) og andet-tredje-bogstav t23 (kolonner); (b) det samme som (a), men med de ombyttede kvartetter som angivet med pilene. (c) Degenerering af hvirveldyrenes mitokondrielle genetiske kode. Kodonerne i hvirveldyrets mitokondrielle kode i (c) og tesserne (b) er relateret gennem den en-til-en kortlægning, der er beskrevet i teksten. Inden for kvartetterne koder tesserae med samme farve for den samme aminosyre: pink og grøn = 2 + 2 og hvid = 4.
Så fra et biokemisk synspunkt indebærer overgangen fra tesserae til kodoner overgangen fra en fuld fire baser lang specifik Watson-Crick-lignende parring til læsning af tesserae til wobble-strategien til læsning af kodoner.
I særdeleshed indebærer dette teoretiske begrænsninger på nogle symmetriegenskaber, der er til stede i tesseraernes verden, men som ikke er til stede i eksisterende koder, f.eks. tabet af den selvkomplementære symmetri. Hver kolonne i tessera-koden har nemlig en bestemt degeneration, men i de eksisterende koder gælder dette kun for to kolonner, dvs. kodoner af typen NMN (NAN eller NCN). I stedet har de kolonner, der svarer til kodonerne NKN (NUN eller NGN), blandet degeneration; navnlig er de forskellige kvadranter mellem de to koder dem af typen SUN og WGN (vi kalder WSN eller SWN blandet i modsætning til den ikke-blandede SSN WWN). Med andre ord har de eksisterende koder kodoner af typen WGN, der kodificerer aminosyrer med degeneration 2 på trods af, at den centrale base er stærk, og kodoner af typen SUN, der kodificerer aminosyrer med degeneration 4 på trods af, at den centrale base er svag .
En forklaring på sådanne træk i form af energetiske begrænsninger, der afhænger af stereokemien i interaktionen mellem kodon og anticodon, er foreslået i . I den eksisterende genetiske kode er en svag interaktion normalt forbundet med en 2 + 2 degeneration. Dette er faktisk tilfældet for kodoner af typen NAN, AUN og UUN. I tilfælde af et U som andet bogstav gør en yderligere stabilisering af det centrale purinbogstav N35 i tRNA’ets anticodonsløjfe ved hjælp af U33 det imidlertid muligt at aflæse en komplet familie på trods af N35’s svage karakter.5 I det spejlvendte tilfælde for kodoner af typen AGN og UGN er nukleotiden N35 ikke tilstrækkeligt stabiliseret af U33, og den tilhørende kvartet har en 2 + 2-degeneration.
Disse begrænsninger i wobble-strategien indebærer, at i kortlægningen fra tesserae til codoner byttes kvadrant (YR-SW) med kvadrant (SW-YR) og kvadrant (KM-SW) med kvadrant (I-YR); se tabel 4 (øverste paneler). Til sidst afbildes det fjerde bogstav i en tessera på det tredje bogstav i en kodon med følgende undtagelse, der sikrer en korrekt gruppering: hvis b4 = K (T eller G), så er x3 = KM(b4), dvs. T og G er byttet om; ellers er x3 = b4. Det skal bemærkes, at afbildningen ikke nødvendigvis er entydig; Men så vidt vi ved, viser den foreliggende undersøgelse, at det er muligt at gå fra tessera-koden til den eksisterende kode ved at beskrive alle de kendte degenerationskarakteristika ved sidstnævnte.
Hvis proteinkodning oprindeligt involverede kodoner, der var længere end tre baser, så burde oversættelsesmaskineriet have en vis hukommelse om dette. Den lille underenhed i de eksisterende ribosomer har nemlig en strukturel frihed, der kunne tillade inddragelse af et ekstra nukleotid i afkodningscentret, således at afkodning af kodoner med fire baser er mulig. Bemærk, at muligheden for forfædrenes kodning med firedobbelt kodning blev nævnt i . Kvadrupletafkodning blev faktisk opdaget i 1973 som en mekanisme i forbindelse med frameshift-undertrykkelse, og i dag anvendes den i vid udstrækning i bioteknologiske applikationer til at inkorporere ikke-kanoniske aminosyrer i proteiner . Desuden er det blevet påvist i laboratoriet, at det er biologisk muligt at anvende længde-fire-kodoner og et ortogonalt ribosom, der afkoder dem . Der er også beviser, der peger på eksistensen af overlappende gener, der er kodet af tetracodoner ; desuden er det blevet vist, at tetracodoner spiller en vigtig rolle i fylogenetiske analyser (f.eks. ), og dette kan være et tegn på en genetisk hukommelse.
En imponerende række egenskaber ved tessera-koden er bevaret i de nuværende koder. Den tidlige kode og alle dens efterkommere arver fra tessera-koden antallet af kodoner (64 tesserae genererer 64 kodoner) og det maksimale antal aminosyrer (23). Tessera-koden gør det muligt at kode for 24 elementer/aminosyrer. Da mindst et af disse skal repræsentere et stopsignal, er det maksimale teoretiske antal aminosyrer, der kan repræsenteres, 23. Bemærkelsesværdigt nok er der ingen eksisterende koder, der overskrider denne grænse, og det maksimale antal aminosyrer, der er kodet direkte af nogle genomer, er præcis 23: de 20 standardaminosyrer plus 2 ikke-standardaminosyrer (selenocystein og pyrrolysin) og den alternative initieringsaminosyre N-formylmethionin udgør tilsammen 23. Desuden er antallet af adaptorer, der anvendes i hvirveldyrenes mitokondrielle genetiske kode, 22: otte tRNA’er, der hver især genkender fire kodoner, 14 tRNA’er, der hver især genkender to kodoner, og to par kodoner, der ikke er forbundet med aminosyrer . Det er bemærkelsesværdigt, at 22 er det absolutte minimum, der er observeret blandt alle kendte versioner af den genetiske kode. Det er også præcis den struktur, som tessera-modellen indebærer: otte oprindelige adaptorer med degeneration 4 plus 16 adaptorer med degeneration 2 udgør et sæt på 24 adaptorer; hvis vi ser bort fra to adaptorer med degeneration 2, der er tildelt stopkodoner, får vi præcis 22.
Den genetiske kode for hvirveldyrs mitokondrier og vores tessera-baserede model af den tidlige kode deler også en række træk, der har med symmetri at gøre (f.eks. tabel 5). Først og fremmest ændrer KM-transformationen, også kendt som Rumer’s transformation, der anvendes på den første doublet i et kodon, degenerationen af den tilsvarende aminosyre. Denne universelle egenskab er observeret i de fleste kendte versioner af den genetiske kode (både nuklear og mitokondriel). Tessera-koden besidder også denne egenskab. F.eks. svarer tessera AUUA til en aminosyre med degeneration 2, og hvis vi anvender KM-transformationen på de to første nukleotider, får vi tessera CGUA, som svarer til en aminosyre med degeneration 4. Bemærk, at denne egenskab også gælder, hvis vi anvender Rumer’s transformation på t12t23 i den kortlægning, der forbinder tessener og kodoner, som er beskrevet ovenfor. For yderligere indsigt, se .
Tabel 5.
Sammenligningstabel mellem hvirveldyrenes mitokondrielle genetiske kode og tessera-koden.
Vertebraters mitokondrielle genetiske kode | tessera-kode | |||||
---|---|---|---|---|---|---|
deg. | nr. codons | deg. | nr. tesserae | |||
degeneration | 2 | 16 | 2 | 2 | 16 | |
4 | 8 | 4 | 8 | |||
tal af kodoner | kodoner 64 | tesserae 64 | ||||
antal adaptorer | adaptorer 22 | adaptorer 22 | adaptorer 22 | |||
antal aminosyrer | a.a. 20 | a.a. 20 | ||||
symmetrier | ||||||
Rumer | KM-transformation på de to første baser ændrer degenereringen af a.a. | KM-transformation på de to første baser ændrer degenerationen af a.a. | ||||
Klein V-gruppe | de 16 kodoner, der deler transformationen mellem det første og det andet bogstav, har den samme degenerationsfordeling | de 16 tessener, der deler transformationen mellem det første og det andet bogstav har den samme degenerationsfordeling |
Et andet grundlæggende aspekt ved tessera-koden er, at kodningen af et protein kan gøres robust over for +1 rammeforskydninger. Rammevedligeholdelsesrobustheden kan også relateres til cirkulære koder, som er blevet hypotesen, at de spiller en rolle i processerne for rammesynkronisering . Eksistensen af en universel egenskab ved cirkulære koder er blevet sat i forbindelse med oprindelsen af den genetiske kode som par af komplementære kodoner, der koder for enten den samme eller en lignende aminosyre . Den samme formodning støttes i andre sammenhænge . Denne egenskab opstår naturligt i tessera-koden, hvor en tessera og dens omvendte komplement altid koder for den samme aminosyre.