3. Evolutionaire implicaties
Voor zover wij weten, biedt de tessera code een eerste kwantitatieve verklaring voor de oorsprong van ontaarding in voorouderlijke codes. Als zodanig zou het relevant kunnen zijn voor de verklaring van de evolutie van de genetische code. In het tweede deel van dit artikel analyseren we de mogelijke evolutionaire implicaties van de tessera code. Daartoe herinneren wij aan de evolutionaire hypothese van Watanabe & Yokobori, die gebaseerd is op de analyse van de translatie in bestaande mitochondriën (zie figuur 4, aangepast uit ). Figuur 4 toont mijlpalen waarover enige overeenstemming bestaat en die de evolutionaire stappen vertegenwoordigen van een primitieve genetische code tot de huidige varianten. Uitgaande van de bestaande varianten en teruggaand in de tijd vinden we de eerste mijlpaal, d.w.z. de universele genetische code van LUCA. Er wordt verondersteld dat deze code een structuur heeft die vergelijkbaar is met die van de huidige nucleaire standaard genetische code. De eenvoudigste variant van de bestaande codes is de gewervelde mitochondriale genetische code die, voornamelijk om deze reden, is voorgesteld als model van de voorloper van de universele LUCA code: de vroege code (de tweede mijlpaal van rechts in figuur 4). De belangrijkste evolutionaire nieuwigheid die de overgang van de vroege naar de universele code impliceert, is het verschijnen van post-transcriptionele modificaties in tRNA’s. Dit wordt ondersteund door het feit dat, in sommige bestaande Metazoan mitochondria, een ongewijzigde U op de eerste positie van het anticodon kan paren met alle basen op de derde positie van het codon. Dit maakt het mogelijk families van codons te decoderen zonder de noodzaak van gemodificeerde nucleotiden (een familie is een groep van vier codons die de eerste twee basen delen en coderen voor hetzelfde aminozuur). In het voorstel van Watanabe & Yokobori , is de vroege code afgeleid van een primitieve code met minder, meer gedegenereerde, aminozuren, d.w.z. Jukes’ code . Een dergelijke code wordt verondersteld alleen te worden gevormd door families met uitzondering van één aminozuur en het stopsignaal die degeneratie twee hebben, d.w.z. door twee codons worden gecodeerd.
Voorstelling van de evolutie van de genetische code, aangepast uit . Elke cirkel of vierkant vertegenwoordigt een mijlpaal. De onderste lijn toont de evolutie van de codonlengte geïmpliceerd door onze theorie.
Nu, onze belangrijkste bewering is dat de tessera code een voorouder van de vroege code vertegenwoordigt, namelijk een pre-early code, geplaatst tussen de primitieve en de vroege code. Er zijn verschillende argumenten die de tessera code ondersteunen als een pre-early code (de vierkante mijlpaal in figuur 4). Eerst en vooral heeft hij precies dezelfde ontaardingsstructuur als de vroege genetische code. Bovendien is de tessera code in overeenstemming met de hypothese van Baranov et al. , die een oorsprong van de code met lange oligonucleotiden voorstelt, gevolgd door een vermindering van de codonlengte tot het optimale aantal van 3 was bereikt. Aangenomen dat de pre-vroege code codons van lengte 4 heeft, impliceert dat ook de primitieve code codons heeft van lengte ten minste 4. Wij tonen inderdaad aan dat Jukes’ primitieve genetische code kan worden geïmplementeerd met generieke codons van lengte 4. In de volgende beschrijving gebruiken wij de term codon om codons van lengte vier of tetracodons aan te duiden. Jukes’ code heeft 15 aminozuren met degeneratie 4, één aminozuur met degeneratie 2 en twee stopcodons. In totaal zijn er 15 elementen met ontaarding 4 en 2 elementen met ontaarding 2. Als we aannemen dat deze code is ontstaan uit codons van 4 nucleotiden, dan impliceert dit de keuze van 17 elementen/aminozuren die kunnen worden gecodeerd door ofwel twee ofwel vier codons, genomen uit de verzameling van 44 = 256 codons. Merk op dat de verzameling van 256 codons verdeeld kan worden in een deelverzameling van 32 codons die enige symmetrie bezitten (deze komen overeen met de eerste twee kolommen van de tessera code van tabel 1) en een deelverzameling van 224 codons zonder symmetrie. Zoals hierboven is aangetoond, komen symmetrische codons overeen met aminozuren met ontaarding 2, terwijl asymmetrische codons overeenkomen met aminozuren met ontaarding 4. Als we nu een willekeurig mechanisme veronderstellen voor de toewijzing van codons aan aminozuren, dan komt de ontaardingsverdeling met de grootste waarschijnlijkheid precies overeen met die van Jukes’ code. Wij hebben dit aangetoond in het elektronisch aanvullend materiaal B. Jukes gaat ervan uit dat een van de elementen van ontaarding 2 geassocieerd is met het stopsignaal. Met deze keuze zijn stopcodons minder vatbaar voor toevallige fouten, d.w.z. dat deze elementen minder ambigu zijn dan die met ontaarding 4. Evenzo is het natuurlijk om te veronderstellen dat het andere element met ontaarding 2 overeenkomt met het aminozuur dat codeert voor het startsignaal.
We hebben aangetoond dat de primitieve code (Jukes’ versie) op natuurlijke wijze wordt beschreven met codons van lengte 4. Nu beschrijven we een mogelijk evolutionair pad van Jukes’ code naar de tessera code. In onze benadering is de primitieve code samengesteld uit twee paren symmetrische codons en 60 niet-symmetrische codons. Merk op dat de selectie van symmetrische codons, wegens hun geringere neiging tot puntmutatiefouten, een eerste stap vormt voor de selectie van de symmetrische helft van de tessera-reeks. Stel dat een nieuwe adaptor met een symmetrisch anticodon verschijnt en concurreert (hetzelfde aminozuur draagt) met een bestaande adaptor met een asymmetrisch anticodon. De nieuwe adaptor kan zich binden aan symmetrische codons die deel uitmaken van de tessera-reeks (eerste twee kolommen van tabel 1). Een dergelijke adaptor heeft een evolutionair voordeel ten opzichte van de adaptor met een niet-symmetrisch anticodon, omdat hij twee verschillende ruimtelijke configuraties heeft die gebruikt kunnen worden voor binding met het codon. Bijvoorbeeld, de adaptor in figuur 2 draagt het palindromische anticodon AUUA. Als de adaptor wordt omgekeerd, kan hij zich nog steeds binden aan het codon/tessera UAAU. Deze selectieve druk veroorzaakt de vangst van alle symmetrische codons (tetracodons)/tesserae ten koste van niet-symmetrische codons. Aan het einde van dit proces hebben we een code die bestaat uit 32 symmetrische tesserae, en 32 niet-symmetrische tetracodons die niet noodzakelijk tot de tesserareeks behoren. Op dit punt wordt een verdere optimalisatiestap bereikt door het selecteren van niet-symmetrische tesserae: zoals aangetoond in , zijn tesserae immuun voor puntmutaties4 en, dus, overleven ze t.o.v. niet-tessera tetracodons door de evolutionaire druk van decoderingsnauwkeurigheid. De 32 symmetrische tesserae zijn immuun voor puntmutaties (er zijn twee gelijktijdige, hoogst onwaarschijnlijke, puntmutaties nodig om een overgang tussen twee tesserae tot stand te brengen). Dit betekent dat de corresponderende tRNA’s niet leiden tot de incorporatie van een niet-herkend aminozuur als zij een puntmutatie ondergaan. Deze eigenschap van foutdetectie impliceert een evolutionair voordeel in termen van nauwkeurigheid van de eiwitsynthese. De overige 32 niet-symmetrische tetracodons zijn niet noodzakelijkerwijs tesserae, maar zij die tesserae zijn hebben de eigenschap van foutimmuniteit, zodat zij om de bovengenoemde redenen geleidelijk zullen worden geselecteerd. Vandaar verkrijgen wij de volledige structuur van de tessera pre-early code waarvan de ontaardingsverdeling samenvalt met die van de early code (en met die van de extant vertebrate mitochondrial code).
Wij hebben aangetoond dat de overgang tussen Jukes’ code en de tessera code de meest waarschijnlijke is onder minimale veronderstellingen. Het is duidelijk dat bij deze overgang de tessera-herkenning specifieker wordt dan de tetracodon-herkenning van Jukes’ code. Inderdaad, de eigenschap van foutdetectie van de tessera code laat toe om de dubbelzinnigheid in verband met de aminozuurlading van tetracodon adaptors te verminderen. Op zijn beurt laat de grotere precisie in de tessera herkenning toe om de keuze van aminozuren te verfijnen als gevolg van de evolutionaire druk van eiwitprestaties.
Onze hypothese van de tessera code als een pre-early code impliceert ook een andere belangrijke evolutionaire overgang, namelijk de overgang tussen de tessera code en de early code. Aangezien de vroege code verondersteld wordt codons van lengte drie te hebben, houdt het grote probleem van deze overgang verband met de verandering in codonlengte, die over het algemeen als schadelijk wordt beschouwd. Merk op dat (i) elke theorie over de oorsprong van de code met codonlengte verschillend van drie dit probleem onder ogen moet zien en (ii) een dergelijke overgang schadelijk is wanneer een evolutionair niveau bereikt wordt waarin de code bevroren is, aangezien dit een dramatische verandering impliceert in de volgorde van de aminozuren van alle proteïnen van een organisme; dit is echter niet noodzakelijk het geval in eerdere evolutionaire stappen dichter bij de oorsprong van de code. De tessera code maakt het mogelijk een nette oplossing te vinden voor het probleem van de overgang van tetracodons naar codons. In feite is de informatie die door de tesserareeks wordt gedragen, redundant. Per definitie, indien drie van de vier letters van een tessera bekend zijn, dan kan de ontbrekende letter eenduidig worden afgeleid. Vanuit het oogpunt van de coderingstheorie hebben de tesseracode en elke willekeurige genetische trinucleotidecode dus dezelfde informatie-inhoud. Dit impliceert dat een één-op-één mapping tussen tesserae en codons kan worden vastgesteld. De essentiële structuur van een dergelijke mapping houdt in dat de transformaties tussen aangrenzende letters van een tessera de nucleotiden van een codon worden. In het bijzonder, gegeven een tessera b1b2b3b4 kunnen we drie chemische transformaties hebben tussen aangrenzende letters: t12 = f(b1b2) tussen b1 en b2, t23 = f(b2b3) tussen b2 en b3, en t34 = f(b3b4) tussen b3 en b4. Merk op dat slechts twee van deze drie transformaties onafhankelijk zijn, want t34 = t12. In tabel 4a hebben we de tessera code herschikt volgens de transformatie t12 (rijen) en t23 (kolommen). Wij stellen voor dat t12 en t23 worden toegewezen aan respectievelijk de eerste en de tweede nucleotide van het codon (x1, x2). Deze overeenkomst is weergegeven in tabel 3. Bovendien wordt de vierde letter b4 gemapt op de derde nucleotide van het codon x3. Een schematische voorstelling van de mapping is te zien in figuur 5. Merk op dat volgens deze mapping de kolommen van de tesserareeks worden gemapt op de kolommen van de genetische code, zodat t23 = I wordt gemapt op NAN- codons (ontaarding niet-4), en t23 = KM wordt gemapt op NCN- codons (alleen samengesteld uit families); vergelijk tabel 44b met tabel 4c. We kunnen opmerken dat deze twee kolommen van de tessera code dezelfde ontaarding hebben met de overeenkomstige kolommen van de genetische code (ofwel 4 ofwel 2 + 2). De natuurlijke voltooiing van de mapping wijst t23 = SW toe aan NUN codons en t23 = YR aan NGN codons. De laatste twee toewijzingen moeten rekening houden met enkele uitzonderingen die bepaald worden door het feit dat bij de overgang van tesserae naar codons de symmetrie van Rumer wel behouden blijft, maar de zelf-complementaire symmetrie niet. De tessera-antitessera interactie is specifieker dan de codon-anticodon interactie, door de aanwezigheid van vier Watson-Crick-achtige chemische bindingen. In het geval van de bestaande genetische code wordt de ontaarding echter hoofdzakelijk bepaald door de codon-anticodon interactie van de eerste twee basen. Door aan te nemen dat de bindingsenergie in de pre-vroege codetijd vergelijkbaar is met die van Watson-Crick, zou de tessera-antitessera interactie-energie dus ongeveer het dubbele moeten zijn van de werkelijke codon-anticodon-energie.
Schematische weergave van de mapping tussen de tessera (b1b2b3b4) en het codon (x1x2x3).
Tabel 3.
Basisstructuur van de mapping tussen tesserae en codons. De vier transformaties tussen de basen van een tessera worden in kaart gebracht op de vier nucleotiden van een codon.
tesserae transformaties t12,t23 | codonbasen x1, x2 | |
---|---|---|
I | ⟶12345 | A |
SW | ⟶12345 | U |
KM | ⟶12345 | C |
YR | ⟶12345 | G |
Tabel 4.
(a) De tessera code geordend volgens de transformaties: eerste-tweede letter t12 (rijen) en tweede-derde letter t23 (kolommen); (b) idem als (a) maar met de verwisselde kwartetten zoals aangegeven door de pijlen. (c) Degeneratie van de vertebraten mitochondriale genetische code. De codons van de vertebrate mitochondriale code in (c) en de tesserae (b) zijn verwant via de één-op-één mapping beschreven in de tekst. Binnen kwartetten coderen tesserae met dezelfde kleur voor hetzelfde aminozuur: roze en groen = 2 + 2 en wit = 4.
Dus vanuit biochemisch oogpunt impliceert de overgang van tesserae naar codons de overgang van een volledig vier basen lange specifieke Watson-Crick-achtige koppeling voor het lezen van tesserae naar de wobble-strategie voor het lezen van codons.
In het bijzonder impliceert dit theoretische beperkingen op sommige symmetrie-eigenschappen die aanwezig zijn in de wereld van tesserae maar niet in de bestaande codes, bijvoorbeeld het verlies van de zelf-complementaire symmetrie. Elke kolom van de tesseracode heeft immers een bepaalde ontaarding, maar in de bestaande codes geldt dit slechts voor twee kolommen, d.w.z. codons van het type NMN (NAN of NCN). In plaats daarvan hebben de kolommen die overeenkomen met de codons NKN (NUN of NGN) gemengde ontaarding; in het bijzonder zijn de verschillende kwadranten tussen de twee codes die van het type SUN en WGN (we noemen WSN of SWN gemengd in tegenstelling tot het niet-gemengde SSN WWN). Met andere woorden, bestaande codes hebben codons van het type WGN die aminozuren coderen met ontaarding 2, ondanks het feit dat de centrale base sterk is, en codons van het type SUN die aminozuren coderen met ontaarding 4, ondanks het feit dat de centrale base zwak is.
Een verklaring van dergelijke kenmerken in termen van energetische beperkingen afhankelijk van de stereo-chemie van de codon-anticodon interactie wordt voorgesteld in . In de bestaande genetische code wordt een zwakke interactie normaal geassocieerd met een 2 + 2 ontaarding. Dit is inderdaad het geval voor codons van het type NAN, AUN en UUN. In het geval van een U als tweede letter echter maakt een verdere stabilisatie van de centrale purineletter N35 in de anticodon-lus van het tRNA door U33 het mogelijk een volledige familie af te lezen ondanks het zwakke karakter van N35.5 In het spiegelbeeldige geval, voor codons van het type AGN en UGN wordt de nucleotide N35 niet voldoende gestabiliseerd door U33 en wordt het bijbehorende kwartet van ontaarding 2 + 2.
Deze wobble strategie beperkingen impliceren dat in de mapping van tesserae naar codons het kwadrant (YR-SW) verwisseld wordt met kwadrant (SW-YR) en kwadrant (KM-SW) met kwadrant (I-YR); zie tabel 4 (bovenste panelen). Uiteindelijk wordt de vierde letter van een tessera gemapt op de derde letter van een codon met de volgende uitzondering die een correcte groepering verzekert: als b4 = K (T of G) dan x3 = KM(b4), d.w.z. T en G zijn verwisseld; anders x3 = b4. Merk op dat de mapping niet noodzakelijk uniek is; maar, voor zover wij weten, toont de huidige aan dat het mogelijk is om van de tessera code over te gaan naar de extante code door alle bekende ontaardingskenmerken van de laatste te beschrijven.
Als, oorspronkelijk, eiwitcodering codons omvatte die langer waren dan drie basen, dan zou de vertaalmachine daar enige herinnering aan moeten hebben. De kleine subeenheid van de bestaande ribosomen vertoont namelijk een structurele vrijheid die de opname van een extra nucleotide in het decoderingscentrum mogelijk zou kunnen maken, zodat de decodering van codons van vier bases mogelijk is. Merk op dat de mogelijkheid van voorouderlijke codering met quadruplets in 1973 werd ontdekt als een mechanisme dat verband houdt met frameshift-onderdrukking en tegenwoordig wordt het veel gebruikt in biotechnologische toepassingen om niet-canonieke aminozuren in eiwitten op te nemen. Bovendien is de biologische haalbaarheid van lengte-vier codons en van een orthogonaal ribosoom dat ze decodeert, in het laboratorium aangetoond . Ook zijn er aanwijzingen die wijzen op het bestaan van overlappende genen die door tetracodons worden gecodeerd ; bovendien is aangetoond dat tetracodons een belangrijke rol spelen in de fylogenetische analyse, (b.v. ) en dit kan een aanwijzing zijn van een genetisch geheugen.
Een indrukwekkend aantal eigenschappen van de tessera code is bewaard gebleven in de huidige codes. De vroege code en al zijn afstammelingen erven van de tessera code het aantal codons (64 tesserae genereren 64 codons) en het maximum aantal aminozuren (23). De tessera code maakt het mogelijk om voor 24 elementen/aminozuren te coderen. Aangezien ten minste één van deze elementen een stopsignaal moet voorstellen, is het theoretisch maximum aantal representeerbare aminozuren 23. Opmerkelijk is dat geen enkele bestaande code deze limiet overschrijdt en dat het maximum aantal aminozuren dat rechtstreeks door sommige genomen wordt gecodeerd precies 23 is: de 20 standaard aminozuren plus 2 niet-standaard aminozuren (selenocysteïne en pyrrolysine) en het alternatieve initiatie-aminozuur N-formylmethionine vormen samen 23. Bovendien bedraagt het aantal adaptors dat in de gewervelde mitochondriale genetische code wordt gebruikt 22: acht tRNA’s die elk vier codons herkennen, 14 tRNA’s die elk twee codons herkennen, en twee paren codons die niet met aminozuren geassocieerd zijn . Opmerkelijk is dat 22 het absolute minimum is dat bij alle bekende versies van de genetische code is waargenomen. Ook is dit precies de structuur die het tessera model impliceert: acht oeradaptors van ontaarding 4, plus 16 adaptors van ontaarding 2 vormen een set van 24 adaptors; als we twee adaptors van ontaarding 2, toegewezen aan stopcodons, weglaten, krijgen we precies 22.
De gewervelde mitochondriale genetische code en ons op tessera gebaseerde model van de vroege code delen ook een aantal kenmerken met betrekking tot symmetrie (bijv. tabel 5). Eerst en vooral verandert de KM transformatie, ook bekend als Rumer’s transformatie, toegepast op het eerste doublet van een codon, de ontaarding van het corresponderende aminozuur. Deze universele eigenschap wordt waargenomen in de meeste bekende versies van de genetische code (zowel nucleair als mitochondriaal). Ook de tessera code bezit deze eigenschap. Bijvoorbeeld, de tessera AUUA correspondeert met een aminozuur van ontaarding 2, en als we de KM transformatie toepassen op de eerste twee nucleotiden krijgen we de tessera CGUA die correspondeert met een aminozuur van ontaarding 4. Merk op dat deze eigenschap ook geldt als we Rumer’s transformatie toepassen op de t12t23 van de hierboven beschreven mapping die tesserae en codons verbindt. Voor verdere inzichten, zie .
Tabel 5.
Vergelijkende tabel tussen de vertebrate mitochondriale genetische code en de tessera code.
vertebrate mitochondrial genetic code | tessera code | |||
---|---|---|---|---|
deg. | no. codons | deg. | no. tesserae | |
degeneratie | 2 | 16 | 2 | 16 |
4 | 8 | 4 | 8 | |
aantal van codons | codons 64 | tesserae 64 | ||
aantal adaptors | adaptors 22 | adaptors 22 | ||
aantal aminozuren | a.a. 20 | a.a. 20 | ||
symmetrieën | ||||
Rumer | KM-transformatie op de eerste twee basen verandert de degeneratie van de a.a. | KM transformatie op de eerste twee basen verandert de ontaarding van de a.a. | ||
Klein V groep | de 16 codons die de transformatie tussen de eerste en de tweede letter delen, hebben dezelfde ontaardingsverdeling | de 16 tesserae die de transformatie tussen de eerste en de tweede letter hebben dezelfde ontaardingsverdeling |
Een ander fundamenteel aspect van de tessera code is dat de codering van een eiwit robuust gemaakt kan worden voor +1 frame verschuivingen. De robuustheid van het framebehoud kan ook worden gerelateerd aan circulaire codes, waarvan wordt verondersteld dat ze een rol spelen in de processen van framesynchronisatie. Het bestaan van een universele circulaire code is in verband gebracht met de oorsprong van de genetische code als paren van complementaire codons die coderen voor hetzelfde of een soortgelijk aminozuur. Dezelfde veronderstelling wordt ook in andere contexten gesteund. Deze eigenschap doet zich op natuurlijke wijze voor in de tessera code waar een tessera en zijn omgekeerde complement altijd voor hetzelfde aminozuur coderen.