3. Evoluční důsledky
Podle našich nejlepších znalostí představuje teserový kód první kvantitativní vysvětlení původu degenerace v genetických kódech předků. Jako takový by mohl mít význam pro vysvětlení evoluce genetického kódu. Ve druhé části tohoto článku analyzujeme možné evoluční důsledky teserového kódu. Za tímto účelem připomeneme evoluční hypotézu, kterou představil Watanabe & Yokobori a která je založena na analýze translace v existujících mitochondriích (viz obrázek 4 převzatý z ). Obrázek 4 představuje milníky, na nichž panuje určitá shoda a které představují evoluční kroky od primitivního genetického kódu k současným variantám. Vycházíme-li z dochovaných variant a postupujeme-li zpět v čase, nacházíme první milník, tj. univerzální genetický kód LUCA. Předpokládá se, že tento kód má podobnou strukturu jako současný jaderný standardní genetický kód. Nejjednodušší variantou dochovaných kódů je mitochondriální genetický kód obratlovců, který byl především z tohoto důvodu navržen jako model předchůdce univerzálního kódu LUCA: raný kód (druhý milník zprava na obrázku 4). Hlavní evoluční novinkou, kterou znamená přechod od raného k univerzálnímu kódu, je výskyt posttranskripčních modifikací v tRNA. To je podpořeno skutečností, že v některých dochovaných mitochondriích Metazoanů se může nemodifikované U na první pozici antikodonu párovat se všemi bázemi na třetí pozici kodonu . To umožňuje dekódovat rodiny kodonů bez potřeby modifikovaných nukleotidů (rodina je skupina čtyř kodonů, které mají společné první dvě báze a kódují stejnou aminokyselinu). V návrhu Watanabeho & Yokoboriho , je raný kód odvozen z primitivního kódu s menším počtem degenerovaných aminokyselin, tj. z Jukesova kódu. Takový kód mají tvořit pouze rodiny s výjimkou jedné aminokyseliny a stop signálu, které mají degeneraci dvě, tj. jsou kódovány dvěma kodony.
Zobrazení evoluce genetického kódu, převzato z . Každý kruh nebo čtverec představuje jeden milník. Spodní čára ukazuje evoluci délky kodonu předpokládanou naší teorií.
Nyní naše hlavní tvrzení zní, že teserový kód představuje předka raného kódu, konkrétně předčasný kód, umístěný mezi primitivním a raným kódem. Existuje několik argumentů, které podporují teserový kód jako předčasný kód (čtvercový milník na obrázku 4). Především má přesně stejnou degenerativní strukturu jako raný genetický kód. Navíc je teserový kód ve shodě s hypotézou Baranova a spol. navrhující vznik kódu s dlouhými oligonukleotidy, po němž následovalo zmenšování délky kodonů, dokud nebylo dosaženo optimálního počtu 3 kodonů. Předpoklad, že předčasný kód má kodony o délce 4, znamená, že i primitivní kód má kodony o délce alespoň 4. Skutečně ukážeme, že Jukesův primitivní genetický kód lze realizovat pomocí obecných kodonů o délce 4. V následujícím popisu budeme termínem kodon označovat kodony o délce čtyři nebo tetrakodony. Jukesův kód má 15 aminokyselin s degenerací 4, jednu aminokyselinu s degenerací 2 a dva stop kodony. Celkově se jedná o 15 prvků s degenerací 4 a 2 prvky s degenerací 2. Předpokládáme-li, že tento kód vznikl z kodonů o délce 4 nukleotidů, pak to znamená výběr 17 prvků/aminokyselin, které mohou být kódovány buď dvěma, nebo čtyřmi kodony vybranými ze souboru 44 = 256 kodonů. Všimněte si, že množinu 256 kodonů lze rozdělit na podmnožinu 32 kodonů, které mají určitou symetrii (ty odpovídají prvním dvěma sloupcům teserového kódu v tabulce 1), a podmnožinu 224 kodonů bez symetrie. Jak je uvedeno výše, symetrické kodony odpovídají aminokyselinám s degenerací 2, zatímco asymetrické kodony odpovídají aminokyselinám s degenerací 4. Předpokládáme-li nyní náhodný mechanismus přiřazování kodonů aminokyselinám, rozdělení degenerace, které má nejvyšší pravděpodobnost, přesně odpovídá rozdělení Jukesova kódu. Ukázali jsme to v elektronickém doplňkovém materiálu B. Jukes předpokládá, že jeden z prvků degenerace 2 je spojen se stop signálem. Při této volbě jsou stop kodony méně náchylné ke generování náhodných chyb, tj. tyto prvky jsou méně nejednoznačné než prvky s degenerací 4. Stejně tak je přirozené předpokládat, že druhý prvek s degenerací 2 odpovídá aminokyselině, která kóduje startovací signál.
Ukázali jsme, že primitivní kód (Jukesova verze) je přirozeně popsán kodony délky 4. Nyní popíšeme možnou evoluční cestu od Jukesova kódu ke kódu tessera. V našem přístupu se primitivní kód skládá ze dvou párů symetrických kodonů a 60 nesymetrických kodonů. Všimněte si, že výběr symetrických kodonů vzhledem k jejich menší náchylnosti k chybám bodových mutací představuje první krok pro výběr symetrické poloviny tesserové sady. Předpokládejme, že se objeví nový adaptér, který má symetrický antikodon a konkuruje (nese stejnou aminokyselinu) stávajícímu adaptéru, který má asymetrický antikodon. Nový adaptér se může vázat na symetrické kodony, které jsou součástí tesserové sady (první dva sloupce tabulky 1). Takový adaptér má evoluční výhodu oproti adaptoru nesoucímu nesymetrický antikodon, protože má dvě různé prostorové konfigurace, které lze využít pro vazbu s kodonem. Například adaptér na obrázku 2 nese palindromický antikodon AUUA. Pokud je adaptér obrácený, může se stále vázat s kodonem/tezí UAAU. Tento selekční tlak způsobuje zachycení všech symetrických kodonů (tetrakodonů)/teser na úkor nesymetrických kodonů. Na konci tohoto procesu máme kód složený z 32 symetrických teser a 32 nesymetrických tetrakodonů, které nemusí nutně patřit do sady teser. V tomto bodě je dosaženo dalšího optimalizačního kroku výběrem nesymetrických teser: jak bylo ukázáno v , tesery jsou imunní vůči bodovým mutacím4 , a proto přežívají oproti neteserovým tetrakodonům v důsledku evolučního tlaku na přesnost dekódování. 32 symetrické tesery jsou imunní vůči bodovým mutacím (k přechodu mezi dvěma teserami jsou zapotřebí dvě současné, vysoce nepravděpodobné bodové mutace). To znamená, že odpovídající tRNA nevedou k inkorporaci nepoznané aminokyseliny, pokud jsou vystaveny bodové mutaci. Tato vlastnost detekce chyb znamená evoluční výhodu z hlediska přesnosti syntézy bílkovin. Zbývajících 32 nesymetrických tetrakodonů nemusí být nutně tesery, ale ty, které jsou tesery, mají vlastnost odolnosti vůči chybám, takže budou postupně selektovány z výše uvedených důvodů. Získáváme tedy úplnou strukturu teserového předčasného kódu, jehož rozložení degenerace se shoduje s rozložením degenerace časného kódu (a s rozložením degenerace zachovaného mitochondriálního kódu obratlovců).
Ukázali jsme, že přechod mezi Jukesovým kódem a teserovým kódem je za minimálních předpokladů nejpravděpodobnější. Je zřejmé, že při tomto přechodu se rozpoznávání tesery stává specifičtějším než rozpoznávání tetrakodonu v Jukesově kódu. Vlastnost rozpoznávání chyb teserového kódu totiž umožňuje snížit nejednoznačnost související s aminokyselinovým zatížením tetrakodonových adaptérů. Zvýšená přesnost v rozpoznávání tessery zase umožňuje zpřesnit výběr aminokyselin v důsledku evolučního tlaku na výkonnost bílkovin.
Naše hypotéza o tesserovém kódu jako předčasném kódu znamená také další významný evoluční přechod, tj. přechod mezi tesserovým kódem a časným kódem. Jelikož se předpokládá, že raný kód má kodony délky tři, hlavní problém, který tento přechod implikuje, souvisí se změnou délky kodonu, která je obecně považována za škodlivou . Všimněte si, že (i) každá teorie o vzniku kódu s jinou délkou kodonu než tři se musí s tímto problémem potýkat a (ii) takový přechod je škodlivý, když je dosaženo evoluční úrovně, na níž kód ustrnul, protože to znamená dramatickou změnu v sekvenci aminokyselin všech bílkovin organismu; to však nemusí nutně platit v předchozích evolučních krocích bližších vzniku kódu. Tesserův kód umožňuje najít elegantní řešení problému přechodu od tetrakodonů ke kodonům. Ve skutečnosti je informace nesená teserovou sadou nadbytečná. Podle definice, pokud jsou známa jakákoli tři ze čtyř písmen tesery, pak lze chybějící písmeno odvodit jednoznačně. Z hlediska teorie kódování tedy nese teserový kód a jakýkoli trinukleotidový genetický kód stejný informační obsah. Z toho vyplývá, že mezi teserami a kodony lze vytvořit mapování jedna ku jedné. Základní struktura takového mapování znamená, že transformace mezi sousedními písmeny tesery se stávají nukleotidy kodonu. Konkrétně můžeme mít při zadání tesery b1b2b3b4 tři chemické transformace mezi sousedními písmeny: t12 = f(b1b2) mezi b1 a b2, t23 = f(b2b3) mezi b2 a b3 a t34 = f(b3b4) mezi b3 a b4. Všimněte si, že pouze dvě z těchto tří transformací jsou nezávislé, protože t34 = t12. V tabulce 4a jsme přeuspořádali kód tesery podle transformace t12 (řádky) a t23 (sloupce). Navrhujeme, aby t12 a t23 byly namapovány na první, resp. druhý nukleotid kodonu (x1, x2). Tato korespondence je uvedena v tabulce 3. Kromě toho je čtvrté písmeno b4 mapováno na třetí nukleotid kodonu x3. Schematické znázornění mapování je uvedeno na obrázku 5. Všimněte si, že podle tohoto mapování jsou sloupce sady teser mapovány na sloupce genetického kódu tak, že t23 = I je mapováno na kodony NAN (degenerace non-4) a t23 = KM je mapováno na kodony NCN (složené pouze z rodin); srovnejte tabulku44b s tabulkou 4c. Můžeme si všimnout, že tyto dva sloupce teserového kódu mají stejnou degeneraci s odpovídajícími sloupci genetického kódu (buď 4, nebo 2 + 2). Přirozené dokončení mapování přiřazuje t23 = SW kódům NUN a t23 = YR kódům NGN. Poslední dvě přiřazení musí zohlednit některé výjimky dané tím, že při přechodu od teser ke kodonům je Rumerova symetrie skutečně zachována, ale samodoplňující symetrie nikoli. Interakce tessera-antitessera je specifičtější než interakce kodon-antikodon, a to díky přítomnosti čtyř chemických vazeb typu Watson-Crick. V případě dochovaného genetického kódu je však degenerace určena především interakcí kodon-antikodon prvních dvou bází. Proto za předpokladu, že vazebná energie v dobách před vznikem kódu je srovnatelná s Watson-Crickovou, měla by být energie interakce tessera-antitessera přibližně dvojnásobná oproti skutečné energii kodon-antikodon.
Schematické znázornění mapování mezi teserou (b1b2b3b4) na kodon (x1x2x3).
Tabulka 3.
Základní struktura mapování mezi teserami a kodony. Čtyři transformace mezi bázemi tesery jsou mapovány na čtyři nukleotidy kodonu.
tesserae transformace t12,t23 | báze kodonu x1, x2 | |
---|---|---|
I | ⟶12345 | A |
SW | ⟶12345 | U |
KM | ⟶12345 | C |
YR | ⟶12345 | G |
Tabulka 4.
(a) Kód tesery uspořádaný podle transformací: první-druhé písmeno t12 (řádky) a druhé-třetí písmeno t23 (sloupce); (b) totéž jako (a), ale s prohozenými kvartami, jak naznačují šipky. (c) Degenerace mitochondriálního genetického kódu obratlovců. Kodony mitochondriálního kódu obratlovců v (c) a tesery (b) spolu souvisejí prostřednictvím mapování jedna ku jedné popsaného v textu. Uvnitř kvartetů kódují tesery se stejnou barvou stejnou aminokyselinu: růžová a zelená = 2 + 2 a bílá = 4.
Z biochemického hlediska tedy přechod od teser ke kodonům znamená přechod od plného čtyřbázového specifického párování typu Watson-Crick pro čtení teser ke strategii wobble pro čtení kodonů.
Zejména to znamená teoretické omezení některých symetrických vlastností, které jsou přítomny ve světě teser, ale nejsou v existujících kódech, například ztrátu samokomplementární symetrie. Každý sloupec kódu tesery má totiž určitou degeneraci, ale v existujících kódech to platí pouze pro dva sloupce, tj. pro kodony druhu NMN (NAN nebo NCN). Naopak sloupce odpovídající kodonům NKN (NUN nebo NGN) mají smíšenou degeneraci; konkrétně se liší kvadranty mezi oběma kódy typu SUN a WGN (WSN nebo SWN nazýváme smíšené na rozdíl od nesmíšeného SSN WWN). Jinými slovy, dochované kódy mají kodony typu WGN, které kódují aminokyseliny s degenerací 2, přestože centrální báze je silná, a kodony typu SUN, které kódují aminokyseliny s degenerací 4, přestože centrální báze je slabá .
Vysvětlení těchto rysů z hlediska energetických omezení v závislosti na stereochemii interakce kodon-antikodon je navrženo v . V dochovaném genetickém kódu je slabá interakce obvykle spojena s degenerací 2 + 2 . To je skutečně případ kodonů typu NAN, AUN a UUN. V případě U jako druhého písmene však další stabilizace purinového centrálního písmene N35 v antikodonové smyčce tRNA pomocí U33 umožňuje číst úplnou rodinu i přes slabý charakter N35.5 V zrcadlovém případě u kodonů typu AGN a UGN není nukleotid N35 dostatečně stabilizován U33 a přidružená čtveřice se stává degenerací 2 + 2 .
Tato omezení wobble strategie znamenají, že při mapování z teser na kodony je kvadrant (YR-SW) zaměněn za kvadrant (SW-YR) a kvadrant (KM-SW) za kvadrant (I-YR); viz tabulka 4 (horní panely). Nakonec se čtvrté písmeno tesery mapuje na třetí písmeno kodonu s následující výjimkou, která zajišťuje správné seskupení: pokud b4 = K (T nebo G), pak x3 = KM(b4), tj. prohodí se T a G; jinak x3 = b4. Všimněte si, že toto mapování nemusí být nutně jednoznačné; podle našich nejlepších znalostí však tento ukazuje, že je možné přejít od teserového kódu k existujícímu kódu tím, že se popíší všechny známé degenerační charakteristiky tohoto kódu.
Pokud původně kódování bílkovin zahrnovalo kodony delší než tři báze, pak by překladový stroj měl nést určitou paměť na tuto skutečnost. Malá podjednotka existujících ribosomů skutečně představuje strukturní volnost, která by mohla umožnit zařazení dalšího nukleotidu do dekódovacího centra, takže dekódování čtyřbázových kodonů je proveditelné. Všimněme si, že možnost kódování předků pomocí čtyřnásobných kódů byla zmíněna již v roce . Čtyřnásobné dekódování bylo skutečně objeveno v roce 1973 jako mechanismus související s potlačením posunu rámců a v současné době je široce využíváno v biotechnologických aplikacích za účelem začlenění nekanonických aminokyselin do proteinů . Kromě toho byla v laboratoři prokázána biologická proveditelnost délkových čtyřkódů a ortogonálního ribozomu, který je dekóduje . Také existují důkazy, které poukazují na existenci překrývajících se genů kódovaných tetrakodony ; navíc bylo prokázáno, že tetrakodony hrají důležitou roli ve fylogenetické analýze, (např. ) a to může být známkou genetické paměti.
V současných kódech je zachováno impozantní množství vlastností teserového kódu. Raný kód a všichni jeho potomci zdědili po teserovém kódu počet kodonů (64 teser generuje 64 kodonů) a maximální počet aminokyselin (23). Tesserový kód umožňuje kódovat 24 prvků/aminokyselin. Protože alespoň jeden z nich musí představovat stop signál, je maximální teoretický počet reprezentovatelných aminokyselin 23. Pozoruhodné je, že žádný z existujících kódů tuto hranici nepřekračuje a maximální počet aminokyselin, které jsou přímo kódovány některými genomy, je přesně 23: 20 standardních aminokyselin plus 2 nestandardní (selenocystein a pyrrolyzin) a alternativní iniciační aminokyselina N-formylmethionin dávají dohromady 23. Kromě toho je počet adaptérů používaných v mitochondriálním genetickém kódu obratlovců 22: 8 tRNA, které rozeznávají po čtyřech kodonech, 14 tRNA, které rozeznávají po dvou kodonech, a dva páry kodonů, které nejsou spojeny s aminokyselinami . Pozoruhodné je, že 22 je absolutní minimum pozorované mezi všemi známými verzemi genetického kódu. Také se jedná přesně o strukturu, kterou předpokládá teserový model: osm prvotních adaptérů degenerace 4 plus 16 adaptérů degenerace 2 tvoří soubor 24 adaptérů; pokud vyřadíme dva adaptéry degenerace 2 přiřazené stop kodonům, získáme přesně 22.
Genetický kód obratlovců a náš teserový model raného kódu mají také řadu společných rysů týkajících se symetrie (např. tabulka 5). Především transformace KM, známá také jako Rumerova transformace, aplikovaná na první dublet kodonu mění degeneraci příslušné aminokyseliny. Tato univerzální vlastnost je pozorována u většiny známých verzí genetického kódu (jaderného i mitochondriálního). Tuto vlastnost má i teserový kód. Například tesera AUUA odpovídá aminokyselině s degenerací 2, a pokud aplikujeme transformaci KM na první dva nukleotidy, získáme teseru CGUA, která odpovídá aminokyselině s degenerací 4. Všimněte si, že tato vlastnost platí i v případě, že na t12t23 výše popsaného mapování, které spojuje tesery a kodony, aplikujeme Rumerovu transformaci. Další poznatky viz .
Tabulka 5.
Srovnávací tabulka mezi mitochondriálním genetickým kódem obratlovců a kódem teser.
genetický kód mitochondrií obratlovců | tessera kód | ||||
---|---|---|---|---|---|
deg. | č.kodonů | deg. | č.kod. tesserae | ||
degenerace | 2 | 16 | 2 | 16 | |
4 | 8 | 4 | 8 | ||
čísl. kodonů | kodonů 64 | tesser 64 | |||
počet adaptérů | adaptérů 22 | adaptérů 22 | |||
počet aminokyselin | a.a. 20 | a.a. 20 | |||
symetrie | |||||
Rumer | KM transformace na první dvě báze mění degeneraci a.a. | KM transformace na prvních dvou bázích mění degenerovanost a.a. | |||
Kleinova V. skupina | 16 kodonů sdílejících transformaci mezi prvním a druhým písmenem má stejné rozložení degenerace | 16 teser, které sdílejí transformaci mezi prvním a druhým písmenem mají stejné rozložení degenerace |
Dalším zásadním aspektem teserového kódu je, že kódování proteinu lze učinit odolným vůči posunům +1 rámce. Robustnost udržení rámce může souviset také s kruhovými kódy, o nichž se předpokládá, že hrají roli v procesech synchronizace rámců . Existence vlastnosti univerzálního kruhového kódu souvisí se vznikem genetického kódu jako dvojice komplementárních kodonů kódujících buď stejnou, nebo podobnou aminokyselinu . Stejná domněnka je podporována i v jiných souvislostech . Tato vlastnost přirozeně vzniká v teserovém kódu, kde teser a jeho reverzní komplement vždy kódují stejnou aminokyselinu
.