PMC

3. Implications évolutives

Au meilleur de nos connaissances, le code tessère représente une première explication quantitative de l’origine de la dégénérescence dans les codes ancestraux. En tant que tel, il pourrait être pertinent pour expliquer l’évolution du code génétique. Dans la deuxième partie de cet article, nous analysons les implications évolutives possibles du code tessera. Dans ce but, nous rappelons l’hypothèse évolutive présentée par Watanabe & Yokobori qui est basée sur l’analyse de la traduction dans les mitochondries existantes (voir figure 4 adaptée de ). La figure 4 présente des jalons sur lesquels il existe un certain accord et qui représentent les étapes de l’évolution depuis un code génétique primitif jusqu’aux variantes actuelles. En partant des variantes existantes et en remontant dans le temps, on trouve le premier jalon, c’est-à-dire le code génétique universel de LUCA. On suppose que ce code a une structure similaire à celle de l’actuel code génétique nucléaire standard. La variante la plus simple des codes existants est le code génétique mitochondrial des vertébrés qui, principalement pour cette raison, a été proposé comme modèle du prédécesseur du code universel LUCA : le code précoce (le deuxième jalon à partir de la droite dans la figure 4). La principale nouveauté évolutive impliquée par la transition du code précoce au code universel est l’apparition de modifications post-transcriptionnelles dans les ARNt. Ceci est confirmé par le fait que, dans certaines mitochondries métazoaires existantes, un U non modifié en première position de l’anticodon peut s’apparier avec toutes les bases en troisième position du codon . Cela permet de décoder des familles de codons sans avoir besoin de nucléotides modifiés (une famille est un groupe de quatre codons partageant les deux premières bases et codant pour le même acide aminé). Dans la proposition de Watanabe & Yokobori , le code précoce est dérivé d’un code primitif avec moins d’acides aminés, plus dégénérés, c’est-à-dire le code de Jukes . Un tel code est supposé n’être formé que par des familles à l’exception d’un acide aminé et du signal stop qui ont une dégénérescence deux, c’est-à-dire sont codés par deux codons.

Représentation de l’évolution du code génétique, adaptée de . Chaque cercle ou carré représente une étape importante. La ligne du bas montre l’évolution de la longueur des codons impliquée par notre théorie.

Maintenant, notre principale revendication est que le code tessère représente un ancêtre du code primitif, à savoir un code pré-précoce, placé entre le code primitif et le code précoce. Plusieurs arguments plaident en faveur du code tessera en tant que code pré-ancien (la borne carrée de la figure 4). Tout d’abord, il présente exactement la même structure de dégénérescence que le code génétique primitif. De plus, le code tessera est en accord avec l’hypothèse de Baranov et al. qui proposent une origine du code avec de longs oligonucléotides, suivie d’une diminution de la longueur des codons jusqu’à ce que le nombre optimal de 3 soit atteint. Le fait de supposer que le code pré-ancien possède des codons de longueur 4 implique que le code primitif possède également des codons de longueur au moins 4. En effet, nous montrons que le code génétique primitif de Jukes peut être implémenté avec des codons génériques de longueur 4. Dans la description suivante, nous utilisons le terme codon pour désigner les codons de longueur 4 ou les tétracodons. Le code de Jukes comporte 15 acides aminés de dégénérescence 4, un acide aminé de dégénérescence 2 et deux codons stop. Dans l’ensemble, il y a 15 éléments avec une dégénérescence de 4 et 2 éléments avec une dégénérescence de 2. Si nous supposons que ce code provient de codons de 4 nucléotides, cela implique le choix de 17 éléments/acides aminés qui peuvent être codés par deux ou quatre codons pris dans l’ensemble de 44 = 256 codons. Notez que l’ensemble de 256 codons peut être divisé en un sous-ensemble de 32 codons qui possèdent certaines symétries (celles-ci correspondent aux deux premières colonnes du code tessera du tableau 1) et un sous-ensemble de 224 codons sans symétrie. Comme nous l’avons montré ci-dessus, les codons symétriques correspondent aux acides aminés de dégénérescence 2, tandis que les codons asymétriques correspondent aux acides aminés de dégénérescence 4. Maintenant, si nous supposons un mécanisme aléatoire pour l’assignation des codons aux acides aminés, la distribution de dégénérescence qui a la plus grande probabilité correspond exactement à celle du code de Jukes. Nous l’avons montré dans le matériel électronique supplémentaire B. Jukes suppose que l’un des éléments de la dégénérescence 2 est associé au signal stop. Avec ce choix, les codons stop sont moins susceptibles d’être générés par des erreurs aléatoires, c’est-à-dire que ces éléments sont moins ambigus que ceux de la dégénérescence 4. De même, il est naturel d’émettre l’hypothèse que l’autre élément avec la dégénérescence 2 correspond à l’acide aminé qui code pour le signal de départ.

Nous avons montré que le code primitif (version de Jukes) est naturellement décrit avec des codons de longueur 4. Maintenant, nous décrivons un chemin d’évolution possible du code de Jukes vers le code tessera. Dans notre approche, le code primitif est composé de deux paires de codons symétriques et de 60 codons non symétriques. Notez que la sélection des codons symétriques, en raison de leur moindre propension aux erreurs de mutations ponctuelles, représente une première étape pour la sélection de la moitié symétrique de l’ensemble des tessères. Supposons qu’un nouvel adaptateur possédant un anticodon symétrique apparaisse et entre en compétition (porte le même acide aminé) avec un adaptateur existant possédant un anticodon asymétrique. Le nouvel adaptateur peut se lier aux codons symétriques qui font partie de l’ensemble de tessères (deux premières colonnes du tableau 1). Cet adaptateur présente un avantage évolutif par rapport à celui qui porte un anticodon non symétrique, car il possède deux configurations spatiales différentes qui peuvent être utilisées pour se lier au codon. Par exemple, l’adaptateur de la figure 2 porte l’anticodon palindromique AUUA. Si l’adaptateur est inversé, il peut toujours se lier au codon/tessère UAAU. Cette pression sélective entraîne la capture de tous les codons (tétracodons)/tessères symétriques au détriment des codons non symétriques. À la fin de ce processus, nous avons un code composé de 32 tessères symétriques, et de 32 tétracodons non symétriques qui n’appartiennent pas nécessairement à l’ensemble des tessères. À ce stade, une autre étape d’optimisation est atteinte en sélectionnant les tesselles non symétriques : comme le montre l’article , les tesselles sont immunisées contre les mutations ponctuelles4 et, par conséquent, survivent aux tétracodons non tessères en raison de la pression évolutive de la précision du décodage. Les 32 tesselles symétriques sont immunisées contre les mutations ponctuelles (deux mutations ponctuelles simultanées, hautement improbables, sont nécessaires pour produire une transition entre deux tesselles). Cela signifie que les ARNt correspondants ne conduisent pas à l’incorporation d’un acide aminé non reconnu s’ils sont soumis à une mutation ponctuelle. Cette propriété de détection des erreurs implique un avantage évolutif en termes de précision de la synthèse des protéines. Les 32 tétracodons non symétriques restants ne sont pas nécessairement des tessères, mais ceux qui sont des tessères ont la propriété d’immunité aux erreurs de sorte qu’ils seront progressivement sélectionnés pour les raisons ci-dessus. Par conséquent, nous obtenons la structure complète du code pré-arrière tessère dont la distribution de dégénérescence coïncide avec celle du code ancien (et avec celle du code mitochondrial existant des vertébrés).

Nous avons montré que la transition entre le code de Jukes et le code tessère est la plus probable sous des hypothèses minimales. Il est clair que lors de cette transition, la reconnaissance de la tesselle devient plus spécifique que la reconnaissance du tétracodon du code de Jukes. En effet, la propriété de détection des erreurs du code tessera permet de réduire l’ambiguïté liée à la charge en acides aminés des adaptateurs tétracodons. A son tour, la précision accrue dans la reconnaissance des tessères permet d’affiner le choix des acides aminés en raison de la pression évolutive de la performance des protéines.

Notre hypothèse du code tessère en tant que code pré-précoce implique également une autre transition évolutive majeure, à savoir la transition entre le code tessère et le code précoce. Puisque le code précoce est supposé avoir des codons de longueur trois, le problème majeur impliqué par cette transition est lié au changement de longueur des codons qui est généralement considéré comme délétère. Il faut noter que (i) toute théorie sur l’origine du code avec une longueur de codon différente de trois doit faire face à ce problème et (ii) une telle transition est délétère lorsqu’un niveau évolutif dans lequel le code s’est figé est atteint, car cela implique un changement dramatique dans la séquence des acides aminés de toutes les protéines d’un organisme ; cependant, ce n’est pas nécessairement le cas dans les étapes évolutives précédentes plus proches de l’origine du code. Le code tessier permet de trouver une solution nette au problème de la transition des tétracodons aux codons. En fait, l’information portée par l’ensemble des tesselles est redondante. Par définition, si trois des quatre lettres d’une tesselle sont connues, la lettre manquante peut être dérivée de manière univoque. Par conséquent, du point de vue de la théorie du codage, le code des tesselles et tout code génétique trinucléotidique ont le même contenu informationnel. Cela implique qu’une correspondance biunivoque entre les tesselles et les codons peut être établie. La structure essentielle de cette correspondance implique que les transformations entre les lettres adjacentes d’une tesselle deviennent les nucléotides d’un codon. En particulier, étant donné une tesselle b1b2b3b4, nous pouvons avoir trois transformations chimiques entre des lettres adjacentes : t12 = f(b1b2) entre b1 et b2, t23 = f(b2b3) entre b2 et b3, et t34 = f(b3b4) entre b3 et b4. Notons que seules deux de ces trois transformations sont indépendantes puisque t34 = t12. Dans le tableau 4a, nous avons réarrangé le code des tesselles en fonction de la transformation t12 (lignes) et t23 (colonnes). Nous proposons que t12 et t23 soient mis en correspondance avec le premier et le deuxième nucléotide du codon, respectivement (x1, x2). Cette correspondance est présentée dans le tableau 3. De plus, la quatrième lettre b4 est mise en correspondance avec le troisième nucléotide du codon x3. Une représentation schématique de cette correspondance est présentée dans la figure 5. Notez que, selon ce mappage, les colonnes de l’ensemble des tesselles sont mappées sur les colonnes du code génétique de sorte que t23 = I est mappé sur les codons NAN (dégénérescence non-4), et t23 = KM est mappé sur les codons NCN (composés uniquement de familles) ; comparez le tableau 44b au tableau 4c. Nous pouvons observer que ces deux colonnes du code tessier partagent la même dégénérescence avec les colonnes correspondantes du code génétique (soit 4 ou 2 + 2). L’achèvement naturel de la correspondance attribue t23 = SW aux codons NUN et t23 = YR aux codons NGN. Ces deux dernières affectations doivent tenir compte de certaines exceptions déterminées par le fait que, dans la transition des tesselles aux codons, la symétrie de Rumer est effectivement préservée mais pas la symétrie auto-complémentaire. L’interaction tessère-antitessère est plus spécifique que l’interaction codon-anticodon, en raison de la présence de quatre liaisons chimiques de type Watson-Crick. Cependant, dans le cas du code génétique existant, la dégénérescence est principalement déterminée par l’interaction codon-anticodon des deux premières bases. Par conséquent, en supposant que l’énergie de liaison à l’époque antérieure au code est comparable à celle de Watson-Crick, l’énergie d’interaction tessère-anticodon devrait être environ le double de l’énergie réelle codon-anticodon.

Représentation schématique de la correspondance entre la tessère (b1b2b3b4) sur le codon (x1x2x3).

Tableau 3.

Structure de base de la correspondance entre tessères et codons. Les quatre transformations entre les bases d’une tesselle sont mises en correspondance avec les quatre nucléotides d’un codon.

Tesserae transformations t12,t23 Codon bases x1, x2
I ⟶12345 A
SW ⟶12345 U
KM ⟶12345 C
YR ⟶12345 G

Tableau 4.

(a) Le code des tesselles organisé selon les transformations : première-seconde lettre t12 (lignes) et deuxième-troisième lettre t23 (colonnes) ; (b) le même que (a) mais avec les quatuors permutés comme indiqué par les flèches. (c) Dégénérescence du code génétique mitochondrial des vertébrés. Les codons du code mitochondrial des vertébrés en (c) et les tesselles (b) sont reliés par la correspondance biunivoque décrite dans le texte. A l’intérieur des quatuors, les tesselles de même couleur codent pour le même acide aminé : rose et vert = 2 + 2 et blanc = 4.

Donc, d’un point de vue biochimique, le passage des tesselles aux codons implique la transition entre un appariement spécifique complet de type Watson-Crick de quatre bases pour la lecture des tesselles et la stratégie wobble pour la lecture des codons.

En particulier, cela implique des contraintes théoriques sur certaines propriétés de symétrie qui sont présentes dans le monde des tesselles mais ne le sont pas dans les codes existants, par exemple, la perte de la symétrie auto-complémentaire. En effet, chaque colonne du code de la tesselle a une dégénérescence définie, mais dans les codes existants, cela n’est vrai que pour deux colonnes, c’est-à-dire les codons du type NMN (NAN ou NCN). Au contraire, les colonnes correspondant aux codons NKN (NUN ou NGN) ont une dégénérescence mixte ; en particulier, les quadrants qui diffèrent entre les deux codes sont ceux du type SUN et WGN (nous appelons WSN ou SWN mixte par opposition au SSN WWN non mixte). En d’autres termes, les codes existants ont des codons du type WGN qui codifient des acides aminés avec une dégénérescence 2 malgré le fait que la base centrale soit forte, et des codons du type SUN qui codifient des acides aminés avec une dégénérescence 4, malgré le fait que la base centrale soit faible .

Une explication de ces caractéristiques en termes de contraintes énergétiques dépendant de la stéréochimie de l’interaction codon-anticodon est proposée dans . Dans le code génétique existant, une interaction faible est normalement associée à une dégénérescence 2 + 2. En effet, c’est le cas pour les codons du type NAN, AUN et UUN. Cependant, dans le cas d’un U comme deuxième lettre, une stabilisation supplémentaire de la lettre centrale purique N35 dans la boucle anticodon de l’ARNt par U33 permet de lire une famille complète malgré le caractère faible de N35.5 Dans le cas miroir, pour les codons du type AGN et UGN, le nucléotide N35 n’est pas suffisamment stabilisé par U33 et le quatuor associé devient de dégénérescence 2 + 2.

Ces restrictions de stratégie de wobble impliquent que dans le mappage des tesselles aux codons, le quadrant (YR-SW) est échangé avec le quadrant (SW-YR) et le quadrant (KM-SW) avec le quadrant (I-YR) ; voir le tableau 4 (panneaux supérieurs). Finalement, la quatrième lettre d’une tesselle est mise en correspondance avec la troisième lettre d’un codon avec l’exception suivante qui assure un regroupement correct : si b4 = K (T ou G) alors x3 = KM(b4), c’est-à-dire que T et G sont échangés ; sinon x3 = b4. Observez que la correspondance n’est pas nécessairement unique ; Cependant, à notre connaissance, la présente montre qu’il est possible de passer du code des tessères au code existant en décrivant toutes les caractéristiques de dégénérescence connues de ce dernier.

Si, à l’origine, le codage des protéines impliquait des codons de plus de trois bases, alors la machinerie de traduction devrait en porter une certaine mémoire. En effet, la petite sous-unité des ribosomes existants présente une liberté structurelle qui pourrait permettre l’inclusion d’un nucléotide supplémentaire dans le centre de décodage, de sorte que le décodage de codons à quatre bases est possible. Il est à noter que la possibilité d’un codage ancestral avec des quadruplets avait été mentionnée dans . En effet, le décodage de quadruplets a été découvert en 1973 comme un mécanisme lié à la suppression des décalages de cadre et, de nos jours, il est largement utilisé dans les applications de biotechnologie afin d’incorporer des acides aminés non canonique dans les protéines . En outre, la faisabilité biologique des codons de longueur quatre et d’un ribosome orthogonal qui les décode a été démontrée en laboratoire. En outre, il existe des preuves qui indiquent l’existence de gènes chevauchants codés par des tétracodons ; de plus, il a été démontré que les tétracodons jouent un rôle important dans l’analyse phylogénétique, (par exemple ) et cela peut être une indication d’une mémoire génétique.

Un nombre impressionnant de propriétés du code tessère est préservé dans les codes actuels. Le code primitif et tous ses descendants héritent du code tessera le nombre de codons (64 tessères génèrent 64 codons) et le nombre maximum d’acides aminés (23). Le code tessera permet de coder pour 24 éléments/acides aminés. Comme l’un d’entre eux au moins doit représenter un signal d’arrêt, le nombre théorique maximal d’acides aminés représentables est de 23. Il est remarquable qu’aucun code existant ne dépasse cette limite et que le nombre maximal d’acides aminés codés directement par certains génomes soit exactement de 23 : les 20 acides aminés standard plus 2 non standard (sélénocystéine et pyrrolysine) et l’acide aminé d’initiation alternative N-formylméthionine totalisent 23. De plus, le nombre d’adaptateurs utilisés dans le code génétique mitochondrial des vertébrés est de 22 : huit ARNt qui reconnaissent quatre codons chacun, 14 ARNt qui reconnaissent deux codons chacun, et deux paires de codons non associés à des acides aminés . Fait remarquable, 22 est le minimum absolu observé parmi toutes les versions connues du code génétique. De plus, c’est exactement la structure impliquée par le modèle de tesselles : huit adaptateurs primitifs de dégénérescence 4, plus 16 adaptateurs de dégénérescence 2 forment un ensemble de 24 adaptateurs ; si l’on écarte deux adaptateurs de dégénérescence 2 affectés aux codons stop, on obtient exactement 22.

Le code génétique mitochondrial des vertébrés et notre modèle du code primitif basé sur les tesselles partagent également un certain nombre de caractéristiques liées à la symétrie (par exemple, le tableau 5). Tout d’abord, la transformation KM, également connue sous le nom de transformation de Rumer, appliquée au premier doublet d’un codon modifie la dégénérescence de l’acide aminé correspondant. Cette propriété universelle est observée dans la plupart des versions connues du code génétique (tant nucléaire que mitochondrial). Le code tessera possède également cette propriété. Par exemple, le tessera AUUA correspond à un acide aminé de dégénérescence 2, et si l’on applique la transformation KM aux deux premiers nucléotides on obtient le tessera CGUA qui correspond à un acide aminé de dégénérescence 4. Notez que cette propriété est également valable si nous appliquons la transformation de Rumer au t12t23 de la cartographie qui relie les tessères et les codons décrits ci-dessus. Pour de plus amples aperçus, voir .

Tableau 5.

Tableau comparatif entre le code génétique mitochondrial des vertébrés et le code des tessères.

.

code génétique mitochondrial des vertébrés code tessérique
deg. no. codons deg. no. tesselles
dégénérescence 2 16 2 16
4 8 4 8
nombre de codons codons 64 tessères 64
nombre d’adaptateurs adaptateurs 22 adaptateurs 22
nombre d’acides aminés a.a. 20 a.a. 20
symétries
Rumer La transformation KM sur les deux premières bases change la dégénérescence de l’a.a. La transformation KM sur les deux premières bases change la dégénérescence du a.a.
Groupe Klein V les 16 codons partageant la transformation entre la première et la deuxième lettre ont la même distribution de dégénérescence les 16 tesselles partageant la transformation entre. la première et la deuxième lettre ont la même distribution de dégénérescence

Un autre aspect fondamental du code tessère est que le codage d’une protéine peut être rendu robuste aux décalages de trame +1. La robustesse du maintien de la trame peut également être liée aux codes circulaires dont on a supposé qu’ils jouent un rôle dans les processus de synchronisation de la trame . L’existence d’une propriété universelle de code circulaire a été liée à l’origine du code génétique en tant que paires de codons complémentaires codant pour un acide aminé identique ou similaire. La même conjecture est soutenue dans d’autres contextes. Cette propriété apparaît naturellement dans le code de la tesselle où une tesselle et son complément inverse codent toujours pour le même acide aminé.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.