3. Implicaciones evolutivas
Hasta donde sabemos, el código de teselas representa una primera explicación cuantitativa del origen de la degeneración en los códigos ancestrales. Como tal, podría ser relevante para explicar la evolución del código genético. En la segunda parte de este artículo, analizamos las posibles implicaciones evolutivas del código tesela. Para ello, recordamos la hipótesis evolutiva presentada por Watanabe & Yokobori que se basa en el análisis de la traducción en las mitocondrias existentes (véase la figura 4 adaptada de ). La figura 4 presenta hitos sobre los que existe cierto acuerdo y que representan los pasos evolutivos desde un código genético primitivo hasta las variantes actuales. Partiendo de las variantes existentes y retrocediendo en el tiempo, encontramos el primer hito, es decir, el código genético universal de LUCA. Se supone que este código tiene una estructura similar a la del actual código genético nuclear estándar. La variante más simple de los códigos existentes es el código genético mitocondrial de los vertebrados que, principalmente por esta razón, se ha propuesto como modelo del predecesor del código universal de LUCA: el código primitivo (el segundo hito por la derecha en la figura 4). La principal novedad evolutiva que implica la transición del código primitivo al universal es la aparición de modificaciones postranscripcionales en los ARNt. Esto se ve apoyado por el hecho de que, en algunas mitocondrias de metazoos existentes, una U no modificada en la primera posición del anticodón puede emparejarse con todas las bases en la tercera posición del codón . Esto permite descifrar familias de codones sin necesidad de nucleótidos modificados (una familia es un grupo de cuatro codones que comparten las dos primeras bases y codifican el mismo aminoácido). En la propuesta de Watanabe & Yokobori , el código primitivo se deriva de un código primitivo con menos aminoácidos, más degenerado, es decir, el código de Jukes . Se supone que dicho código está formado únicamente por familias con la excepción de un aminoácido y la señal de parada que tienen degeneración dos, es decir, están codificados por dos codones.
Representación de la evolución del código genético, adaptada de Cada círculo o cuadrado representa un hito. La línea inferior muestra la evolución de la longitud de los codones que implica nuestra teoría.
Ahora bien, nuestra principal afirmación es que el código de la tesela representa un ancestro del código primitivo, es decir, un código pre-temprano, situado entre el código primitivo y el primitivo. Hay varios argumentos que apoyan el código tesela como código pre-temprano (el hito cuadrado de la figura 4). En primer lugar, tiene exactamente la misma estructura de degeneración que el código genético primitivo. Además, el código tesela concuerda con la hipótesis de Baranov et al. , que propone un origen del código con oligonucleótidos largos, seguido de una disminución de la longitud de los codones hasta alcanzar el número óptimo de 3. Asumir que el código precoz tiene codones de longitud 4 implica que también el código primitivo tiene codones de longitud al menos 4. De hecho, mostramos que el código genético primitivo de Jukes puede implementarse con codones genéricos de longitud 4. En la siguiente descripción, utilizamos el término codón para referirnos a codones de longitud cuatro o tetracodones. El código de Jukes tiene 15 aminoácidos con degeneración 4, un aminoácido con degeneración 2 y dos codones de parada. En total, hay 15 elementos con degeneración 4 y 2 elementos con degeneración 2. Si asumimos que este código se originó a partir de codones de 4 nucleótidos, entonces esto implica la elección de 17 elementos/aminoácidos que pueden ser codificados por dos o cuatro codones tomados del conjunto de 44 = 256 codones. Obsérvese que el conjunto de 256 codones puede dividirse en un subconjunto de 32 codones que poseen algunas simetrías (éstas corresponden a las dos primeras columnas del código de teselas de la tabla 1) y un subconjunto de 224 codones sin simetría. Como se ha mostrado anteriormente, los codones simétricos corresponden a aminoácidos con degeneración 2, mientras que los asimétricos corresponden a aminoácidos con degeneración 4. Ahora bien, si suponemos un mecanismo aleatorio para la asignación de codones a los aminoácidos, la distribución de degeneración que tiene la mayor probabilidad corresponde exactamente a la del código de Jukes. Lo hemos demostrado en el material suplementario electrónico B. Jukes asume que uno de los elementos de la degeneración 2 está asociado a la señal de parada. Con esta elección, los codones de parada son menos propensos a ser generados por errores aleatorios, es decir, estos elementos son menos ambiguos que los de degeneración 4. Asimismo, es natural hipotetizar que el otro elemento con degeneración 2 corresponde al aminoácido que codifica la señal de inicio.
Hemos demostrado que el código primitivo (la versión de Jukes) se describe de forma natural con codones de longitud 4. Ahora, describimos un posible camino evolutivo desde el código de Jukes hasta el código de teselas. En nuestro enfoque, el código primitivo está compuesto por dos pares de codones simétricos y 60 codones no simétricos. Obsérvese que la selección de codones simétricos, debido a su menor propensión al error de las mutaciones puntuales, representa un primer paso para seleccionar la mitad simétrica del conjunto de teselas. Supongamos que aparece un nuevo adaptador que posee un anticodón simétrico y compite (lleva el mismo aminoácido) con un adaptador existente que tiene un anticodón asimétrico. El nuevo adaptador puede unirse a codones simétricos que forman parte del conjunto de teselas (primeras dos columnas de la tabla 1). Este adaptador tiene una ventaja evolutiva sobre el que lleva un anticodón no simétrico, porque tiene dos configuraciones espaciales diferentes que pueden utilizarse para unirse al codón. Por ejemplo, el adaptador de la figura 2 lleva el anticodón palindrómico AUUA. Si el adaptador se invierte, todavía puede unirse al codón/tessera UAAU. Esta presión selectiva provoca la captura de todos los codones simétricos (tetracodones)/teselas a expensas de los codones no simétricos. Al final de este proceso, tenemos un código compuesto por 32 teselas simétricas y 32 tetracodones no simétricos que no pertenecen necesariamente al conjunto de teselas. En este punto, se llega a un paso más de optimización seleccionando las teselas no simétricas: como se muestra en , las teselas son inmunes a las mutaciones puntuales4 y, por tanto, sobreviven a los tetracodones no simétricos debido a la presión evolutiva de la precisión de la decodificación. Las 32 teselas simétricas son inmunes a las mutaciones puntuales (se necesitan dos mutaciones puntuales simultáneas, altamente improbables, para producir una transición entre dos teselas). Esto significa que los ARNt correspondientes no conducen a la incorporación de un aminoácido no reconocido si son sometidos a una mutación puntual. Esta propiedad de detección de errores implica una ventaja evolutiva en términos de precisión de la síntesis de proteínas. Los 32 tetracodones no simétricos restantes no son necesariamente teselas, pero los que son teselas tienen la propiedad de inmunidad al error, por lo que serán seleccionados gradualmente por las razones mencionadas. Por lo tanto, obtenemos la estructura completa del código precoz de teselas cuya distribución de degeneración coincide con la del código precoz (y con la del código mitocondrial de los vertebrados existentes).
Hemos demostrado que la transición entre el código de Jukes y el código de teselas es la más probable bajo supuestos mínimos. Claramente, en esta transición, el reconocimiento de la tesela se vuelve más específico que el reconocimiento del tetracodón del código de Jukes. En efecto, la propiedad de detección de errores del código de teselas permite reducir la ambigüedad relacionada con la carga de aminoácidos de los adaptadores de tetracodón. A su vez, la mayor precisión en el reconocimiento de la tesela permite afinar la elección de los aminoácidos debido a la presión evolutiva del rendimiento de las proteínas.
Nuestra hipótesis del código de la tesela como un código pre-temprano implica también otra transición evolutiva importante, es decir, la transición entre el código de la tesela y el código temprano. Dado que se supone que el código temprano tiene codones de longitud tres, el principal problema que implica esta transición está relacionado con el cambio en la longitud del codón, que generalmente se considera deletéreo. Nótese que (i) cualquier teoría sobre el origen del código con una longitud de codones diferente a tres debe enfrentarse a este problema y (ii) dicha transición es deletérea cuando se alcanza un nivel evolutivo en el que el código se ha congelado ya que esto implica un cambio dramático en la secuencia de aminoácidos de todas las proteínas de un organismo; sin embargo, este no es necesariamente el caso en pasos evolutivos anteriores más cercanos al origen del código. El código de teselas permite encontrar una solución ordenada al problema de la transición de los tetracodones a los codones. De hecho, la información que transporta el conjunto de teselas es redundante. Por definición, si se conocen tres de las cuatro letras de una tesela, la letra que falta se puede deducir de forma unívoca. Por lo tanto, desde el punto de vista de la teoría de la codificación, el código de las teselas y cualquier código genético de trinucleótidos tienen el mismo contenido informativo. Esto implica que se puede establecer un mapeo uno a uno entre teselas y codones. La estructura esencial de dicho mapeo implica que las transformaciones entre letras adyacentes de una tesela se convierten en los nucleótidos de un codón. En particular, dada una tesela b1b2b3b4 podemos tener tres transformaciones químicas entre letras adyacentes: t12 = f(b1b2) entre b1 y b2, t23 = f(b2b3) entre b2 y b3, y t34 = f(b3b4) entre b3 y b4. Obsérvese que sólo dos de estas tres transformaciones son independientes, ya que t34 = t12. En la tabla 4a, hemos reordenado el código de teselas según la transformación t12 (filas) y t23 (columnas). Proponemos que t12 y t23 se correspondan con el primer y segundo nucleótido del codón, respectivamente (x1, x2). Esta correspondencia se muestra en la tabla 3. Además, la cuarta letra b4 se asigna al tercer nucleótido del codón x3. En la figura 5 se presenta una representación esquemática del mapeo. Obsérvese que, según este mapeo, las columnas del conjunto de teselas se mapean sobre las columnas del código genético, de modo que t23 = I se mapea sobre codones NAN (degeneración no-4), y t23 = KM se mapea sobre codones NCN (compuestos sólo por familias); compárese la tabla44b con la tabla 4c. Podemos observar que estas dos columnas del código de la tesela comparten la misma degeneración con las columnas correspondientes del código genético (ya sea 4 o 2 + 2). La terminación natural del mapeo asigna t23 = SW a los codones NUN y t23 = YR a los codones NGN. Estas dos últimas asignaciones tienen que dar cuenta de algunas excepciones determinadas por el hecho de que en la transición de teselas a codones la simetría de Rumer sí se conserva, pero la simetría autocomplementaria no. La interacción tesela-antitesa es más específica que la codón-anticodón, debido a la presencia de cuatro enlaces químicos tipo Watson-Crick. Sin embargo, en el caso del código genético existente, la degeneración está determinada principalmente por la interacción codón-anticodón de las dos primeras bases. Por lo tanto, suponiendo que la energía de enlace en los tiempos anteriores al código es comparable a la de Watson-Crick, la energía de interacción tesela-antitesa debería ser aproximadamente el doble de la energía real codón-anticodón.
Representación esquemática del mapeo entre la tesela (b1b2b3b4) sobre el codón (x1x2x3).
Tabla 3.
Estructura básica del mapeo entre teselas y codones. Las cuatro transformaciones entre las bases de una tesela se mapean en los cuatro nucleótidos de un codón.
transformaciones de teselas t12,t23 | bases del codón x1, x2 | |
---|---|---|
I | ⟶12345 | A |
SW | ⟶12345 | U |
KM | ⟶12345 | C |
YR | ⟶12345 | G |
Tabla 4.
(a) El código de teselas organizado según las transformaciones: primera-segunda letra t12 (filas) y segunda-tercera letra t23 (columnas); (b) igual que (a) pero con los cuartetos intercambiados como indican las flechas. (c) Degeneración del código genético mitocondrial de los vertebrados. Los codones del código mitocondrial de los vertebrados en (c) y las teselas (b) están relacionados mediante el mapeo uno a uno descrito en el texto. Dentro de los cuartetos, las teselas con el mismo color codifican el mismo aminoácido: rosa y verde = 2 + 2 y blanco = 4.
Así, desde un punto de vista bioquímico, la transición de las teselas a los codones implica la transición entre un emparejamiento específico de cuatro bases para leer las teselas a la estrategia de bamboleo para leer los codones.
En particular, esto implica restricciones teóricas sobre algunas propiedades de simetría que están presentes en el mundo de las teselas pero que no están en los códigos existentes, por ejemplo, la pérdida de la simetría autocomplementaria. De hecho, cada columna del código de las teselas tiene una degeneración definida, pero en los códigos existentes esto sólo es cierto para dos columnas, es decir, los codones del tipo NMN (NAN o NCN). En cambio, las columnas correspondientes a los codones NKN (NUN o NGN) tienen una degeneración mixta; en particular, los cuadrantes que difieren entre los dos códigos son los del tipo SUN y WGN (que llamamos WSN o SWN mixto en contraposición al SSN WWN no mixto). En otras palabras, los códigos existentes tienen codones del tipo WGN que codifican aminoácidos con degeneración 2 a pesar de que la base central es fuerte, y codones del tipo SUN que codifican aminoácidos con degeneración 4, a pesar de que la base central es débil.
Una explicación de tales características en términos de restricciones energéticas que dependen de la estereoquímica de la interacción codón-anticodón se propone en En el código genético existente, una interacción débil se asocia normalmente con una degeneración 2 + 2. De hecho, este es el caso de los codones del tipo NAN, AUN y UUN. Sin embargo, en el caso de una U como segunda letra, una estabilización adicional de la letra central de purina N35 en el bucle de anticodón del ARNt por U33 permite leer una familia completa a pesar del carácter débil de N35.5 En el caso espejo, para los codones del tipo AGN y UGN el nucleótido N35 no está suficientemente estabilizado por U33 y el cuarteto asociado pasa a ser de degeneración 2 + 2.
Estas restricciones de la estrategia de bamboleo implican que en el mapeo de teselas a codones el cuadrante (YR-SW) se intercambia con el cuadrante (SW-YR) y el cuadrante (KM-SW) con el cuadrante (I-YR); véase la tabla 4 (paneles superiores). Finalmente, la cuarta letra de una tesela se mapea en la tercera letra de un codón con la siguiente excepción que asegura una agrupación correcta: si b4 = K (T o G) entonces x3 = KM(b4), es decir, T y G se intercambian; en caso contrario x3 = b4. Obsérvese que el mapeo no es necesariamente único; Sin embargo, a lo mejor de nuestro conocimiento, el presente muestra que es posible pasar del código de la tesela al código extinto describiendo todas las características de degeneración conocidas de este último.
Si, originalmente, la codificación de la proteína implicó codones más largos que tres bases, entonces la maquinaria de la traducción debe llevar alguna memoria de esto. De hecho, la subunidad pequeña de los ribosomas actuales presenta una libertad estructural que podría permitir la inclusión de un nucleótido adicional en el centro de decodificación, de modo que la decodificación de codones de cuatro bases sea factible. Hay que tener en cuenta que la posibilidad de una codificación ancestral con cuatrillos se había mencionado en . De hecho, la decodificación con cuatrillos se descubrió en 1973 como un mecanismo relacionado con la supresión de frameshift y, hoy en día, se utiliza ampliamente en aplicaciones biotecnológicas para incorporar aminoácidos no canónicos en las proteínas . Además, se ha demostrado en el laboratorio la viabilidad biológica de los codones longitudinales y de un ribosoma ortogonal que los descodifica . Asimismo, hay pruebas que apuntan a la existencia de genes superpuestos codificados por tetracodones ; además, se ha demostrado que los tetracodones desempeñan un papel importante en el análisis filogenético, (por ejemplo ) y esto puede ser un indicio de una memoria genética.
Un número impresionante de propiedades del código de teselas se conserva en los códigos actuales. El código primitivo y todos sus descendientes heredan del código tesela el número de codones (64 teselas generan 64 codones) y el número máximo de aminoácidos (23). El código tesela permite codificar 24 elementos/aminoácidos. Como al menos uno de ellos debe representar una señal de parada, el número máximo teórico de aminoácidos representables es de 23. Sorprendentemente, ningún código existente supera este límite y el número máximo de aminoácidos que codifican directamente algunos genomas es exactamente 23: los 20 aminoácidos estándar más 2 no estándar (selenocisteína y pirrolisina) y el aminoácido de iniciación alternativa N-formilmetionina suman 23. Además, el número de adaptadores utilizados en el código genético mitocondrial de los vertebrados es de 22: ocho ARNt que reconocen cuatro codones cada uno, 14 ARNt que reconocen dos codones cada uno y dos pares de codones no asociados a aminoácidos . Sorprendentemente, 22 es el mínimo absoluto observado entre todas las versiones conocidas del código genético. Además, ésta es exactamente la estructura implicada por el modelo de teselas: ocho adaptadores primitivos de degeneración 4, más 16 adaptadores de degeneración 2 forman un conjunto de 24 adaptadores; si descartamos dos adaptadores de degeneración 2 asignados a codones de parada obtenemos exactamente 22.
El código genético mitocondrial de los vertebrados y nuestro modelo del código primitivo basado en teselas también comparten una serie de características relacionadas con la simetría (por ejemplo, la tabla 5). En primer lugar, la transformación KM, también conocida como transformación de Rumer, aplicada al primer doblete de un codón cambia la degeneración del aminoácido correspondiente. Esta propiedad universal se observa en la mayoría de las versiones conocidas del código genético (tanto nuclear como mitocondrial). El código de la tesela también posee esta propiedad. Por ejemplo, la tesela AUUA corresponde a un aminoácido de degeneración 2, y si aplicamos la transformación KM a los dos primeros nucleótidos obtenemos la tesela CGUA que corresponde a un aminoácido de degeneración 4. Obsérvese que esta propiedad también se mantiene si aplicamos la transformación de Rumer al t12t23 del mapeo que conecta teselas y codones descrito anteriormente. Para más información, véase.
Tabla 5.
Tabla comparativa entre el código genético mitocondrial de los vertebrados y el código de las teselas.
código genético mitocondrial de vertebrados | código de teselas | |||
---|---|---|---|---|
deg. | número de codones | deg. | número. teselas | |
degeneración | 2 | 16 | 2 | 16 |
4 | 8 | 4 | 8 | |
número de codones | codones 64 | tesseras 64 | ||
número de adaptadores | adaptadores 22 | adaptadores 22 | ||
número de aminoácidos | a.a. 20 | a.a. 20 | ||
simetrías | ||||
Transformación KM en las dos primeras bases cambia la degeneración de la a.a. | Transformación KM en las dos primeras bases cambia la degeneración de la a.a. | |||
Grupo V de Klein | los 16 codones que comparten la transformación entre la primera y la segunda letra tienen la misma distribución de degeneración | las 16 teselas que comparten la transformación entre la primera y la segunda letra tienen la misma distribución de degeneración |
Otro aspecto fundamental del código de teselas es que la codificación de una proteína puede hacerse robusta a los cambios de marco +1. La robustez en el mantenimiento del marco también puede relacionarse con los códigos circulares que se ha hipotetizado que juegan un papel en los procesos de sincronización del marco . La existencia de una propiedad de código circular universal se ha relacionado con el origen del código genético como pares de codones complementarios que codifican el mismo aminoácido o uno similar. La misma conjetura se apoya en otros contextos . Esta propiedad surge de forma natural en el código de teselas donde una tesela y su complemento inverso siempre codifican el mismo aminoácido.