3. Implicações evolutivas
O melhor que sabemos, o código tessera representa uma primeira explicação quantitativa para a origem da degenerescência em códigos ancestrais. Como tal, pode ser relevante para explicar a evolução do código genético. Na segunda parte deste artigo, analisamos as possíveis implicações evolutivas do código tessera. Para isso, recordamos a hipótese evolutiva apresentada por Watanabe & Yokobori que se baseia na análise da tradução nas mitocôndrias existentes (ver figura 4 adaptada de ). A figura 4 apresenta marcos sobre os quais existe alguma concordância e que representam os passos evolutivos desde um código genético primitivo até às variantes actuais. Partindo das variantes existentes e recuando no tempo encontramos o primeiro marco, ou seja, o código genético universal da LUCA. Este código é uma hipótese de ter uma estrutura semelhante à do código genético padrão nuclear atual. A variante mais simples dos códigos existentes é o código genético mitocondrial vertebrado que, principalmente por esta razão, foi proposto como modelo do predecessor do código LUCA universal: o código inicial (o segundo marco da direita na figura 4). A principal novidade evolutiva implícita pela transição do código precoce para o universal é o aparecimento de modificações pós-transcritas nos tRNAs. Isto é apoiado pelo fato de que, em algumas mitocôndrias metazoárias existentes, um U não modificado na primeira posição do anticódon pode emparelhar com todas as bases na terceira posição do códon . Isto permite descodificar famílias de códons sem a necessidade de nucleotídeos modificados (uma família é um grupo de quatro códons que partilham as duas primeiras bases e codificam para o mesmo aminoácido). Na proposta de Watanabe & Yokobori , o código primitivo é derivado de um código primitivo com menos, mais degenerados, aminoácidos, ou seja, o código dos Jukes . Tal código é suposto ser formado apenas por famílias com excepção de um aminoácido e do sinal de paragem que têm degeneração dois, ou seja, são codificados por dois códons.
Representação da evolução do código genético, adaptado de . Cada círculo ou quadrado representa um marco miliário. A linha inferior mostra a evolução do comprimento do códão implícita pela nossa teoria.
Agora, a nossa principal alegação é que o código tessera representa um antepassado do código primitivo, ou seja, um código pré-natal, colocado entre o código primitivo e o código primitivo. Existem vários argumentos que suportam o código tessera como código pré-auricular (o marco quadrado na figura 4). Primeiro e acima de tudo, ele tem exatamente a mesma estrutura de degenerescência do código genético primitivo. Além disso, o código tessera está de acordo com a hipótese de Baranov et al. , propondo uma origem do código com oligonucleotídeos longos, seguida por uma diminuição do comprimento do códão até que o número ótimo de 3 seja alcançado. Assumindo que o código pré-arly tem códons de comprimento 4 implica que também o código primitivo tem códons de comprimento pelo menos 4. Na verdade, mostramos que o código genético primitivo dos Jukes pode ser implementado com códons genéricos de comprimento 4. Na descrição seguinte, usamos o termo códon para significar códons de comprimento 4 ou tetracodons. O código dos Jukes tem 15 aminoácidos com degenerescência 4, um aminoácido com degenerescência 2 e dois códons de parada. No total, existem 15 elementos com degenerescência 4 e 2 elementos com degenerescência 2. Se assumirmos que este código teve origem em códons de 4 nucleotídeos, então isto implica a escolha de 17 elementos/aminoácidos que podem ser codificados por dois ou quatro códons retirados do conjunto de 44 = 256 códons. Note que o conjunto de 256 códons pode ser dividido num subconjunto de 32 códons que possuem algumas simetrias (estas correspondem às duas primeiras colunas do código tessera da tabela 1) e um subconjunto de 224 códons sem simetria. Como mostrado acima, códons simétricos correspondem a aminoácidos com degenerescência 2, enquanto códons assimétricos correspondem a aminoácidos com degenerescência 4. Agora, se assumirmos um mecanismo aleatório para a atribuição de códons a aminoácidos, a distribuição da degenerescência que tem a maior probabilidade corresponde exatamente à do código de Jukes. Nós mostramos isto no material eletrônico suplementar B. Jukes assume que um dos elementos da degenerescência 2 está associado com o sinal de parada. Com esta escolha, os códigos de parada são menos propensos a serem gerados por erros aleatórios, ou seja, estes elementos são menos ambíguos do que aqueles com degenerescência 4. Da mesma forma, é natural que o outro elemento com degenerescência 2 corresponda ao aminoácido que codifica o sinal de início.
Mostramos que o código primitivo (versão de Jukes) é naturalmente descrito com códons de comprimento 4. Agora, descrevemos um possível caminho evolutivo do código de Jukes para o código de tessera. Na nossa abordagem, o código primitivo é composto por dois pares de códones simétricos e 60 códones não simétricos. Note que a seleção dos códons simétricos, devido à sua menor propensão a apontar o erro de mutações, representa um primeiro passo para selecionar a metade simétrica do conjunto tessera. Suponha que um novo adaptador possuindo um anticódon simétrico aparece e compete (carrega o mesmo aminoácido) com um adaptador existente possuindo um anticódon assimétrico. O novo adaptador pode ligar-se a códons simétricos que fazem parte do conjunto tessera (primeiras duas colunas da tabela 1). Tal adaptador tem uma vantagem evolutiva sobre o que carrega um anticódão não simétrico, pois tem duas configurações espaciais diferentes que podem ser usadas para encadernação com o códão. Por exemplo, o adaptador da figura 2 carrega o anti-códão palíndromo AUUA. Se o adaptador for invertido, ele ainda pode ligar-se ao códão/tessera UAAU. Esta pressão seletiva causa a captura de todos os códons simétricos (tetracodons)/tesserae à custa dos códons não simétricos. No final deste processo, temos um código composto por 32 tesselas simétricas, e 32 tetracodões não simétricos que não pertencem necessariamente ao conjunto tessera. Neste ponto, um novo passo de otimização é alcançado selecionando tesserae não simétricas: como mostrado em , as tesserae são imunes a mutações pontuais4 e, portanto, sobrevivem aos tetracodons não-tessera devido à pressão evolutiva da precisão de decodificação. As 32 tesserae simétricas são imunes a mutações pontuais (duas mutações pontuais simultâneas, altamente improváveis, são necessárias para produzir uma transição entre duas tesserae). Isto significa que os tRNAs correspondentes não levam à incorporação de um aminoácido não congnato se forem submetidos a uma mutação pontual. Esta propriedade de detecção de erros implica uma vantagem evolutiva em termos de precisão da síntese proteica. Os 32 tetracodons não simétricos restantes não são necessariamente tesserae, mas aqueles que são tesserae têm a propriedade de imunidade ao erro, de modo que serão gradualmente selecionados pelas razões acima mencionadas. Assim, obtemos a estrutura completa do código tessera pré-auricular cuja distribuição de degenerescência coincide com a do código inicial (e com a do código mitocondrial dos vertebrados existentes).
Mostramos que a transição entre o código dos Jukes e o código tessera é a mais provável sob hipóteses mínimas. Claramente, nesta transição, o reconhecimento tessera torna-se mais específico do que o reconhecimento tetracodon do código dos Jukes. De fato, a propriedade de detecção de erro do código tessera permite reduzir a ambigüidade relacionada à carga de aminoácidos dos adaptadores de tetracodon. Por sua vez, a maior precisão no reconhecimento do código tessera permite refinar a escolha dos aminoácidos devido à pressão evolutiva da performance proteica.
A nossa hipótese do código tessera como código pré-auricular implica também outra grande transição evolutiva, ou seja, a transição entre o código tessera e o código inicial. Uma vez que o código primitivo é suposto ter códons de comprimento três, o maior problema implicado por esta transição está relacionado com a mudança no comprimento do códon, que é geralmente considerado deletério. Note-se que (i) qualquer teoria sobre a origem do código com códão de comprimento diferente de três deve enfrentar este problema e (ii) tal transição é deletério quando se atinge um nível evolutivo no qual o código congelou, já que isto implica uma mudança dramática na sequência de aminoácidos de todas as proteínas de um organismo; no entanto, isto não é necessariamente o caso em passos evolutivos anteriores mais próximos da origem do código. O código tessera permite encontrar uma boa solução para o problema da transição dos tetracódones para os códones. Na verdade, a informação transportada pelo conjunto tessera é redundante. Por definição, se quaisquer três, de quatro, letras de um tessera são conhecidas, então a letra que falta pode ser derivada univocamente. Assim, do ponto de vista da teoria da codificação, o código tessera e qualquer código genético do trinucleotídeo têm o mesmo conteúdo informativo. Isto implica que um mapeamento um-a-um entre tessera e códons pode ser estabelecido. A estrutura essencial de tal mapeamento implica que as transformações entre as letras adjacentes de um tessera tornam-se os nucleotídeos de um códon. Em particular, dada uma tessera b1b2b3b4 podemos ter três transformações químicas entre letras adjacentes: t12 = f(b1b2) entre b1 e b2, t23 = f(b2b3) entre b2 e b3, e t34 = f(b3b4) entre b3 e b4. Note que apenas duas destas três transformações são independentes, uma vez que t34 = t12. Na tabela 4a, rearranjamos o código tessera de acordo com a transformação t12 (filas) e t23 (colunas). Propomos que t12 e t23 sejam mapeados no primeiro e segundo nucleotídeo do códão, respectivamente (x1, x2). Esta correspondência é mostrada na tabela 3. Além disso, a quarta letra b4 é mapeada para o terceiro nucleotídeo do códon x3. Uma representação esquemática do mapeamento é apresentada na figura 5. Note que, de acordo com este mapeamento, as colunas do conjunto tessera são mapeadas nas colunas do código genético para que t23 = I seja mapeado nos códons NAN (degeneração não-4), e t23 = KM seja mapeado nos códons NCN (composto apenas de famílias); compare a tabela tabela44b com a tabela 4c. Podemos observar que estas duas colunas do código tessera partilham a mesma degenerescência com as colunas correspondentes do código genético (seja 4 ou 2 + 2). O preenchimento natural do mapeamento atribui t23 = SW aos códons NUN e t23 = YR aos códons NGN. Estas duas últimas atribuições precisam de ter em conta algumas excepções determinadas pelo facto de na transição de tesserae para os códões Rumer a simetria é de facto preservada, mas a simetria auto-complementar não pode. A interação tessera-antitessera é mais específica do que a do códon-anticodonte, devido à presença de quatro ligações químicas do tipo Watson-Crick-. No entanto, no caso do código genético existente, a degenerescência é principalmente determinada pela interacção códon-anticodonte das duas primeiras bases. Assim, assumindo que a energia de ligação em tempos pré-código-arly é comparável à do Watson-Crick, a energia de interação tessera-antitessera deve ser aproximadamente o dobro da energia real do códon-anticodon.
Representação esquemática do mapeamento entre a tessera (b1b2b3b4) no códon (x1x2x3).
Tabela 3.
Estrutura básica do mapeamento entre tessera e códon. As quatro transformações entre as bases de uma tessera são mapeadas nos quatro nucleotídeos de um códon.
Tesserae transformações t12,t23 | Bases do códão x1, x2 | |
---|---|---|
I | ⟶12345 | A |
SW | ⟶12345 | U |
KM | ⟶12345 | C |
YR | ⟶12345 | G |
Tabela 4.
(a) O código tessera organizado de acordo com as transformações: primeiro segundo letra t12 (linhas) e segundo terço letra t23 (colunas); (b) o mesmo que (a) mas com os quartetos trocados conforme indicado pelas setas. (c) Degenerescência do código genético mitocondrial do vertebrado. Os códons do código mitocondrial do vertebrado em (c) e os tesserae (b) estão relacionados através do mapeamento um-para-um descrito no texto. Dentro dos quartetos, tesselas com o mesmo código de cor para o mesmo aminoácido: rosa e verde = 2 + 2 e branco = 4,
Assim, do ponto de vista bioquímico, a transição de tesselas para códons implica a transição entre um emparelhamento completo de quatro bases específicas de Watson-Crick- para leitura de tesselas para a estratégia de oscilação para leitura de códons.
Em particular, isto implica restrições teóricas sobre algumas propriedades de simetria que estão presentes no mundo das tesserae mas não estão nos códigos existentes, por exemplo, a perda da simetria auto-complementar. Na verdade, cada coluna do código tessera tem uma degenerescência definida, mas em códigos existentes isso só é verdade para duas colunas, ou seja, códigos do tipo NMN (NAN ou NCN). Em vez disso, as colunas correspondentes aos códons NKN (NUN ou NGN) têm degenerescência mista; em particular, os diferentes quadrantes entre os dois códigos são os do tipo SUN e WGN (chamamos WSN ou SWN misto em oposição ao SSN não misto WWN). Em outras palavras, os códigos existentes têm códons do tipo WGN que codificam aminoácidos com degenerescência 2, apesar de a base central ser forte, e códons do tipo SUN que codificam aminoácidos com degenerescência 4, apesar de a base central ser fraca .
Uma explicação de tais características em termos de restrições energéticas dependendo da estereoquímica da interação códon-anticodon é proposta em . No código genético existente, uma interação fraca é normalmente associada a uma degenerescência 2 + 2. De facto, este é o caso dos códões do tipo NAN, AUN e UUN. No entanto, no caso de um U como segunda letra, uma estabilização adicional da letra central purina N35 no laço anticódon do RNAt por U33 permite ler uma família completa apesar do caráter fraco de N35.5 No caso do espelho, para códons do tipo AGN e UGN o nucleotídeo N35 não é suficientemente estabilizado por U33 e o quarteto associado torna-se de degenerescência 2 + 2.
Estas restrições estratégicas de oscilação implicam que no mapeamento de tesserae para os códons o quadrante (YR-SW) é trocado com quadrante (SW-YR) e quadrante (KM-SW) com quadrante (I-YR); ver tabela 4 (painéis superiores). Eventualmente, a quarta letra de uma tessera é mapeada na terceira letra de um códão com a seguinte exceção que garante um agrupamento correto: se b4 = K (T ou G) então x3 = KM(b4), ou seja, T e G são trocados; caso contrário x3 = b4. Observe que o mapeamento não é necessariamente único; No entanto, tanto quanto sabemos, o presente mostra que é possível passar do código tessera para o código existente, descrevendo todas as características de degeneração conhecidas deste último.
Se, originalmente, a codificação proteica envolvia códões com mais de três bases, então a máquina de tradução deve levar alguma memória disto. Na verdade, a pequena subunidade de ribossomos existentes apresenta uma liberdade estrutural que poderia permitir a inclusão de um nucleotídeo adicional no centro de decodificação, de modo que a decodificação de códons de quatro bases seja viável. Note-se que a possibilidade de codificação ancestral com quádruplos foi mencionada em . De facto, a descodificação de quádruplos foi descoberta em 1973 como um mecanismo relacionado com a supressão de frameshift e, hoje em dia, é amplamente utilizada em aplicações biotecnológicas, a fim de incorporar aminoácidos não canónicos em proteínas . Além disso, foi demonstrada em laboratório a viabilidade biológica dos quatro códons de comprimento e de um ribossomo ortogonal que os descodifica. Além disso, há evidências que apontam para a existência de genes sobrepostos codificados por tetracodões; além disso, foi demonstrado que os tetracodões desempenham um papel importante na análise filogenética, (por exemplo) e isto pode ser uma indicação de uma memória genética.
Um número impressionante de propriedades do código tessera é preservado nos códigos atuais. O código primitivo e todos os seus descendentes herdam do código tessera o número de códons (64 tesserae geram 64 códons) e o número máximo de aminoácidos (23). O código tessera permite codificar para 24 elementos/aminoácidos. Como pelo menos um deles deve representar um sinal de parada, o número máximo teórico de aminoácidos representáveis é 23. Notavelmente, nenhum código existente excede este limite e o número máximo de aminoácidos que são codificados diretamente por alguns genomas é exatamente 23: os 20 aminoácidos padrão mais 2 não-padrão (selenocisteína e pirrolisina) e o aminoácido de iniciação alternativa N-formilmetionina somam até 23. Além disso, o número de adaptadores utilizados no código genético mitocondrial vertebrado é de 22: oito tRNAs que reconhecem quatro códons cada, 14 tRNAs que reconhecem dois códons cada, e dois pares de códons não associados a aminoácidos . Notavelmente, 22 é o mínimo absoluto observado entre todas as versões conhecidas do código genético. Além disso, esta é exatamente a estrutura implícita no modelo tessera: oito adaptadores primários de degenerescência 4, mais 16 adaptadores de degenerescência 2 formam um conjunto de 24 adaptadores; se descartarmos dois adaptadores de degenerescência 2 designados para parar os códons, obtemos exatamente 22,
O código genético mitocondrial vertebrado e nosso modelo baseado em tessera do código primitivo também compartilham uma série de características relacionadas à simetria (por exemplo, tabela 5). Antes de tudo, a transformação KM, também conhecida como transformação de Rumer, aplicada ao primeiro doublet de um códão altera a degenerescência do aminoácido correspondente. Esta propriedade universal é observada na maioria das versões conhecidas do código genético (tanto nuclear como mitocondrial). O código do tessera também possui esta propriedade. Por exemplo, a tessera AUUA corresponde a um aminoácido de degenerescência 2, e se aplicarmos a transformação KM aos dois primeiros nucleotídeos obtemos a tessera CGUA que corresponde a um aminoácido de degenerescência 4. Note-se que esta propriedade também é válida se aplicarmos a transformação de Rumer ao t12t23 do mapeamento que liga as tessera e os códons descritos acima. Para mais insights, veja .
Tabela 5.
Tabela comparativa entre o código genético mitocondrial do vertebrado e o código tessera.
vertebrado código genético mitocondrial | código tessera | |||
---|---|---|---|---|
deg. | não. códões | deg. | não. tesserae | |
degenerescência | 2 | 16 | 2 | 16 |
4 | 8 | 4 | 8 | |
número de códões | códões 64 | tesserae 64 | ||
número de adaptadores | adaptadores 22 | adaptadores 22 | ||
número de aminoácidos | a.a. 20 | a.a. 20 | ||
simetrias | ||||
Rumer | KM transformam nas duas primeiras bases alteram a degenerescência do a.a. | KM transformada nas duas primeiras bases altera a degenerescência do a.a. | ||
Klein grupo V | os 16 códons que partilham a transformação entre a primeira e a segunda letra têm a mesma distribuição de degenerescência | os 16 tesselas que partilham a transformação entre a primeira e a segunda letra têm a mesma distribuição de degenerescência |
Um outro aspecto fundamental do código tessera é que a codificação de uma proteína pode ser tornada robusta a +1 mudanças de quadro. A robustez da manutenção dos quadros também pode ser relacionada a códigos circulares que foram hipotéticos para desempenhar um papel nos processos de sincronização de quadros. A existência de uma propriedade de código circular universal tem sido relacionada com a origem do código genético como pares de códigos complementares de codificação para o mesmo ou um aminoácido similar . A mesma conjectura é suportada em outros contextos . Esta propriedade surge naturalmente no código tessera onde um tessera e seu complemento inverso codificam sempre para o mesmo aminoácido.