Les gènes eucaryotes sont constitués de segments d’ADN codants et non codants, appelés respectivement exons et introns.A première vue, cela semble être un fardeau inutile de porter de l’ADN sans fonctions évidentes à l’intérieur d’un gène. Cependant, il a été reconnu que cela présente de grands avantages sur le plan de l’évolution. Lorsque des parties de différents gènes sont réarrangées sur de nouveaux sites chromosomiques au cours de l’évolution, de nouveaux gènes peuvent être construits à partir de parties de gènes existant précédemment.
Exons et introns
En 1977, on a découvert de manière inattendue que l’ADN d’un gène eucaryote est plus long que son ARNm correspondant. La raison en est que certaines sections du transcrit primaire d’ARN initialement formé sont supprimées avant la traduction. Les micrographies électroniques montrent que l’ADN et son transcrit correspondant (ARN) sont de longueurs différentes (1). Lorsque l’ARNm et son ADN monocaténaire complémentaire sont hybridés, des boucles d’ADN monocaténaire apparaissent car l’ARNm ne s’hybride qu’avec certaines sections de l’ADN monocaténaire. Dans (2), sept boucles (A à G) et huit sections d’hybridation sont représentées (1 à 7 et la section principale L). Sur les 7700 paires de bases d’ADN de ce gène (3), seules 1825 s’hybrident avec l’ARNm. Un segment d’hybridation est appelé exon. Une section d’ADN initialement transcrite qui est ensuite retirée de la transcription primaire est un intron. La taille et la disposition des exons et des introns sont caractéristiques de chaque gène eucaryote (structure exon/intron). (Micrographie électronique de Watson et al., 1987).
Séquences d’ADN intercalées (introns)
Chez les procaryotes, l’ADN est colinéaire avec l’ARNm et ne contient pas d’introns (1). Chez les eucaryotes, l’ARNm mature n’est complémentaire que de certaines sections de l’ADN car ce dernier contient des introns (2). (Figure adaptée de Stryer, 1995).
Structure de base des gènes eucaryotes
Les exons et les introns sont numérotés dans le sens 5′ vers 3′ du brin codant. Les exons et les introns sont transcrits en un ARN précurseur (transcription primaire).Le premier et le dernier exons contiennent généralement des séquences qui ne sont pas traduites. Celles-ci sont appelées la région 5′ non traduite (5′ UTR) de l’exon 1 et la 3′ UTR à l’extrémité 3′ du dernier exon. Les segments non codants (introns) sont retirés du transcrit primaire et les exons de part et d’autre sont reliés par un processus appelé épissage. L’épissage doit être très précis pour éviter une modification indésirable du cadre de lecture correct. Les introns commencent presque toujours par les nucléotides GT dans le brin 5′ à 3′ (GU dans l’ARN) et se terminent par AG. Les séquences à l’extrémité 5′ de l’intron commençant par GT sont appelées site donneur d’épissage et à l’extrémité 3′, se terminant par AG,sont appelées site accepteur d’épissage. L’ARNm mature est modifié à l’extrémité 5 ? par l’ajout d’une structure stabilisante appelée « cap » et par l’ajout de nombreuses adénines à l’extrémité 3′ (polyadénylation).
Voie d’épissage dans les introns GU-AG
L’épissage de l’ARN est un processus complexe médié par une grande protéine contenant de l’ARN appelée spliceosome. Celui-ci se compose de cinq types de petites molécules d’ARN nucléaires (snRNA) et de plus de 50 protéines (petites particules de riboprotéines nucléaires). Le mécanisme de base de l’épissage implique schématiquement un clivage autocatalytique à l’extrémité 5′ de l’intron, ce qui entraîne la formation d’un lariat. Il s’agit d’une structure circulaire intermédiaire formée par la connexion de l’extrémité 5′ (UG) à une base (A) au sein de l’intron. Ce site est appelé site de branchement. Dans l’étape suivante, le clivage au niveau du site 3′ libère l’intron sous forme de lariat. En même temps, l’exon droit est ligaturé (épissé) à l’exon gauche. Le lariat est débranché pour donner un intron linéaire et celui-ci est rapidement dégradé. Le site de branchement identifie l’extrémité 3′ pour un clivage précis au niveau du site accepteur d’épissage. Il se situe 18 à 40 nucléotides en amont (dans le sens 5′) du site d’épissage 3′. (Figure adaptée de Strachan et Read, 1999)
.