Les scientifiques ont enfin comblé l'écart de 8% dans le génome humain

Apr 01 2022
L'annonce de 2003 selon laquelle les scientifiques avaient terminé le premier génome humain s'accompagnait d'un écart de 8 %. Maintenant, cette lacune a été comblée et le premier génome humain de bout en bout a été publié.
Plus de la moitié du génome humain contient des séquences d'ADN répétitives dont les fonctions ne sont pas encore entièrement comprises. Adam Gault/Getty Images

Lorsque le projet du génome humain a annoncé qu'il avait terminé le premier génome humain en 2003, ce fut une réalisation capitale - pour la première fois, le plan ADN de la vie humaine a été déverrouillé. Mais cela comportait un hic : ils n'étaient pas en mesure de rassembler toutes les informations génétiques du génome. Il y avait des lacunes : des régions non remplies, souvent répétitives, trop confuses pour être reconstituées.

Grâce aux progrès technologiques capables de gérer ces séquences répétitives, les scientifiques ont finalement comblé ces lacunes en mai 2021 , et le premier génome humain de bout en bout a été officiellement publié le 31 mars 2022 .

Je suis un biologiste du génome qui étudie les séquences d'ADN répétitives et la manière dont elles façonnent les génomes tout au long de l'histoire de l'évolution. Je faisais partie de l'équipe qui a aidé à caractériser les séquences répétées manquantes dans le génome. Et maintenant, avec un génome humain vraiment complet, ces régions répétitives découvertes sont enfin explorées dans leur intégralité pour la première fois.

Les pièces manquantes du puzzle

Le botaniste allemand Hans Winkler a inventé le mot « génome » en 1920, combinant le mot « gène » avec le suffixe « -ome », signifiant « ensemble complet », pour décrire la séquence d'ADN complète contenue dans chaque cellule. Les chercheurs utilisent encore ce mot un siècle plus tard pour désigner le matériel génétique qui constitue un organisme.

Une façon de décrire à quoi ressemble un génome est de le comparer à un ouvrage de référence. Dans cette analogie, un génome est une anthologie contenant les instructions de l'ADN pour la vie. Il est composé d'une vaste gamme de nucléotides (lettres) qui sont emballés dans des chromosomes (chapitres). Chaque chromosome contient des gènes (paragraphes) qui sont des régions d'ADN qui codent pour les protéines spécifiques qui permettent à un organisme de fonctionner.

Bien que chaque organisme vivant ait un génome, la taille de ce génome varie d'une espèce à l'autre. Un éléphant utilise la même forme d'information génétique que l'herbe qu'il mange et les bactéries dans son intestin. Mais il n'y a pas deux génomes identiques. Certains sont courts, comme le génome de la bactérie insecte Nasuia deltocephalinicola avec seulement 137 gènes sur 112 000 nucléotides. Certains, comme les 149 milliards de nucléotides de la plante à fleurs Paris japonica , sont si longs qu'il est difficile d'avoir une idée du nombre de gènes qu'ils contiennent.

Mais les gènes tels qu'ils sont traditionnellement compris - comme des segments d'ADN qui codent pour les protéines - ne sont qu'une petite partie du génome d'un organisme. En fait, ils représentent moins de 2 % de l'ADN humain .

Le génome humain contient environ 3 milliards de nucléotides et un peu moins de 20 000 gènes codant pour des protéines, soit environ 1 % de la longueur totale du génome. Les 99% restants sont des séquences d'ADN non codantes qui ne produisent pas de protéines. Certains sont des composants régulateurs qui fonctionnent comme un standard pour contrôler le fonctionnement d'autres gènes. D'autres sont des pseudogènes ou des reliques génomiques qui ont perdu leur capacité à fonctionner.

Et plus de la moitié du génome humain est répétitif, avec de multiples copies de séquences presque identiques.

Qu'est-ce que l'ADN répétitif ?

La forme la plus simple d'ADN répétitif sont des blocs d'ADN répétés encore et encore en tandem appelés satellites . Bien que la quantité d'ADN satellite d' un génome donné varie d'une personne à l'autre, ils se regroupent souvent vers les extrémités des chromosomes dans des régions appelées télomères . Ces régions protègent les chromosomes de la dégradation lors de la réplication de l'ADN. On les trouve également dans les centromères des chromosomes, une région qui aide à conserver l'information génétique intacte lorsque les cellules se divisent.

Les chercheurs manquent encore d'une compréhension claire de toutes les fonctions de l'ADN satellite. Mais parce que l'ADN satellite forme des modèles uniques chez chaque personne, les biologistes médico-légaux et les généalogistes utilisent cette "empreinte digitale" génomique pour faire correspondre les échantillons de scènes de crime et suivre l'ascendance. Plus de 50 maladies génétiques sont liées à des variations de l'ADN satellite, dont la maladie de Huntington .

L'ADN satellite a tendance à se regrouper vers les extrémités des chromosomes dans leurs télomères. Ici, 46 chromosomes humains sont colorés en bleu, avec des télomères blancs.

Un autre type abondant d'ADN répétitif sont les éléments transposables ou les séquences qui peuvent se déplacer dans le génome.

Certains scientifiques les ont décrits comme de l'ADN égoïste car ils peuvent s'insérer n'importe où dans le génome, quelles qu'en soient les conséquences. Au fur et à mesure de l'évolution du génome humain, de nombreuses séquences transposables ont recueilli des mutations réprimant leur capacité à se déplacer pour éviter des interruptions néfastes. Mais certains peuvent probablement encore se déplacer. Par exemple, les insertions d'éléments transposables sont liées à un certain nombre de cas d'hémophilie A , un trouble génétique de la coagulation.

Mais les éléments transposables ne sont pas seulement perturbateurs. Ils peuvent avoir des fonctions régulatrices qui aident à contrôler l'expression d'autres séquences d'ADN. Lorsqu'ils sont concentrés dans les centromères , ils peuvent également aider à maintenir l'intégrité des gènes fondamentaux à la survie des cellules.

Ils peuvent aussi contribuer à l'évolution. Des chercheurs ont récemment découvert que l'insertion d'un élément transposable dans un gène important pour le développement pourrait être la raison pour laquelle certains primates, y compris les humains, n'ont plus de queue . Des réarrangements chromosomiques dus à des éléments transposables sont même liés à la genèse de nouvelles espèces comme les gibbons d'Asie du Sud-Est ou les wallabies d'Australie .

Compléter le puzzle génomique

Jusqu'à récemment, bon nombre de ces régions complexes pouvaient être comparées à la face cachée de la lune : connues pour exister, mais invisibles.

Lorsque le projet du génome humain a été lancé pour la première fois en 1990, les limitations technologiques ont rendu impossible la découverte complète de régions répétitives dans le génome. La technologie de séquençage disponible ne pouvait lire qu'environ 500 nucléotides à la fois, et ces courts fragments devaient se chevaucher afin de recréer la séquence complète. Les chercheurs ont utilisé ces segments qui se chevauchent pour identifier les nucléotides suivants dans la séquence, étendant progressivement l'assemblage du génome un fragment à la fois.

Ces régions vides répétitives revenaient à assembler un puzzle de 1 000 pièces représentant un ciel couvert : lorsque chaque pièce se ressemble, comment savez-vous où commence un nuage et où se termine un autre ? Avec des étendues de chevauchement presque identiques à de nombreux endroits, le séquençage complet du génome au coup par coup est devenu irréalisable. Des millions de nucléotides sont restés cachés dans la première itération du génome humain.

Depuis, les patchs de séquences ont peu à peu comblé les lacunes du génome humain. Et en 2021, le Telomere-to-Telomere (T2T) Consortium , un consortium international de scientifiques travaillant à achever un assemblage du génome humain de bout en bout, a annoncé que toutes les lacunes restantes étaient enfin comblées .

Cela a été rendu possible grâce à une technologie de séquençage améliorée capable de lire des séquences plus longues de plusieurs milliers de nucléotides. Avec plus d'informations pour situer les séquences répétitives dans une image plus large, il est devenu plus facile d'identifier leur place dans le génome. Comme pour simplifier un puzzle de 1 000 pièces en un puzzle de 100 pièces, les séquences à lecture longue ont permis pour la première fois d'assembler de grandes régions répétitives.

Avec la puissance croissante de la technologie de séquençage de l'ADN à lecture longue, les généticiens sont bien placés pour explorer une nouvelle ère de la génomique, en démêlant pour la première fois des séquences répétitives complexes à travers les populations et les espèces. Et un génome humain complet et sans lacunes fournit une ressource inestimable aux chercheurs pour étudier les régions répétitives qui façonnent la structure et la variation génétiques, l'évolution des espèces et la santé humaine.

Mais un génome complet ne résume pas tout. Les efforts se poursuivent pour créer diverses références génomiques qui représentent pleinement la population humaine et la vie sur Terre . Avec des références génomiques plus complètes, "télomère à télomère", la compréhension des scientifiques de la matière noire répétitive de l'ADN deviendra plus claire.

Gabrielle Hartley est titulaire d'un doctorat. candidat en biologie moléculaire et cellulaire à l'Université du Connecticut. Elle reçoit des fonds de la National Science Foundation.

Cet article est republié de The Conversation sous une licence Creative Commons. Vous pouvez trouver l' article original ici.