Quando lo Human Genome Project ha annunciato di aver completato il primo genoma umano nel 2003, è stato un risultato importante: per la prima volta, il progetto del DNA della vita umana è stato sbloccato. Ma è arrivato con un problema: non erano effettivamente in grado di mettere insieme tutte le informazioni genetiche nel genoma. C'erano delle lacune: regioni vuote, spesso ripetitive, troppo confuse per essere ricostruite.
Con i progressi della tecnologia in grado di gestire queste sequenze ripetitive, gli scienziati hanno finalmente colmato queste lacune nel maggio 2021 e il primo genoma umano end-to-end è stato ufficialmente pubblicato il 31 marzo 2022 .
Sono un biologo del genoma che studia le sequenze ripetitive del DNA e come modellano i genomi nel corso della storia evolutiva. Facevo parte del team che ha contribuito a caratterizzare le sequenze ripetute mancanti nel genoma. E ora, con un genoma umano davvero completo, queste regioni ripetitive scoperte vengono finalmente esplorate completamente per la prima volta.
I pezzi del puzzle mancanti
Il botanico tedesco Hans Winkler coniò la parola " genoma " nel 1920, combinando la parola "gene" con il suffisso "-ome", che significa "insieme completo", per descrivere l'intera sequenza di DNA contenuta all'interno di ciascuna cellula. I ricercatori usano ancora questa parola un secolo dopo per riferirsi al materiale genetico che costituisce un organismo.
Un modo per descrivere l'aspetto di un genoma è confrontarlo con un libro di riferimento. In questa analogia, un genoma è un'antologia contenente le istruzioni del DNA per la vita. È composto da una vasta gamma di nucleotidi (lettere) che sono impacchettati in cromosomi (capitoli). Ogni cromosoma contiene geni (paragrafi) che sono regioni del DNA che codificano per le proteine specifiche che consentono a un organismo di funzionare.
Sebbene ogni organismo vivente abbia un genoma, la dimensione di quel genoma varia da specie a specie. Un elefante usa la stessa forma di informazione genetica dell'erba che mangia e dei batteri nel suo intestino. Ma non esistono due genomi esattamente uguali. Alcuni sono brevi, come il genoma dei batteri che abitano gli insetti Nasuia deltocephalinicola con solo 137 geni su 112.000 nucleotidi. Alcuni, come i 149 miliardi di nucleotidi della pianta da fiore Paris japonica , sono così lunghi che è difficile avere un'idea di quanti geni siano contenuti all'interno.
Ma i geni come sono stati tradizionalmente intesi - come tratti di DNA che codificano per le proteine - sono solo una piccola parte del genoma di un organismo. In effetti, costituiscono meno del 2% del DNA umano .
Il genoma umano contiene circa 3 miliardi di nucleotidi e poco meno di 20.000 geni codificanti proteine, circa l'1% della lunghezza totale del genoma. Il restante 99 percento è costituito da sequenze di DNA non codificanti che non producono proteine. Alcuni sono componenti regolatori che funzionano come un quadro elettrico per controllare il funzionamento di altri geni. Altri sono pseudogeni o reliquie genomiche che hanno perso la loro capacità di funzionare.
E oltre la metà del genoma umano è ripetitivo, con copie multiple di sequenze quasi identiche.
Cos'è il DNA ripetitivo?
La forma più semplice di DNA ripetitivo sono blocchi di DNA ripetuti più e più volte in tandem chiamati satelliti . Sebbene la quantità di DNA satellite di un dato genoma varia da persona a persona, spesso si raggruppano verso le estremità dei cromosomi in regioni chiamate telomeri . Queste regioni proteggono i cromosomi dal degrado durante la replicazione del DNA. Si trovano anche nei centromeri dei cromosomi, una regione che aiuta a mantenere intatte le informazioni genetiche quando le cellule si dividono.
I ricercatori non hanno ancora una chiara comprensione di tutte le funzioni del DNA satellitare. Ma poiché il DNA satellitare forma modelli unici in ogni persona, i biologi forensi e i genealogisti usano questa "impronta digitale" genomica per abbinare i campioni della scena del crimine e tracciare l'ascendenza. Oltre 50 malattie genetiche sono legate a variazioni del DNA satellite, inclusa la malattia di Huntington .
Un altro tipo abbondante di DNA ripetitivo sono gli elementi trasponibili , o sequenze che possono muoversi intorno al genoma.
Alcuni scienziati li hanno descritti come DNA egoisti perché possono inserirsi ovunque nel genoma, indipendentemente dalle conseguenze. Con l'evoluzione del genoma umano, molte sequenze trasponibili hanno raccolto mutazioni che reprimono la loro capacità di muoversi per evitare interruzioni dannose. Ma probabilmente alcuni possono ancora muoversi. Ad esempio, le inserzioni di elementi trasponibili sono legate a numerosi casi di emofilia A , una malattia emorragica genetica.
Ma gli elementi trasponibili non sono solo dirompenti. Possono avere funzioni regolatorie che aiutano a controllare l'espressione di altre sequenze di DNA. Quando sono concentrati nei centromeri , possono anche aiutare a mantenere l'integrità dei geni fondamentali per la sopravvivenza cellulare.
Possono anche contribuire all'evoluzione. I ricercatori hanno recentemente scoperto che l'inserimento di un elemento trasponibile in un gene importante per lo sviluppo potrebbe essere il motivo per cui alcuni primati, compreso l'uomo, non hanno più la coda . I riarrangiamenti cromosomici dovuti ad elementi trasponibili sono addirittura legati alla genesi di nuove specie come i gibboni del sud-est asiatico ei wallaby dell'Australia .
Completare il puzzle genomico
Fino a poco tempo, molte di queste complesse regioni potevano essere paragonate al lato opposto della luna: noto per esistere, ma invisibile.
Quando il Progetto Genoma Umano è stato lanciato per la prima volta nel 1990, i limiti tecnologici hanno reso impossibile scoprire completamente le regioni ripetitive nel genoma. La tecnologia di sequenziamento disponibile poteva leggere solo circa 500 nucleotidi alla volta e questi brevi frammenti dovevano sovrapporsi l'uno all'altro per ricreare la sequenza completa. I ricercatori hanno utilizzato questi segmenti sovrapposti per identificare i successivi nucleotidi nella sequenza, estendendo in modo incrementale l'assemblaggio del genoma un frammento alla volta.
Queste regioni di gap ripetitive erano come mettere insieme un puzzle di 1.000 pezzi di un cielo coperto: quando ogni pezzo sembra uguale, come fai a sapere dove inizia una nuvola e finisce un'altra? Con tratti sovrapposti quasi identici in molti punti, il sequenziamento completo del genoma in modo frammentario è diventato impossibile. Milioni di nucleotidi sono rimasti nascosti nella prima iterazione del genoma umano.
Da allora, le patch di sequenza hanno gradualmente riempito le lacune del genoma umano. E nel 2021, il Consortium Telomere-to-Telomere (T2T) , un consorzio internazionale di scienziati che lavora per completare un'assemblaggio del genoma umano da un capo all'altro, ha annunciato che tutte le lacune rimanenti sono state finalmente colmate .
Ciò è stato reso possibile da una tecnologia di sequenziamento migliorata in grado di leggere sequenze più lunghe di migliaia di nucleotidi. Con più informazioni per situare le sequenze ripetitive all'interno di un quadro più ampio, è diventato più facile identificare il loro posto corretto nel genoma. Come la semplificazione di un puzzle da 1.000 pezzi in un puzzle da 100 pezzi, le sequenze a lunga lettura hanno permesso per la prima volta di assemblare grandi regioni ripetitive.
Con la potenza crescente della tecnologia di sequenziamento del DNA a lunga lettura, i genetisti sono in grado di esplorare una nuova era della genomica, districando per la prima volta complesse sequenze ripetitive tra popolazioni e specie. E un genoma umano completo e privo di lacune fornisce una risorsa inestimabile ai ricercatori per studiare le regioni ripetitive che modellano la struttura e la variazione genetica, l'evoluzione delle specie e la salute umana.
Ma un genoma completo non cattura tutto. Gli sforzi continuano per creare diversi riferimenti genomici che rappresentino pienamente la popolazione umana e la vita sulla Terra . Con riferimenti al genoma più completi "da telomero a telomero", la comprensione da parte degli scienziati della materia oscura ripetitiva del DNA diventerà più chiara.
Gabrielle Hartley ha un dottorato di ricerca. candidato in biologia molecolare e cellulare presso l'Università del Connecticut. Riceve finanziamenti dalla National Science Foundation.
Questo articolo è stato ripubblicato da The Conversation con licenza Creative Commons. Potete trovare l' articolo originale qui.