Il completo sequenziamento del genoma umano è finalmente realtà

Progetto Genoma Umano

Nei primi anni 2000 la notizia rilasciata dal Progetto Genoma Umano circa il sequenziamento del genoma umano ha destato molto scalpore nella comunità scientifica, questo consentiva alla medicina personalizzata (“Personalized Medicine”) di fare un deciso passo in avanti.

Questo annuncio però, può essere considerato anche molto frettoloso infatti, il genoma di riferimento rilasciato GRCh38 che ha già subito numerosi aggiornamenti come nel 2013 e poi aggiornato nel 2019 copre solo le regioni eucromatiniche lasciando quindi quelle eterocromatiniche, circa l’8% dell’intero genoma, ancora da caratterizzare principalmente perché queste zone erano costituite da regioni di DNA altamente ripetute e di difficile interpretazione.

Nel 2022, il consorzio Telomere-to-Telomere (T2T) è riuscito a risolvere questo gap completando così il sequenziamento di quasi 200 milioni di coppie di base di nuove sequenze di DNA realizzando così un nuovo genoma di riferimento T2T-CHM-13. Tutto questo è stato reso possibile grazie a due metodiche combinate:

nuove piattaforme di sequenziamento altamente performanti: Oxford Nanopore e PacBio HiFi che sono in grado di risolvere il problema della complessità delle regioni unknown che includevano tutte le regioni centromeriche, le regioni duplicate e il braccio corto di tutti e cinque i cromosomi acrocentrici (chr 13, 14, 15, 21 e 22), consentendo quindi la risoluzione di queste zone complesse;
la realizzazione di un algoritmo (Nature Methods – 2022) capace di risolvere i problemi di lettura e assemblaggio presenti nel primo genoma di riferimento GRCh38.

Le informazioni ottenute dall’assemblaggio di questo nuovo genome referenceT2T-CHM-13 hanno consentito di individuare circa 2.000 geni candidati di questi solo 99 dovrebbero essere codificanti per proteine. Inoltre, è emblematico il caso del gene FRG1, localizzato sul braccio lungo del cromosoma 4 e codificante per una proteina implicata o nelle Distrofia Muscolare oppure distrofia muscolare facio-scapolo-omerale (FSHD) (www.genecards.org). Il reference GRCh38 ne individua solo 9 di geni paraloghi invece, il reference T2T-CHM13 ne individua 23 di geni paraloghi.

Sequenziamento di terza generazione: OXFORD NANOPORE – PacBio HiFi

Con l’avvento dei sequenziatori NGS (Next Generation Sequencing) di terza generazione si è cercato di ridurre al minimo la percentuale di errore dovuta alla fase di manipolazione (frammentazione, ligazione, separazione) degli acidi nucleici DNA/RNA per riuscire a ottenere una analisi decisamente più accurata. Le piattaforme Oxford Nanopore e PacBio HiFi sono decisamente più sensibili, soprattutto riescono a sequenziare reads più lunghe >10kb.

Con i sequenziatori di terza generazione cambia l’approccio della preparazione dell’esperimento. Innanzitutto, la preparazione delle librerie genomiche risulta semplificata, con una ridotta percentuale di introdurre errori e non è basata sull’amplificazione clonale come capitava invece, per le piattaforme di seconda generazione.

In particolare, per le piattaforme PacBio HiFi il workflow risultava più semplice, non è prevista nessuna fase di amplificazione pre-sequenziamento, questo consente che la percentuale di errore sia minima e che la copertura sia decisamente più uniforme inoltre, consente di leggere sequenze decisamente più lunghe >10kb.

Le piattaforme Oxford Nanopore presentano invece, un approccio alternativo basato inizialmente sul poro dell’emolisina alfa (diametro circa 1nm, circa 100 mila volte più piccolo di un capello umano). Non è prevista alcuna amplificazione né legame con marcatori fluorescenti. La potenzialità di questo tipo di approccio proposto consiste nella lettura di sequenze molto lunghe (>2Mb di DNA genomico). Attualmente, i Nanopori utilizzati sono sottoposti a continui miglioramenti, quelli di ultima generazione della serie R10 garantiscono un’accuratezza del 97%.

Confronto tra i due genomi di riferimento GRCh38 e T2T-CHM13

Nei primi anni 2000, l’approccio utilizzato da Celera Genomics, una delle company che ha partecipato alla prima fase del Progetto Genoma Umano era lo Shotgun Sequencing un metodo semplice, veloce e poco costoso dal punto di vista della preparazione delle librerie genomiche ma, più esigente da un punto di vista computazionale. Questa metodica prevedeva che l’assemblaggio del reference avvenisse dal sequenziamento di frammenti di genoma di dimensioni ridotte (150-350Kb) questi erano inseriti in cromosomi batterici artificiali (BAC) che venivano a loro trasformati in cellule batteriche e replicate.

Questa metodica aveva un problema principale non riusciva a risolvere le sequenze caratterizzate da regioni di DNA altamente ripetuto. Queste si trovavano specialmente dentro e intorno a importanti strutture come i telomeri e i centromeri che coordinano la separazione dei cromosomi replicati durante la divisione cellulare. Perciò, il reference GRCh38 così ottenuto era formato da tutte queste regioni (circa 151 mega-basi (Mbp)) ancora prive di significato distribuite principalmente nelle regioni pericentromeriche e subtelomeriche, nelle duplicazioni segmentali, nelle regioni che codificano per il DNA ribosomiale (rDNA). Tutte queste zone sono responsabili di processi necessari e fondamentali per la cellula quindi, questo gap presente nel reference GRCh38 costitutiva un fondamentale problema che doveva essere risolto.

Il consorzio Telomere to Telomere (T2-T) è riuscito in questa impresa grazie all’ utilizzo delle nuove piattaforme di nuova generazione PacBio HiFi e Oxford NanoPore necessarie proprio per sequenziare le regioni del genoma più complicate. Inoltre, il metodo proposto permetteva anche di risolvere l’accuratezza della lettura. Il vecchio genoma di riferimento (GRCh38) ha continuato a essere aggiornato nel corso degli ultimi anni ma, era disseminato di piccoli errori: per esempio una A che doveva essere una T, oppure una serie di cinque basi identiche che in realtà avrebbero dovuto essere sei. Per evitare proprio questi errori di lettura e di assemblamento è stato ideato un alogoritmo capace di correggere tutte queste imperfezioni, la ricerca è stato poi pubblicata nel 2022 su Nature Methods.

Grazie alla combinazione di queste due strategie il nuovo genoma T2T-CHM13 aggiunge quasi 200 milioni di coppie di base di sequenze di DNA, tra cui 99 geni che potrebbero codificare per proteine e quasi 2000 geni candidati che necessitano ancora di ulteriori studi. Inoltre, è possibile correggere tutti quegli errori di assemblamento presenti nel vecchio genome reference.

Le parole di David Haussler sul progetto genoma umano

Riportando le parole di David Haussler, direttore dell’UC Santa Cruz Genome Institute “Abbiamo ottenuto un’enorme comprensione della biologia e delle malattie umane dall’avere circa il 90% del genoma umano, ma c’erano molti aspetti importanti che giacevano nascosti, fuori dalla vista della scienza, perché non avevamo la tecnologia per leggere quelle porzioni del genoma. Ora possiamo stare in cima alla montagna e vedere tutto il paesaggio sottostante e ottenere un quadro completo del nostro patrimonio genetico umano”.

Queste parole riassumono l’importanza del lavoro portato avanti dal consorzio T2-T nella ricerca medica.

Fonti

“The complete sequence of a human genome” Nurk et al., Science 376, 44-53 (2022)
“Initial sequencing and analysis of the human genome” International human genome sequencing Consortium, Nature 409, 860-921 (2001)
“Chasing perfection: validation and polishing strategies for telomere-to-telomere genome assemblies” Mc Cartney A.M. et al, Nature Methods 2022 Mar 31. doi: 10.1038/s41592-022-01440-3. Epub ahead of print. PMID: 35361931
www.genecards.org
https://moodle2.units.it/pluginfile.php/389432/mod_resource/content/1/lezione_3_2
https://nanoporetech.com/about-us/news/oxford-nanopore-announces-ps100-million-140m-fundraising-global-investors
https://www.slideshare.net/6263234147/genome-sequencing-types-by-kk-sahu-sir
https://www.tomshw.it/scienze/il-primo-sequenziamento-completo-del-genoma-umano-rivela-inaspettati-segreti/

Progetto Genoma Umano

Sequenziamento di terza generazione: OXFORD NANOPORE – PacBio HiFi

Confronto tra i due genomi di riferimento GRCh38 e T2T-CHM13

Le parole di David Haussler sul progetto genoma umano

Fonti

Thiomargarita magnifica: le dimensioni (non) contano

IdeARG: nel vivo del progetto finanziato dal PRIN 2020