La genomica di SARS-CoV-2, l’evoluzione in diretta

Genoma di riferimento

Il primo genoma di SARS-CoV-2 sequenziato è stato depositato nelle banche dati pubbliche ai primi di gennaio del 2020 (ultima versione: Wuhan-Hu-1, con identificatore MN908947.3). Da allora, la sequenza dei nuovi genomi virali è cambiata, mostrando un continuo processo evolutivo. L’analisi genomica di SARS-CoV-2, grazie all’applicazione di protocolli di biologia molecolare, sequenziamento e analisi bioinformatica, ha permesso di seguire la comparsa delle varianti virali e la loro espansione a livello globale. Per poter comprendere i processi che permettono di seguire l’evoluzione del virus, oltre che ai concetti relativi alla propria biologia di SARS-CoV-2, dobbiamo anche conoscere i metodi che ci permettono di identificare e seguire le nuove varianti.

Il virus infetta una cellula umana fondendosi con la sua membrana e rilasciando all’interno il suo genoma sotto forma di un RNA monocatenario “positivo”. Il termine positivo si riferisce alla direzione di lettura del genoma. Questo si trova già nella corretta orientazione, pronto a sfruttare la cellula umana e produrre le proteine necessarie alla sua replicazione e ricostruzione.

I campioni provenienti dai pazienti diagnosticati positivi al COVID-19 mediante un test basato sulla RT-PCR, contengono generalmente sufficiente RNA virale per iniziare a studiarne il genoma mediante il suo sequenziamento. L’RNA virale estratto si trova in un filamento unico di 29.903 basi. Grazie alla biologia molecolare e ai moderni metodi di sequenziamento del DNA, si può quindi ricostruire il genoma del virus che sta infettando il paziente, confrontarlo con i genomi iniziali e con quelli di tutte le altre varianti attualmente catalogate.

Retrotrascrizione

I protocolli usati si applicano a livello internazionale e sono stati ottimizzati grazie agli sforzi di grandi consorzi come “Artic Network”.

Per poter amplificare l’RNA si deve innanzitutto trascriverlo a cDNA (DNA complementare). Questa fase prende il nome di retrotrascrizione (Figura 1). Per questo processo si usa un enzima procedente anch’esso dal mondo virale, la trascrittasi inversa. Si tratta di un enzima capace di scorrere su un filamento di RNA e copiarlo nella sua versione complementare di DNA. La trascrittasi inversa traduce l’RNA in DNA seguendo il codice A=T, U=A, G=C, C=G. Per questo processo si usano piccoli “iniziatori” chiamati in gergo “primer” che si uniscono al filamento di RNA e forniscono un punto di inizio per la polimerizzazione. Questo processo produce filamenti di DNA complementari al genoma del virus. La retrotrascrizione dell’RNA a DNA è fondamentale. Il DNA è molto più stabile dell’RNA e rappresenta lo stampo necessario per il successivo processo di amplificazione esponenziale mediante PCR.

Schema del protocollo per il sequenziamento di SARS-CoV-2. — Figura 1 – Schema riassuntivo dei passaggi necessari per il sequenziamento del genoma virale di SARS-CoV-2. Campionamento, estrazione dell’RNA, retrotrascrizione a cDNA, amplificazione, sequenziamento e ricostruzione del genoma virale sul genoma di riferimento [Fonte immagine: Cecilia Panzetti]

Amplificazione del genoma virale

Attualmente, il metodo più efficace dal punto di vista della completezza e riproducibilità per poter sequenziare il genoma virale si basa sull’amplificazione e sequenziamento di frammenti corti del proprio genoma. Si usa come stampo il DNA ottenuto mediante la retrotrascizione e degli iniziatori che coprono regioni corte del genoma virale.

Grazie ai contributi dei ricercatori del consorzio Artic Network e del resto della comunità scientifica, i protocolli di analisi genomica di SARS-CoV-2 si aggiornano continuamente. Terminato il processo di amplificazione, il numero di copie ottenute per ogni frammento del genoma virale mediante la PCR è così alto da non lasciare dubbi sul possibile risultato. In questo modo si ottiene una versione a DNA frammentata del genoma virale.

Sequenziamento dei frammenti virali

Il complesso di tutti i frammenti ottenuti passa per un’ulteriore serie di protocolli di biologia molecolare necessari per il suo sequenziamento. In questa fase i protocolli cambiano a seconda del metodo scelto. Attualmente, i metodi di sequenziamento di seconda generazione Illumina, o di terza generazione Nanopore e Pacific Bioscienc (PacBio) offrono protocolli aggiornati e sufficienti per portare a termine la lettura di tutti i frammenti di DNA ottenuti nei passi precedenti.

Ricostruzione del genoma virale

Finito il processo di sequenziamento, ritroveremo i dati genomici di SARS-CoV-2 sotto forma di file informatici contenenti milioni di linee. Ogni linea contiene informazioni sul nome del frammento, la sua sequenza e la sua attendibilità.

Il processo analitico che segue ci permette di identificare le differenze rispetto al genoma di riferimento (proveniente da Wuhan a fine del 2019). Queste differenze si possono quindi confrontare con quelle di tutte le altre varianti virali sequenziate a livello globale fino ad oggi.

Per ricostruire il puzzle e unire i frammenti nell’ordine corretto si usano programmi informatici che allineano tutte le sequenze del virus proveniente dal paziente con quella del genoma virale di riferimento. Questi algoritmi mettono in evidenza eventuali cambi, conosciuti come mutazioni. Questi cambi possono essere rappresentati da sostituzioni di un nucleotide per un altro, delezioni (perdita di una nucleotide) o inserzioni (inserimento di un nucleotide).

In genere, le mutazioni originano da errori commessi dall’enzima virale responsabile della duplicazione del suo genoma. La maggior parte di questi cambi non avrà generalmente alcun effetto sullo sviluppo del virus o sarà deleteria, eliminando il virus e la sua discendenza. Alcuni cambi potrebbero invece dare vantaggi evolutivi o di adattamento all’ambiente e verranno quindi mantenuti nelle generazioni future. Questo è il motivo per cui alcune delle varianti virali si affermano e si espandono.

Evoluzione in diretta

I genomi virali sequenziati in tutti i laboratori del mondo vengono collezionati, e catalogati praticamente in tempo reale. Ogni sequenza genomica ottenuta, superati i controlli di qualità opportuni, verrà inserita in apposite banche dati pubbliche e sarà quindi liberamente accessibile. Per esempio, GISAID colleziona e analizza i genomi virali di SARS-CoV-2 così come di altri virus influenzali e non solo. Queste grandi collezioni permettono seguire in tempo reale l’evoluzione di organismi patogeni e la loro espansione sul territorio internazionale.

A questo punto si deve garantire un certo grado di omogeneità nei dati inseriti nelle banche dati. Per questo, anche i protocolli e i programmi informatici usati, generalmente di libero accesso, sono stati ottimizzati all’interno di grandi consorzi collaborativi internazionali come il già citato Artic Network.

Dare un nome al genoma di SARS-CoV-2

La crescita di queste banche dati ha permesso la creazione di altri strumenti che catalogano tutte le differenze che compaiono nel tempo e nello spazio (Pango Network). Questo ha fatto sorgere una nuova e specifica nomenclatura per ogni variante, la nomenclatura “Pango“ (dall’inglese: Phylogenetic Assignment of Named Global Outbreak Lineages). Ogni variante viene identificata da un preciso numero e tipo di mutazioni (Fig. 2). In questo modo, all’interno del catalogo “Pango Constellations” ritroviamo un’intera gerarchia di varianti virali in continuo aggiornamento.

Identificazione della variante virale — Figura 2 – Le mutazioni identificate nel genoma del virus sequenziato si comparano, mediante banche dati, con le mutazioni che descrivono ogni variante virale. In questo modo si procede alla corretta identificazione della variante [fonte immagine: Cecilia Panzetti]

A questo punto siamo in grado di distinguere un genoma dall’altro grazie al suo profilo di mutazioni. La disponibilità di una gerarchia di nomi di varianti genomiche ha portato alla nascita di un altro strumento conosciuto con il nome di “Pangolin“, che permette di assegnare a un genoma di SARS-CoV-2 la sua nomenclatura Pango. Non appena si dispone di una nuova sequenza virale, questa può essere lanciata sulla web di Pangolin ottenendo, in pochi secondi, il nome della variante. Si chiude in questo modo il processo che, iniziando dal paziente, porta alla caratterizzazione e identificazione della variante virale che sta causando la malattia.

Il progresso scientifico globale

Il progresso scientifico, tanto nella ricerca di base come nelle sue applicazioni tecnologiche, ci ha portato ad assistere in prima persona all’evoluzione di un agente virale come SARS-CoV-2. Strumenti come NextStrain ci permettono di localizzare l’apparizione delle varianti in un contesto geografico e seguirne l’evoluzione nel tempo. Per questo, discipline come l’epidemiologia molecolare oggigiorno sono alla base di un moderno monitoraggio delle malattie infettive. Tutto questo è possibile grazie agli sforzi congiunti di una comunità scientifica che, mediante una rete globale di interconnessioni e ad un continuo scambio di informazioni, si adatta, trovando le migliori soluzioni a emergenze globali come la pandemia di SARS-CoV-2 che stiamo vivendo.

Autore: Dr. Giuseppe D’Auria, PhD. (ORCID, gidauria), responsabile del Servizio di Bioinformatica della fondazione FISABIO, Valenzia, Spagna. Progetto “Microonstream: Life under the microscope” (YT, Twitter).

Fonti

Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome: https://www.ncbi.nlm.nih.gov/nuccore/MN908947
The Artic Network, ncov-2019: https://artic.network/ncov-2019
nCoV-2019 sequencing protocol (protocols.io): https://dx.doi.org/10.17504/protocols.io.bbmuik6w
nCoV-2019 sequencing protocol v3 (LoCost) V.3: https://www.protocols.io/view/ncov-2019-sequencing-protocol-v3-locost-bh42j8ye
GISAID: https://www.gisaid.org/
nCoV-2019 novel coronavirus bioinformatics protocol: https://artic.network/ncov-2019/ncov2019-bioinformatics-sop.html
The PANGO network: https://www.pango.network/
Nomenclatura Pango: https://cov-lineages.org
Pango Constellations: https://cov-lineages.org/constellations.html
Rambaut A, Holmes EC, O’Toole Á, Hill V, McCrone JT, Ruis C, du Plessis L, Pybus OG. A dynamic nomenclature proposal for SARS-CoV-2 lineages to assist genomic epidemiology. Nat Microbiol. 2020 Nov;5(11):1403-1407. doi: 10.1038/s41564-020-0770-5
Immagini: Cecilia Panzetti