Analisi delle comunità microbiche e storia dei metodi

La tassonomia alla base della descrizione delle comunità microbiche

La tassonomia è alla base dell’analisi delle comunità microbiche complesse. Il sistema di annotazione tassonomica più diffuso si basa principalmente sull’analisi della sequenza del gene ribosomale 16S. Questo gene è parte dell’operone ribosomale (un operone è un gruppo di geni contigui controllati da un unico promotore) che codifica per 3 geni chiamati, 23S, 5S e 16S in cui la lettera S (unità Svedberg) si riferisce alla velocità di sedimentazione della molecola durante la centrifugazione. Questi geni, insieme alle proteine ribosomali, sono responsabili della corretta conformazione e funzionamento dei ribosomi. Ricordiamo l’importanza di questa complessa macchina enzimatica necessaria per la sintesi proteica, e alla base della vita cellulare.

Le sequenze di questi geni sono così importanti per le funzioni cellulari da essersi conservate durante l’evoluzione assumendo un profondo carattere tassonomico. Piccoli cambi di pochi nucleotidi possono rappresentare una deriva fra una specie e un’altra. Altri cambi possono far si che la sintesi proteica non funzioni, eliminando la sua linea dall’albero evolutivo (estinzione). Per questo motivo il 16S è considerato uno standard nell’identificazione microbiologica molecolare.

Carl Woese, negli anni Settanta, iniziò un’intera scuola di pensiero sullo studio della diversità e filogenetica, dividendo gli organismi in tre regni, inizialmente fra Eucarioti e procarioti, dividendo questi ultimi in archeobatteri e eubatteri (Whose and Fox, 1977). Egli fu anche uno dei primi a stabilire la relazione fra la filogenesi e le sequenze dei geni ribosomali.

Sequenziamento di Sanger e analisi delle comunità microbiche

Lo storico metodo di Sanger, il primo ad essere automatizzato e ancora oggi pienamente usato, si basa sul sequenziamento mediante sintesi del DNA. I nucleotidi (Adenina, Citosina, Guanina e Timina) che vengono incorporati alla nuova sequenza, opportunamente marcati per renderli visibili, svelano la sequenza del DNA originale. Questo metodo è stato anche alla base delle prime caratterizzazioni tassonomiche delle comunità microbiche agli inizi degli anni Novanta.

A quei tempi, il protocollo per l’analisi delle comunità complesse si basava sull’amplificazione mediante PCR, clonazione e sequenziamento del gene ribosomale 16S. Entrando più nei dettagli, il trucco si basava sull’amplificare un campione composto da una popolazione mista usando degli iniziatori (in gergo: primer) che si accoppiassero a tutti o a una gran parte dei batteri presenti. Questi primer, ancora oggi in uso, si caratterizzano per la loro unione a delle regioni altamente conservate nell’evoluzione del gene ribosomale 16S. Per questa ragione vengono chiamati “primer universali”. Questo prodotto della PCR, costituito da milioni di copie (in gergo: “ampliconi”) provenienti da batteri diversi, rappresentava idealmente la popolazione iniziale (Fig. 1).

Librerie di cloni, una sequenza – un esperimento

Si doveva quindi procedere a separare ogni amplicone per poterlo sequenziare individualmente. Questo era possibile mediante la preparazione di librerie di cloni (Figura 1).

Si costruivano delle strutture ibride fra il frammento amplificato (DNA lineare di circa 1500 nucleotidi) e un plasmide commerciale. Questo costrutto si inseriva in cellule di Escherichia coli, mediante un processo chiamato trasformazione. Successivamente, le cellule trasformate venivano poi fatte crescere in piastra. Il plasmide, una volta entrato nella cellula, gli conferiva la capacità di crescere in presenza di un antibiotico. Le colonie di E. coli, sopravvissute, contenenti l’inserto (il frammento proveniente dall’amplificazione) si manifestavano per il loro colore bianco pallido.

Ogni colonia si doveva quindi trasferire in un nuovo tubo di crescita per far crescere i batteri, estrarne il plasmide, amplificarne nuovamente l’inserto e sequenziarlo dai due lati. Un processo lungo e tedioso, che portava alla sequenza del gene ribosomale 16S completo (ricordiamo essere composto da circa 1500 nucleotidi). Ottenute le sequenze, si procedeva all’analisi bioinformatica. In questo passo si assegnava la corretta tassonomia ad ogni sequenza per poter definire quanti e quali tipi di sequenze, ovvero di organismi, vi erano in ogni campione.

Vista la mole di lavoro che questo metodo comportava, generalmente si accettava la caratterizzazione di comunità microbiche anche con poche decine di sequenze rappresentative.

Estrazione del DNA di una comunità microbica mista, amplificazione, clonazione e sequenziamento di prima generazione.
Figura 1 – Schema riassuntivo dell’analisi di comunità microbiche basato sulla clonazione e sequenziamento di prima generazione. Dopo il processo di estrazione del DNA e amplificazione del gene ribosomale 16S completo, ogni amplicone veniva clonato e sequenziato individualmente permettendo una classificazione accurata fino al livello di specie [Fonte immagine: Cecilia Panzetti].

Avvento della seconda generazione di sequenziatori per l’analisi delle comunità microbiche

Nel 2005 arrivarono i primi sequenziatori “paralleli”. Fra loro ricordiamo lo storico “pirosequenziatore 454” (Roche) e i sequenziatori, ancora in uso, della casa Illumina e gli IonTorrent (ThermoFisher). Finalmente si poteva sequenziare il prodotto della PCR senza passare dalla clonazione. Questi sistemi, denominati “di alto rendimento” (High Throughput Sequencing) erano così potenti da permettere di sequenziare centinaia di migliaia (poi milioni) di sequenze per esperimento (Fig. 2).

Il prodotto della PCR, dopo pochi e semplici passi, era già pronto per essere sequenziato in una sola reazione. In più, questi metodi permisero di poter analizzare centinaia di campioni per volta. I costi e i tempi per descrivere un determinato ambiente si ridussero improvvisamente. Le banche dati cominciarono di conseguenza a crescere a un ritmo esponenziale. Le descrizioni delle comunità cominciarono a basarsi su migliaia di sequenze per campione, con un supporto statistico senza precedenti.

Il problema di questi nuovi metodi era fondamentalmente la lunghezza delle sequenze ottenute. Prendiamo l’esempio del sequenziatore MiSeq (Illumina): sebbene tramite esso siano prodotte milioni di sequenze di altissima qualità, esse raggiungono al massimo 300 nucleotidi. Sequenziando gli ampliconi nei due sensi (“forward” e “reverse“), si può arrivare a circa 500 nucleotidi (considerando una breve regione di sovrapposizione). Questo rappresentò un problema per l’annotazione tassonomica. Infatti, riducendo l’informazione del gene ribosomale 16S a circa un terzo della sua lunghezza, si riduce anche il suo potere di classificazione limitandole all’identificazione del genere o, in casi più difficili, della famiglia.

Ciononostante, la seconda generazione di sequenziatori si trasformò in uno standard per la caratterizzazione tassonomica delle comunità microbiche.

Estrazione del DNA, amplificazione e sequenziamento parallelo di seconda generazione.
Figura 2 – Analisi delle comunità microbiche mediante sequenziamento parallelo di seconda generazione. Si amplifica solo una frazione del gene 16S (circa 500 nucleotidi), gli ampliconi vengono sequenziati in una sola reazione. Permette una classificazione affidabile fino al livello di genere [Fonte immagine: Cecilia Panzetti].

Terza generazione, il ritorno alla specie

Dal 2009 iniziarono ad arrivare sul mercato nuove macchine che promettevano sequenze molto più lunghe. In particolare, debuttarono i sequenziatori di terza generazione delle case Pacific Bioscience (PacBio) e Oxford Nanopore Technologies (ONT). Sebbene si discuta ancora sulla qualità delle sequenze ottenute, i metodi stanno migliorando rapidamente. Gli ultimi protocolli di sequenziamento mediante PacBio, basati sulla nuova macchina “Sequel-II“, per esempio, prevedono la lettura ripetuta di frammenti molto lunghi (fino a 30.000 nucleotidi). Questo sistema legge le molecole di DNA, rese previamente circolari, più e più volte, correggendo eventuali errori di sequenziamento (Fig. 3). In questo modo si ritorna a poter sequenziare il gene ribosomale intero o addirittura l’operone completo, includendo le sequenze spaziatrici fra un gene e l’altro.

Estrazione del DNA, amplificazione e sequenziamento parallelo di terza generazione.
Figura 3 – Schema riassuntivo dell’analisi di comunità microbiche basato sul sequenziamento parallelo di terza generazione. Dopo il processo di estrazione del DNA e amplificazione del gene ribosomale 16S completo, il prodotto della PCR viene sequenziato in una sola reazione permettendo una classificazione affidabile fino al livello di genere [Fonte immagine: Cecilia Panzetti].

Il futuro nell’analisi delle comunità microbiche

Nuovamente, dopo circa 30 anni, possiamo ottenere con facilità una classificazione tassonomica microbica fino al livello di specie partendo dall’amplicone completo del gene ribosomale 16S. Grazie ai metodi di sequenziamento di terza generazione, per la prima volta, possiamo sequenziare frammenti di lunghezza considerevole, mantenendo la caratteristica dell’alto rendimento. Ci permettono inoltre di mantenere, la velocità e i costi contenuti a cui ci hanno abituato i metodi di seconda generazione.

Dal punto di vista dell’informazione generata, le banche dati cominceranno presto a ripopolarsi di sequenze complete permettendo un’annotazione tassonomica caratterizzata da un’alta sensibilità e precisione. Questa visione ottimista sullo stato attuale del sequenziamento conferisce una nuova dimensione all’analisi tassonomica delle comunità microbiche degli ambienti più diversi.

Finalmente, i nuovi metodi di terza generazione aprono un ventaglio di possibilità senza precedenti anche in tutte le altre discipline dove la genomica e il DNA rappresentano l’origine dell’informazione.

Autore: Dr. Giuseppe D’Auria, PhD. (ORCIDgidauria), responsabile del Servizio di Bioinformatica della fondazione FISABIO, Valenzia, Spagna. Progetto “Microonstream: Life under the microscope” (YTTwitter).

Fonti

  • Check Hayden E. Genome sequencing: the third generation. Nature. 2009 Feb 12;457(7231):768-9: https://www.nature.com/articles/news.2009.86
  • DeLong EF. Archaea in coastal marine environments. Proc Natl Acad Sci U S A. 1992 Jun 15;89(12):5685-9: https://www.pnas.org/content/89/12/5685
  • de Oliveira Martins L, Page AJ, Mather AE, Charles IG. Taxonomic resolution of the ribosomal RNA operon in bacteria: implications for its use with long-read sequencing. NAR Genom Bioinform. 2019 Nov 14;2(1):lqz016: https://academic.oup.com/nargab/article/2/1/lqz016/5625502
  • Lane, DJ. 16S/23S rRNA Sequencing. In: Stackebrandt, E. and Goodfellow, M., Eds., Nucleic Acid Techniques in Bacterial Systematic 1991. John Wiley and Sons, New York, 115-175
  • Pacific Biosciences Launches New Sequel II System, Featuring ~8 Times the DNA Sequencing Data Output [articolo]
  • Woese CR, Fox GE. Phylogenetic structure of the prokaryotic domain: the primary kingdoms. Proc Natl Acad Sci U S A. 1977 Nov;74(11):5088-90: https://www.pnas.org/content/74/11/5088
  • Immagini: Cecilia Panzetti

Rispondi

%d blogger hanno fatto clic su Mi Piace per questo: