Il pan-genoma

L’essenziale e il superfluo delle specie microbiche

Comparando i genomi sequenziati dei batteri della stessa specie, per esempio Staphylococcus aureus, si osserva che l’insieme genico di una specie, contiene un genoma centrale chiamato core, formato da geni comuni a tutti gli isolati e da un genoma accessorio contenente geni condivisi fra più genomi ma non da tutti, o da geni unici e caratteristici di un determinato genoma (Figura 1). L’unione fra il genoma core e i geni accessori di tutti gli organismi sequenziati all’interno di una determinata specie, prende il nome di pan-genoma, dal greco pan- (intero) e –genoma (Mira et al., 2010; Tettelin et al., 2005). Questo concetto si applica tanto a organismi procarioti (eubatteri o archea), come a organismi eucarioti, che siano unicellulari, piante o animali.

Sin dagli anni ‘90, prima dell’avvento del sequenziamento genomico, si sapeva che le dimensioni del cromosoma di organismi della stessa specie poteva variare. Quando finalmente abbiamo iniziato a leggere il DNA sequenziandolo, ci si rese conto che negli organismi microbici appartenenti alla stessa specie, il numero e il tipo di geni che compongono il loro genoma può cambiare considerevolmente. Si scoprì dunque che, in complesso, il repertorio genico di individui appartenenti alla stessa specie è superiore al contenuto genico di ogni singolo individuo.

Struttura di un pan-genoma, a sinistra l'albero rappresenta la relazione filogenetica. A destra le linee blu rappresentano i geni condivisi fra i genomi comparati.
Figura 1 – Analisi di un pan-genoma comparando ceppi di Listeria monocytogenes. Ogni linea riporta i dati relativi a un genoma. Sul lato sinistro ritroviamo un albero filogenetico con la posizione di ogni genoma ricostruito basandoci sulla presenza/assenza di geni. A destra si osservano in blu i geni condivisi fra più genomi; la regione più densa mostra i geni condivisi fra tutti i genomi (genoma core), mentre più a destro si osservano i geni specifici di ogni genoma.

Il corredo genico di una specie

Per definire il pan-genoma di una specie si inizia identificando quali geni sono condivisi fra tutti i genomi. In questo gruppo troveremo i geni il cui prodotto svolge funzioni indispensabili per il metabolismo centrale, geni con funzioni strutturali o che, con l’evoluzione, sono diventati caratteristici della specie stessa. I geni che ricadono in questa categoria sono generalmente quelli che possiamo tracciare in un albero filogenetico della stessa specie e che definiamo ortologhi. Questo gruppo di geni rappresenta il core della specie considerata.

Fuori dai limiti del genoma centrale troveremo quei geni che non sono indispensabili, geni accessori che rendono speciale ogni ceppo batterico. Per esempio, i processi di trasferimento orizzontale di DNA per trasformazione o coniugazione, portano all’arricchimento del genoma accessorio, conferendo all’organismo che lo riceve una marcia in più rispetto ai membri della stessa colonia. Basta pensare ai problemi relativi all’acquisizione delle resistenze ad antibiotici per renderci subito conto di come questa parte del genoma diventi di estremo interesse.

Pan-genoma chiuso o aperto

Per definire il numero di geni che compongono il core e gli accessori di un pan-genoma, si aggiungono progressivamente allo studio nuovi genomi della specie considerata. In questo modo si osserva come il genoma core si ridurrà, aumentando invece la parte accessoria giacché non tutti i geni sono condivisi fra tutti i genomi. Continuando questo processo si arriverà a un punto in cui il genoma centrale si stabilizza mentre il genoma accessorio non apporterà “novità” al repertorio genico. Diremo quindi, che il pan-genoma di questa specie è “chiuso” (Figura 2). Batteri simbionti o estremamente adattati a una determinata nicchia possono aver raggiunto la chiusura del pan-genoma (per esempio Bifidobacterium longum, o alcuni patogeni come Listeria monocytogenes o Bacillus anthracis) trovandosi in una condizione in cui i nuovi genomi sequenziati non apportano grandi novità al corredo genomico della specie (Park et al., 2019).

Organismi come Escherchia coli, Staphylococcus aureus, Streptococcus agalactiae, presentano un pan-genoma “aperto”, con un numero di geni accessori che continua a crescere anche con migliaia di isolati sequenziati attualmente. Questi organismi sono caratterizzati da un’alta capacità di acquisire geni mediante trasferimento orizzontale e proprio per questo motivo si tratta di organismi problematici che continuano ad arricchirsi di nuovi fattori di resistenza, virulenza o altri fattori metabolici che gli permettono di persistere nelle condizioni più diverse. Per esempio, Legionella pneumophila acquista facilmente fattori di resistenza che gli permettono, non solo di resistere agli antibiotici ma anche ai trattamenti a cui si sottopongono periodicamente le tuberie (D’Auria et al., 2010).

Grafico schematico della due strutture di pan-genoma, chiuso o aperto in una specie microbica.
Figura 2 – Il pan-genoma chiuso è caratterizzato da un genoma centrale che contiene la maggior parte dei geni condivisi dai genomi considerati. Un pan-genoma aperto presenta un numero di geni accessori che continua a cresce aggiungendo nuovi genomi all’analisi.

Applicazioni dello studio del pan-genoma

Oggigiorno, con centinaia o migliaia di genomi sequenziati per specie, soprattutto per quelle con un interesse biomedico, la descrizione del pan-genoma ci permette di definire, con una risoluzione ma vista prima, il genoma centrarle e il corredo di geni accessori. Mentre il genoma centrale non comporta grandi sorprese e rimane abbastanza stabile durante l’evoluzione, i geni accessori rappresentano un’importante fonte di novità che può essere usata come obbiettivo per nuovi vaccini, aprendo il campo a una disciplina in continuo sviluppo conosciuta come vaccinologia inversa (reverse vaccinology, Medini et al., 2020).

Inoltre, conoscendo il genoma accessorio di una specie, soprattutto in un contesto epidemiologico, si pongono le basi per un tipo di microbiologia clinica di precisione capace di potenziare la sensibilità e specificità di vaccini o di kit molecolari di identificazione microbica basati, per esempio, sulla ricerca di quei geni (tanto le loro sequenze come il loro prodotto) che caratterizzano il ceppo d’interesse.

Il pan-genoma e il concetto di specie microbica

Alla fine degli anni 2000, solo poche decine di genomi di Escherichia coli erano stati sequenziati. Con soli 17 genomi, si stimó che le dimensioni del genoma accessorio di Escherichia coli aumentavano di circa 300 geni per ogni genoma aggiunto all’insieme, stimandone il pan-genoma in circa 13.000 geni unici totali (Rasko et al., 2008). In una stima recente, usando 4.401 genomi, il pan-genoma di E. coli si stima essere composto da circa 128.193 geni (Park et al., 2019).

Il concetto di specie microbica da un punto di vista classico, si è basato fondamentalmente sullo studio delle caratteristiche fenotipiche, sulle relazioni fra le sequenze del genoma core o fra le sequenze di marcatori filogenetici stabili come, ad esempio, i geni ribosomali 16S. In fin dei conti, questi elementi non cambiano all’aumentare del numero di genomi sequenziati. Ci si trova quindi obbligati a riformulare il classico concetto di specie basato sulla ricerca di una identità condivisa fra organismi con origini filogenetiche comuni, facendo passo a un’idea più ampia e variabile di specie basata appunto sul suo pan-genoma.

Autore: Dr. Giuseppe D’Auria, PhD. (ORCIDgidauria), responsabile del Servizio di Bioinformatica della fondazione FISABIO, Valenzia, Spagna. Progetto “Microonstream: Life under the microscope” (YTTwitter, IG).

Fonti

Foto dell'autore

Giuseppe D'Auria

Il mio lavoro si concentra principalmente sullo studio dell'ecologia microbica di ambienti naturali o in simbiosi con l’essere umano come, per esempio, il microbioma intestinale. Ho ottenuto la laurea in biologia presso l'Università di Messina, poi successivamente il titolo di Dottore di Ricerca, studiando la diversità microbica nei bacini anossici ipersalini profondi (DHABs) del Mar Mediterraneo, presso il Consiglio Nazionale delle Ricerche (CNR - Istituto per l'Ambiente Marino Costiero - Messina, Italia). Mi sono quindi trasferito all'Università Miguel Hernández (Alicante, Spagna) dove ho iniziando la mia formazione in bioinformatica e genomica microbica. Nel 2007 mi sono trasferito all’università di Valenzia dove ho lavorato a numerosi progetti-genoma di microorganismi. Successivamente ho cominciato a lavorare presso la “Fondazione per la promozione della salute e la ricerca biomedica” della regione Valenziana (FISABIO), occupandomi di ecologia microbica e genetica, sviluppando una linea di ricerca in citometria di flusso e genomica microbica. Nella findazione FISABIO, dal 2014 ho promosso lo sviluppo del servizio di Sequenziamento e Bioinformatica. Attualmente sono il responsabile del servizio di Bioinformatica della fondazione. Coordino e partecipo come docente in vari corsi di formazione in bioinformatica come l’annuale EMBO: “Microbial Metagenomics: A 360º Approach”. Ho pubblicato più di 50 articoli scientifici e vari capitoli di libro. Durante la pandemia di SARS-CoV-2, ho partecipato alle attività per il sequenziamento e l'analisi dei primi genomi del virus in Spagna. Sono un entusiasta della biologia e dell'informatica.

Lascia un commento