Un nuovo algoritmo per identificare i ceppi batterici

L’Unità di Biologia Computazionale della Fondazione Edmund Mach ha recentemente messo a punto un complesso algoritmo in grado di identificare e quantificare con precisione i ceppi batterici in un campione di microbiota. La ricerca in questione è stata pubblicata sulla rivista Nature Communications.

Le premesse

Le comunità microbiche sono spesso composte da miscele complesse di più ceppi della stessa specie e caratterizzate da un’ampia variabilità genomica e fenotipica. Metodi computazionali in grado di identificare, quantificare e classificare i diversi ceppi presenti in un campione sono essenziali per sfruttare pienamente il potenziale del sequenziamento metagenomico nell’ecologia microbica, con applicazioni che spaziano dall’epidemiologia delle malattie infettive alla caratterizzazione della dinamica della colonizzazione microbica.
Per mettere a profitto del tutto il potenziale delle tecnologie metagenomiche sono necessarie tecniche di analisi dei dati in grado di districare comunità potenzialmente complesse di ceppi strettamente correlati e classificarle in base alla struttura di popolazione delle specie. In molti casi, le specie di rilevanza clinica o biotecnologica sono state studiate e sono attualmente disponibili database di sequenze genomiche di singoli isolati, insieme a un ampio corpus di conoscenze sulle singole caratteristiche dei ceppi selezionati.

Lo studio

Il progetto presenta un approccio computazionale, StrainEst, che impiega i dati genomici disponibili per ricostruire profili complessi di ceppi a partire dal sequenziamento metagenomico, quantificando l’abbondanza dei diversi ceppi e catalogandoli in base alla struttura di popolazione delle specie. Il metodo è stato convalidato su set di dati sintetici e applicato alla caratterizzazione della distribuzione dei ceppi di diverse importanti specie batteriche in campioni reali.

Un criterio innovativo

StrainEst utilizza i profili Single Nucleotide Variants (SNV) dei genomi disponibili delle specie selezionate per determinare il numero e l’identità dei ceppi coesistenti e la loro abbondanza relativa in campioni metagenomici misti. Piuttosto che fornire uno strumento generale che caratterizzi tutte le specie allo stesso tempo, StrainEst si concentra sulle specie di interesse definendo la loro struttura di popolazione attraverso un raggruppamento dei profili SNV.

Utilizzando una procedura di ottimizzazione penalizzata, per districare i singoli componenti, questo approccio identifica e quantifica tutti i ceppi delle specie di interesse presenti in un campione, affinando la risoluzione degli attuali metodi di identificazione dei ceppi. Inoltre, classificando questi componenti tramite l’utilizzo di un database predefinito di sequenze genomiche rappresentative, StrainEst consente la compilazione di ampie meta-analisi, inclusi campioni da studi non correlati, e pone le basi per un uso esteso della metagenomica negli studi epidemiologici.

L’algoritmo è stato testato sulle due comunità simulate disponibili nel Progetto Microbioma Umano, per ciascuna delle quali è stata verificata la capacità di StrainEst di identificare il ceppo corretto di Escherichia coli, Neisseria meningitidis, Propionibacterium acnes, Staphylococcus aureus e Staphylococcus epidermidis. Il test è risultato particolarmente difficile a causa della scarsa abbondanza di alcune di queste specie nei campioni. Per ogni specie di interesse, i ricercatori hanno scaricato tutte le sequenze genomiche complete disponibili dal database dell’NCBI (National Center for Biotechnology Information).

Un presupposto necessario per l’utilizzo di StrainEst è che si tratta di un metodo applicabile solo a specie per le quali sono disponibili informazioni genomiche sufficienti. Pur essendo una limitazione ovvia nel caso di specie mal caratterizzate, tale approccio presenta il vantaggio di fornire una classificazione dei ceppi in termini di un set standard di sequenze rappresentative, il cui numero e identità derivano dalla struttura di popolazione delle specie. Tra gli ulteriori pregi di questo procedimento vi è, inoltre, la possibilità di eseguire meta-analisi su larga scala, confronti di studi non correlati, e l’opportunità di utilizzare i dati per indagini epidemiologiche molecolari riguardo specie di particolare rilevanza.

 

 

                                                                                                                                                           Angela Chimienti

 

 

Fonti (contenuti e immagini):

  • Albanese, Donati, 2017, Strain profiling and epidemiology of bacterial species from metagenomic sequencing, Nat Commun. DOI: 10.1038/s41467-017-02209-5 (https://www.nature.com/articles/s41467-017-02209-5)
  • https://eaphelp.blogspot.it/2015/06/binary-trees.html ( immagine in evidenza)

Commenta per primo

Rispondi