Notizie - Metaproteomica microbica: dall'elaborazione dei campioni, dalla raccolta dei dati all'analisi dei dati

Wu Enhui, Qiao Liang*

Dipartimento di Chimica, Università Fudan, Shanghai 200433, Cina

I microrganismi sono strettamente correlati alle malattie e alla salute umana. Come comprendere la composizione delle comunità microbiche e le loro funzioni è una questione importante che deve essere studiata con urgenza. Negli ultimi anni, la metaproteomica è diventata un importante mezzo tecnico per studiare la composizione e la funzione dei microrganismi. Tuttavia, a causa della complessità e dell’elevata eterogeneità dei campioni della comunità microbica, l’elaborazione dei campioni, l’acquisizione dei dati mediante spettrometria di massa e l’analisi dei dati sono diventate le tre principali sfide attualmente affrontate dalla metaproteomica. Nelle analisi metaproteomiche è spesso necessario ottimizzare il pretrattamento di diverse tipologie di campioni e adottare diversi schemi di separazione, arricchimento, estrazione e lisi microbica. Similmente al proteoma di una singola specie, le modalità di acquisizione dei dati della spettrometria di massa nella metaproteomica includono la modalità di acquisizione dipendente dai dati (DDA) e la modalità di acquisizione indipendente dai dati (DIA). La modalità di acquisizione dati DIA può raccogliere completamente le informazioni sui peptidi del campione e ha un grande potenziale di sviluppo. Tuttavia, a causa della complessità dei campioni di metaproteoma, l’analisi dei dati DIA è diventata un grosso problema che ostacola la copertura approfondita della metaproteomica. In termini di analisi dei dati, il passo più importante è la costruzione di un database di sequenze proteiche. La dimensione e la completezza del database non solo hanno un grande impatto sul numero di identificazioni, ma influenzano anche l'analisi a livello di specie e funzionale. Attualmente, il gold standard per la costruzione di un database di metaproteomi è un database di sequenze proteiche basato sul metagenoma. Allo stesso tempo, è stato dimostrato che anche il metodo di filtraggio dei database pubblici basato sulla ricerca iterativa ha un forte valore pratico. Dal punto di vista delle specifiche strategie di analisi dei dati, i metodi di analisi dei dati DIA incentrati sui peptidi hanno occupato un mainstream assoluto. Con lo sviluppo dell’apprendimento profondo e dell’intelligenza artificiale, si promuoverà notevolmente l’accuratezza, la copertura e la velocità di analisi dei dati macroproteomici. In termini di analisi bioinformatica a valle, negli ultimi anni sono stati sviluppati una serie di strumenti di annotazione, in grado di eseguire annotazioni di specie a livello proteico, peptidico e genico per ottenere la composizione delle comunità microbiche. Rispetto ad altri metodi omici, l'analisi funzionale delle comunità microbiche è una caratteristica unica della macroproteomica. La macroproteomica è diventata una parte importante dell’analisi multi-omica delle comunità microbiche e ha ancora un grande potenziale di sviluppo in termini di profondità di copertura, sensibilità di rilevamento e completezza di analisi dei dati.

01Pretrattamento del campione

Allo stato attuale, la tecnologia metaproteomica è stata ampiamente utilizzata nella ricerca sul microbioma umano, sul suolo, sul cibo, sull’oceano, sui fanghi attivi e in altri campi. Rispetto all'analisi del proteoma di una singola specie, il pretrattamento del metaproteoma di campioni complessi deve affrontare più sfide. La composizione microbica nei campioni reali è complessa, la gamma dinamica di abbondanza è ampia, la struttura della parete cellulare di diversi tipi di microrganismi è molto diversa e i campioni spesso contengono una grande quantità di proteine ospiti e altre impurità. Pertanto, nell'analisi del metaproteoma, è spesso necessario ottimizzare diverse tipologie di campioni e adottare diversi schemi di separazione, arricchimento, estrazione e lisi microbica.

L'estrazione di metaproteomi microbici da campioni diversi presenta alcune somiglianze e alcune differenze, ma attualmente manca un processo di pre-elaborazione unificato per diversi tipi di campioni di metaproteomi.

02Acquisizione dati mediante spettrometria di massa

Nell'analisi del proteoma shotgun, la miscela peptidica dopo il pretrattamento viene prima separata nella colonna cromatografica e quindi entra nello spettrometro di massa per l'acquisizione dei dati dopo la ionizzazione. Similmente all'analisi del proteoma di una singola specie, le modalità di acquisizione dei dati della spettrometria di massa nell'analisi del macroproteoma includono la modalità DDA e la modalità DIA.

Con la continua iterazione e aggiornamento degli strumenti di spettrometria di massa, al metaproteoma vengono applicati strumenti di spettrometria di massa con sensibilità e risoluzione più elevate e anche la profondità di copertura dell'analisi del metaproteoma viene continuamente migliorata. Per molto tempo, una serie di strumenti di spettrometria di massa ad alta risoluzione guidati da Orbitrap sono stati ampiamente utilizzati nel metaproteoma.

La tabella 1 del testo originale mostra alcuni studi rappresentativi sulla metaproteomica dal 2011 ad oggi in termini di tipo di campione, strategia di analisi, strumento di spettrometria di massa, metodo di acquisizione, software di analisi e numero di identificazioni.

03Analisi dei dati mediante spettrometria di massa

3.1 Strategia di analisi dei dati DDA

3.1.1 Ricerca nel database

3.1.2de novostrategia di sequenziamento

3.2 Strategia di analisi dei dati DIA

04Classificazione delle specie e annotazione funzionale

La composizione delle comunità microbiche a diversi livelli tassonomici è una delle aree di ricerca chiave nella ricerca sul microbioma. Negli ultimi anni sono stati sviluppati una serie di strumenti di annotazione per annotare le specie a livello di proteine, peptidi e geni per ottenere la composizione delle comunità microbiche.

L'essenza dell'annotazione funzionale è confrontare la sequenza proteica target con il database delle sequenze proteiche funzionali. Utilizzando database di funzioni geniche come GO, COG, KEGG, EggNOG, ecc., è possibile eseguire diverse analisi di annotazioni funzionali su proteine identificate dai macroproteomi. Gli strumenti di annotazione includono Blast2GO, DAVID, KOBAS, ecc.

05Riepilogo e prospettive

I microrganismi svolgono un ruolo importante nella salute e nelle malattie umane. Negli ultimi anni, la metaproteomica è diventata un importante mezzo tecnico per studiare la funzione delle comunità microbiche. Il processo analitico della metaproteomica è simile a quello della proteomica di una singola specie, ma a causa della complessità dell'oggetto di ricerca della metaproteomica, è necessario adottare strategie di ricerca specifiche in ogni fase dell'analisi, dal pretrattamento del campione, all'acquisizione dei dati all'analisi dei dati. Attualmente, grazie al miglioramento dei metodi di pretrattamento, alla continua innovazione della tecnologia della spettrometria di massa e al rapido sviluppo della bioinformatica, la metaproteomica ha fatto grandi progressi nella profondità di identificazione e nell'ambito di applicazione.

Nel processo di pretrattamento dei campioni di macroproteoma, è necessario considerare innanzitutto la natura del campione. Come separare i microrganismi dalle cellule e dalle proteine ambientali è una delle sfide chiave che devono affrontare i macroproteomi e l’equilibrio tra efficienza di separazione e perdita microbica è un problema urgente da risolvere. In secondo luogo, l’estrazione proteica dei microrganismi deve tenere conto delle differenze causate dall’eterogeneità strutturale dei diversi batteri. Anche i campioni di macroproteomi nell'intervallo di tracce richiedono metodi di pretrattamento specifici.

In termini di strumenti di spettrometria di massa, gli strumenti di spettrometria di massa tradizionali hanno subito una transizione dagli spettrometri di massa basati su analizzatori di massa Orbitrap come LTQ-Orbitrap e Q Exactive agli spettrometri di massa basati su analizzatori di massa a tempo di volo accoppiati alla mobilità ionica come timsTOF Pro . La serie di strumenti timsTOF con informazioni sulle dimensioni della mobilità ionica hanno un'elevata precisione di rilevamento, un limite di rilevamento basso e una buona ripetibilità. Sono diventati gradualmente strumenti importanti in una varietà di campi di ricerca che richiedono il rilevamento tramite spettrometria di massa, come il proteoma, il metaproteoma e il metaboloma di una singola specie. Vale la pena notare che per molto tempo la gamma dinamica degli strumenti di spettrometria di massa ha limitato la profondità di copertura proteica della ricerca sul metaproteoma. In futuro, gli strumenti di spettrometria di massa con un intervallo dinamico più ampio potranno migliorare la sensibilità e l'accuratezza dell'identificazione delle proteine nei metaproteomi.

Per l'acquisizione dei dati della spettrometria di massa, sebbene la modalità di acquisizione dei dati DIA sia stata ampiamente adottata nel proteoma di una singola specie, la maggior parte delle attuali analisi del macroproteoma utilizza ancora la modalità di acquisizione dei dati DDA. La modalità di acquisizione dati DIA può ottenere completamente le informazioni sui frammenti ionici del campione e, rispetto alla modalità di acquisizione dati DDA, ha il potenziale per ottenere completamente le informazioni sui peptidi del campione di macroproteoma. Tuttavia, a causa dell’elevata complessità dei dati DIA, l’analisi dei dati del macroproteoma DIA incontra ancora grandi difficoltà. Si prevede che lo sviluppo dell’intelligenza artificiale e del deep learning migliorerà l’accuratezza e la completezza dell’analisi dei dati DIA.

Nell'analisi dei dati della metaproteomica, uno dei passaggi chiave è la costruzione del database delle sequenze proteiche. Per aree di ricerca popolari come la flora intestinale, è possibile utilizzare database microbici intestinali come IGC e HMP e sono stati ottenuti buoni risultati di identificazione. Per la maggior parte delle altre analisi metaproteomiche, la strategia di costruzione del database più efficace è ancora quella di stabilire un database di sequenze proteiche campione-specifico basato sui dati di sequenziamento metagenomico. Per campioni di comunità microbiche con elevata complessità e ampio intervallo dinamico, è necessario aumentare la profondità di sequenziamento per aumentare l'identificazione di specie a bassa abbondanza, migliorando così la copertura del database delle sequenze proteiche. Quando mancano i dati di sequenziamento, è possibile utilizzare un metodo di ricerca iterativo per ottimizzare il database pubblico. Tuttavia, la ricerca iterativa può influenzare il controllo di qualità di FDR, quindi i risultati della ricerca devono essere controllati attentamente. Inoltre, vale ancora la pena esplorare l’applicabilità dei tradizionali modelli di controllo di qualità FDR nell’analisi metaproteomica. In termini di strategia di ricerca, la strategia della libreria spettrale ibrida può migliorare la profondità di copertura della metaproteomica DIA. Negli ultimi anni, la libreria spettrale prevista generata sulla base del deep learning ha mostrato prestazioni superiori nella proteomica DIA. Tuttavia, i database del metaproteoma spesso contengono milioni di voci proteiche, il che si traduce in un'ampia scala di librerie spettrali previste, consuma molte risorse di calcolo e si traduce in un ampio spazio di ricerca. Inoltre, la somiglianza tra le sequenze proteiche nei metaproteomi varia notevolmente, rendendo difficile garantire l'accuratezza del modello di previsione della libreria spettrale, quindi le librerie spettrali previste non sono state ampiamente utilizzate nella metaproteomica. Inoltre, è necessario sviluppare nuove strategie di inferenza proteica e di annotazione di classificazione da applicare all'analisi metaproteomica di proteine altamente simili nella sequenza.

In sintesi, in quanto tecnologia emergente di ricerca sul microbioma, la tecnologia metaproteomica ha ottenuto risultati di ricerca significativi e ha anche un enorme potenziale di sviluppo.

Orario di pubblicazione: 30 agosto 2024