Snippy-core
Introduzione
L'analisi Snippy-core effettua l'estrazione dei core SNPs dai file VCF prodotti da Snippy (Rapid haploid variant calling and core genome alignment) e successiva costruzione dell'albero MST con ReporTree.
Se non sono stati forniti come input i risultati di Snippy, l'analisi Snippy-core effettua prima un mapping con il tool Snippy. I fasta del mapping così ottenuti verranno poi dati in input a Snippy-core, che produce il file core.vcf contenente le varianti (SNPs e indels) core del dataset.
Il file VCF viene infine processato con ReporTree per ottenere la matrice di distanza e l'albero MST.
- Pagina GitHub di Snippy & Snippy-core: https://github.com/tseemann/snippy
- Pagina GitHub di ReporTree: https://github.com/insapathogenomics/ReporTree
- Pagina GitHub di IQ-TREE: https://github.com/iqtree/iqtree2
- Pagina GitHub di FastTree: https://github.com/morgannprice/fasttree
Lancia Analisi Snippy-core
Una volta selezionata l'analisi Snippy-core nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma dell'analisi scelta.
L'interfaccia per la definizione dei parametri richiede la selezione di un reference, necessario sia per Snippy-core che per l'eventuale mapping con Snippy. Verrà sempre usato un reference in formato genebank (gb).
La sezione dedicata alla selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.
I possibili input utilizzabili per l'analisi Snippy-core sono:
- step_1PP_trimming
- step_1PP_generated
- step_1PP_hostdepl
- step_1PP_downsampling
- step_1PP_filtering
- step_2AS_mapping
- step_2AS_denovo
- step_2AS_hybrid
- step_2MG_denovo
La schermata di definizione dei parametri offre, inoltre, un elevato livello di personalizzazione, tra cui:
-
Parametri di Snippy/Snippy-core:
Alignment type: permette di scegliere tra le due modalità di allineamento ed estrazione degli SNP di Snippy e Snippy-core ("Core" e "Full");Keep intermediate files: al termine dell'esecuzione, l'analisi normalmente elimina i file più grandi che non sono necessari per le analisi a valle. Questa opzione permette di scegliere di non eliminare tali file al termine del processo;Remove reference in downstream analyses: i file di output di Snippy-core includono, di norma, anche il reference usato per il mapping. Questa opzione permette di rimuovere il reference dal filecore.vcf, azione necessaria per evitare che il reference sia presente come campione nell'albero finale;Filter out recombinations with Gubbins: permette di eseguire il software addizionale "Gubbins" per rimuovere, dal filecore.vcf, le varianti identificate come ricombinazioni.
-
Parametri di ReporTree:
-
Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti dei genomi allineati. Questa opzione permette di definire un valore soglia: i siti che presentano una percentuali di "missing data", ovvero una percentuale di N (%N) al di sotto del valore specificato vengono scartati. Solo i siti che passano il filtro vengono conservati ed usati per il calcolo dell'albero;Minimum proportion (0 to 1) of ATCG in informative sites of the alignment per sample: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per la percentuale di N nella sequenza del campione. I campioni con %N al di sotto del valore specificato vengono scartati;- Opzioni
Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso Cluster; - Opzioni
Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale - Opzioni
Custom parameters for reportree: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC).
-
Parametri per clustering ML:
Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I sofware disponibili sono IQ-TREE e FastTree;Custom parameters for ML phylogenetic tree calculation: campo di testo in cui immettere opzioni in stile Command Line per il clustering ML;[IQ-TREE only] Try to apply CMAPLE tree search algorithm: se viene selezionato IQ-TREE, permette di scegliere se applicare l'algoritmo per il posizionamento nell'albero di CMAPLE, integrato in IQ-TREE.
Dato il numero e la complessità di parametri e risultati dei software Snippy-core e ReporTree, si invita a consultarne le guide ufficiali: - guida ufficiale di Snippy & Snippy-core - guida ufficiale di ReporTree
La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:
Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.
Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.
Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di ReporTree e selezionare il link MST with SPREAD.
Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (
.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.
Cartella dei risultati
Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.
La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:
- meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
- result: in cui sono salvati i file con i risultati prodotti dall'analisi.
La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.
| File | Descrizione | Posizione |
|---|---|---|
gt.nwk |
file .nwk dell'albero MST | cartella "result" |
gt_dist_grapetree.tsv |
matrice di distanza per l'albero MST | cartella "result" |
snippycore.full.aln |
file multifasta dell'allineamento dei campioni al reference (Snippy-core). Contiene l'intero allineamento, compresi i siti non variabili | cartella "result" |
snippycore.aln |
file multifasta dell'allineamento dei campioni al reference (Snippy-core). Contiene l'allineamento delle sole regioni variabili | cartella "result" |
clean.full.aln |
file multifasta dell'allineamento dei campioni al reference (Snippy-core). Si tratta del file snippycore.full.aln filtrato, ovvero dopo la rimozione delle posizioni di allineamento incerte, con basso coverage o con gap |
cartella "result" |
reportree_metadata.tsv |
tabella dei metadati dei campioni prodotta da ReporTree | cartella "result" |
gt_dist.tsv |
distanze pairwise dell'albero MST | cartella "result" |
gt_clusterComposition.tsv |
tabella con elenco dei cluster e loro composizione | cartella "result" |
gt_loci_used.txt |
elenco dei loci usati per il calcolo della matrice di distanza (start position) | cartella "result" |
gt_dist_hamming.tsv |
matrice di distanza | cartella "result" |
gt_partitions.tsv |
tabella con le informazioni dei cluster di appartenenza dei campioni, ad ogni valore di partizionamento dell'albero | cartella "result" |
zooms.txt |
elenco degli zoom richiesti | cartella "result" |
gt_metadata_w_partitions.tsv |
Tabella dei metadati con informazioni sui cluster di appartenenza | cartella "result" |
gt_partitions_summary.tsv |
tabella riepilogativa delle partizioni dell'albero e relativi campioni nei cluster | cartella "result" |
snippycore.tab |
tabella .tsv delle varianti. Colonne: cromosoma, posizione, nucleotide nel reference, nucleotide nel campione 1, nucleotide nel campione 2... | cartella "result" |
snippycore.vcf |
file VCFv4.2 delle varianti. Comprende un header informativo e la tabella con il tipo di variante e una matrice binaria di presenza/assenza della variante nei campioni | cartella "result" |
Il file in formato newick (
.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.