Snippy-core

Introduzione

L'analisi Snippy-core effettua l'estrazione dei core SNPs dai file VCF prodotti da Snippy (Rapid haploid variant calling and core genome alignment) e successiva costruzione dell'albero MST con ReporTree.

Se non sono stati forniti come input i risultati di Snippy, l'analisi Snippy-core effettua prima un mapping con il tool Snippy. I fasta del mapping così ottenuti verranno poi dati in input a Snippy-core, che produce il file core.vcf contenente le varianti (SNPs e indels) core del dataset.

Il file VCF viene infine processato con ReporTree per ottenere la matrice di distanza e l'albero MST.

Pagina GitHub di Snippy & Snippy-core: https://github.com/tseemann/snippy

Pagina GitHub di ReporTree: https://github.com/insapathogenomics/ReporTree

Pagina GitHub di IQ-TREE: https://github.com/iqtree/iqtree2

Pagina GitHub di FastTree: https://github.com/morgannprice/fasttree

uml diagram

Lancia Analisi Snippy-core

Una volta selezionata l'analisi Snippy-core nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma dell'analisi scelta.

L'interfaccia per la definizione dei parametri richiede la selezione di un reference, necessario sia per Snippy-core che per l'eventuale mapping con Snippy. Verrà sempre usato un reference in formato genebank (gb).

La sezione dedicata alla selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

I possibili input utilizzabili per l'analisi Snippy-core sono:

La schermata di definizione dei parametri offre, inoltre, un elevato livello di personalizzazione, tra cui:

Parametri di Snippy/Snippy-core:
- Alignment type: permette di scegliere tra le due modalità di allineamento ed estrazione degli SNP di Snippy e Snippy-core ("Core" e "Full");
- Keep intermediate files: al termine dell'esecuzione, l'analisi normalmente elimina i file più grandi che non sono necessari per le analisi a valle. Questa opzione permette di scegliere di non eliminare tali file al termine del processo;
- Remove reference in downstream analyses: i file di output di Snippy-core includono, di norma, anche il reference usato per il mapping. Questa opzione permette di rimuovere il reference dal file core.vcf, azione necessaria per evitare che il reference sia presente come campione nell'albero finale;
- Filter out recombinations with Gubbins: permette di eseguire il software addizionale "Gubbins" per rimuovere, dal file core.vcf, le varianti identificate come ricombinazioni.
Parametri di ReporTree:
Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;
- Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti dei genomi allineati. Questa opzione permette di definire un valore soglia: i siti che presentano una percentuali di "missing data", ovvero una percentuale di N (%N) al di sotto del valore specificato vengono scartati. Solo i siti che passano il filtro vengono conservati ed usati per il calcolo dell'albero;
- Minimum proportion (0 to 1) of ATCG in informative sites of the alignment per sample: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per la percentuale di N nella sequenza del campione. I campioni con %N al di sotto del valore specificato vengono scartati;
- Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso Cluster;
- Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale
- Opzioni Custom parameters for reportree: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC).
Parametri per clustering ML:
- Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I sofware disponibili sono IQ-TREE e FastTree;
- Custom parameters for ML phylogenetic tree calculation: campo di testo in cui immettere opzioni in stile Command Line per il clustering ML;
- [IQ-TREE only] Try to apply CMAPLE tree search algorithm: se viene selezionato IQ-TREE, permette di scegliere se applicare l'algoritmo per il posizionamento nell'albero di CMAPLE, integrato in IQ-TREE.

Dato il numero e la complessità di parametri e risultati dei software Snippy-core e ReporTree, si invita a consultarne le guide ufficiali: - guida ufficiale di Snippy & Snippy-core - guida ufficiale di ReporTree

La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:

Lancia analisi ReporTree

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di ReporTree e selezionare il link MST with SPREAD.

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:

meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File	Descrizione	Posizione
`gt.nwk`	file .nwk dell'albero MST	cartella "result"
`gt_dist_grapetree.tsv`	matrice di distanza per l'albero MST	cartella "result"
`snippycore.full.aln`	file multifasta dell'allineamento dei campioni al reference (Snippy-core). Contiene l'intero allineamento, compresi i siti non variabili	cartella "result"
`snippycore.aln`	file multifasta dell'allineamento dei campioni al reference (Snippy-core). Contiene l'allineamento delle sole regioni variabili	cartella "result"
`clean.full.aln`	file multifasta dell'allineamento dei campioni al reference (Snippy-core). Si tratta del file `snippycore.full.aln` filtrato, ovvero dopo la rimozione delle posizioni di allineamento incerte, con basso coverage o con gap	cartella "result"
`reportree_metadata.tsv`	tabella dei metadati dei campioni prodotta da ReporTree	cartella "result"
`gt_dist.tsv`	distanze pairwise dell'albero MST	cartella "result"
`gt_clusterComposition.tsv`	tabella con elenco dei cluster e loro composizione	cartella "result"
`gt_loci_used.txt`	elenco dei loci usati per il calcolo della matrice di distanza (start position)	cartella "result"
`gt_dist_hamming.tsv`	matrice di distanza	cartella "result"
`gt_partitions.tsv`	tabella con le informazioni dei cluster di appartenenza dei campioni, ad ogni valore di partizionamento dell'albero	cartella "result"
`zooms.txt`	elenco degli zoom richiesti	cartella "result"
`gt_metadata_w_partitions.tsv`	Tabella dei metadati con informazioni sui cluster di appartenenza	cartella "result"
`gt_partitions_summary.tsv`	tabella riepilogativa delle partizioni dell'albero e relativi campioni nei cluster	cartella "result"
`snippycore.tab`	tabella .tsv delle varianti. Colonne: cromosoma, posizione, nucleotide nel reference, nucleotide nel campione 1, nucleotide nel campione 2...	cartella "result"
`snippycore.vcf`	file VCFv4.2 delle varianti. Comprende un header informativo e la tabella con il tipo di variante e una matrice binaria di presenza/assenza della variante nei campioni	cartella "result"

Il file in formato newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.

Piattaforma GenPat, Wiki

Topics

Snippy-core

Introduzione

Lancia Analisi Snippy-core

Cartella dei risultati

On this page

Previous

SNPs-based clustering, VCF2MST

Next

Gene-by-gene based clustering, GrapeTree