Piattaforma GenPat, Wiki

Topics
Topics

Snippy-core

Introduzione

L'analisi Snippy-core effettua l'estrazione dei core SNPs dai file VCF prodotti da Snippy (Rapid haploid variant calling and core genome alignment) e successiva costruzione dell'albero MST con ReporTree.

Se non sono stati forniti come input i risultati di Snippy, l'analisi Snippy-core effettua prima un mapping con il tool Snippy. I fasta del mapping così ottenuti verranno poi dati in input a Snippy-core, che produce il file core.vcf contenente le varianti (SNPs e indels) core del dataset.

Il file VCF viene infine processato con ReporTree per ottenere la matrice di distanza e l'albero MST.

uml diagram

Lancia Analisi Snippy-core

Una volta selezionata l'analisi Snippy-core nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma dell'analisi scelta.

L'interfaccia per la definizione dei parametri richiede la selezione di un reference, necessario sia per Snippy-core che per l'eventuale mapping con Snippy. Verrà sempre usato un reference in formato genebank (gb).

La sezione dedicata alla selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

I possibili input utilizzabili per l'analisi Snippy-core sono:

La schermata di definizione dei parametri offre, inoltre, un elevato livello di personalizzazione, tra cui:

  • Parametri di Snippy/Snippy-core:

    • Alignment type: permette di scegliere tra le due modalità di allineamento ed estrazione degli SNP di Snippy e Snippy-core ("Core" e "Full");
    • Keep intermediate files: al termine dell'esecuzione, l'analisi normalmente elimina i file più grandi che non sono necessari per le analisi a valle. Questa opzione permette di scegliere di non eliminare tali file al termine del processo;
    • Remove reference in downstream analyses: i file di output di Snippy-core includono, di norma, anche il reference usato per il mapping. Questa opzione permette di rimuovere il reference dal file core.vcf, azione necessaria per evitare che il reference sia presente come campione nell'albero finale;
    • Filter out recombinations with Gubbins: permette di eseguire il software addizionale "Gubbins" per rimuovere, dal file core.vcf, le varianti identificate come ricombinazioni.
  • Parametri di ReporTree:

  • Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;

    • Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti dei genomi allineati. Questa opzione permette di definire un valore soglia: i siti che presentano una percentuali di "missing data", ovvero una percentuale di N (%N) al di sotto del valore specificato vengono scartati. Solo i siti che passano il filtro vengono conservati ed usati per il calcolo dell'albero;
    • Minimum proportion (0 to 1) of ATCG in informative sites of the alignment per sample: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per la percentuale di N nella sequenza del campione. I campioni con %N al di sotto del valore specificato vengono scartati;
    • Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso Cluster;
    • Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale
    • Opzioni Custom parameters for reportree: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC).
  • Parametri per clustering ML:

    • Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I sofware disponibili sono IQ-TREE e FastTree;
    • Custom parameters for ML phylogenetic tree calculation: campo di testo in cui immettere opzioni in stile Command Line per il clustering ML;
    • [IQ-TREE only] Try to apply CMAPLE tree search algorithm: se viene selezionato IQ-TREE, permette di scegliere se applicare l'algoritmo per il posizionamento nell'albero di CMAPLE, integrato in IQ-TREE.

Dato il numero e la complessità di parametri e risultati dei software Snippy-core e ReporTree, si invita a consultarne le guide ufficiali: - guida ufficiale di Snippy & Snippy-core - guida ufficiale di ReporTree

La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di ReporTree e selezionare il link MST with SPREAD.

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:

  • meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
  • result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File Descrizione Posizione
gt.nwk file .nwk dell'albero MST cartella "result"
gt_dist_grapetree.tsv matrice di distanza per l'albero MST cartella "result"
snippycore.full.aln file multifasta dell'allineamento dei campioni al reference (Snippy-core). Contiene l'intero allineamento, compresi i siti non variabili cartella "result"
snippycore.aln file multifasta dell'allineamento dei campioni al reference (Snippy-core). Contiene l'allineamento delle sole regioni variabili cartella "result"
clean.full.aln file multifasta dell'allineamento dei campioni al reference (Snippy-core). Si tratta del file snippycore.full.aln filtrato, ovvero dopo la rimozione delle posizioni di allineamento incerte, con basso coverage o con gap cartella "result"
reportree_metadata.tsv tabella dei metadati dei campioni prodotta da ReporTree cartella "result"
gt_dist.tsv distanze pairwise dell'albero MST cartella "result"
gt_clusterComposition.tsv tabella con elenco dei cluster e loro composizione cartella "result"
gt_loci_used.txt elenco dei loci usati per il calcolo della matrice di distanza (start position) cartella "result"
gt_dist_hamming.tsv matrice di distanza cartella "result"
gt_partitions.tsv tabella con le informazioni dei cluster di appartenenza dei campioni, ad ogni valore di partizionamento dell'albero cartella "result"
zooms.txt elenco degli zoom richiesti cartella "result"
gt_metadata_w_partitions.tsv Tabella dei metadati con informazioni sui cluster di appartenenza cartella "result"
gt_partitions_summary.tsv tabella riepilogativa delle partizioni dell'albero e relativi campioni nei cluster cartella "result"
snippycore.tab tabella .tsv delle varianti. Colonne: cromosoma, posizione, nucleotide nel reference, nucleotide nel campione 1, nucleotide nel campione 2... cartella "result"
snippycore.vcf file VCFv4.2 delle varianti. Comprende un header informativo e la tabella con il tipo di variante e una matrice binaria di presenza/assenza della variante nei campioni cartella "result"

Il file in formato newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.