CFSAN

Introduzione

CFSAN effettua un'analisi filogenetica reference-based e costruisce una matrice di Polimorfismi a Singolo Nucleotide (SNPs). La matrice viene poi utilizzata per generare grafici di distanza "Maximum Likelihood" (ML) con IQ-TREE o FastTree e "Minimum Spanning Tree" (MST) e "Hierarchical Clustering" (HC) con ReporTree.

Ulteriori informazioni sul software sono consultabili su:

Guida ufficiale di CFSAN: https://snp-pipeline.readthedocs.io/en/latest/readme.html

Pagina GitHub di CFSAN: https://github.com/CFSAN-Biostatistics/snp-pipeline

Pagina GitHub di ReporTree: https://github.com/insapathogenomics/ReporTree

Pagina GitHub di IQ-TREE: https://github.com/iqtree/iqtree2

Pagina GitHub di FastTree: https://github.com/morgannprice/fasttree

uml diagram

Lancia analisi CFSAN

Una volta selezionata l'analisi CFSAN nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma dell'analisi scelta.

Nella schermata di definizione parametri sarà necessario specificare un genoma reference; inoltre l'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

Per CFSAN, gli input sono sempre reads in formato FASTQ:

La schermata di definizione dei parametri offre inoltre un elevato livello di personalizzazione, tra cui:

Parametri di CFSAN:
- Pipeline version: permette di scegliere la versione del software (2.0.2 "legacy" o 2.2.1);
- Keep intermediate files: al termine dell'esecuzione, l'analisi normalmente elimina i file più grandi e non necessari per le analisi a valle. Questa opzione permette di scegliere di non eliminare tali file al termine del processo;
- Remove abnormal SNPs across all vcf files: i file di output di Snippy-core elencano, di norma, anche il reference usato per il mapping. Questa opzione permette di rimuovere il reference dal file core.vcf, azione necessaria per evitare che il reference sia presente come campione nell'albero finale.
Parametri di ReporTree:
Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;
- Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti genomici in cui siano state chiamate delle varianti. Questa opzione permette di definire un valore soglia: solo i siti per cui vengono chiamate varianti per una percentuale del dataset uguale o superiore al valore specificato verranno considerati. I siti che non passano il filtro vengono scartati;
- Minimum proportion of loci/positions called for SNP/allele matrices: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per il numero di siti in cui è stato chiamata una variante. Verranno scartati tutti i campioni con un numero di siti senza varianti inferiore al valore specificato;
- Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso cluster;
- Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale;
- Opzioni Custom parameters: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC).
Parametri per clustering ML:
- Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I software disponibili sono IQ-TREE v2.3.6, IQ-TREE "legacy" v1.6.12 e FastTree.

Dato il numero e la complessità di parametri e risultati dei software CFSAN e ReporTree, si invita a consultarne le guide ufficiali: - guida ufficiale di CFSAN - guida ufficiale di ReporTree.

La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:

Lancia analisi ReporTree

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda dell'analisi e, nella sezione Dati risultato, selezionare il link: - ML tree (IQ-Tree) with Auspice per l'albero ML; - MST with SPREAD per l'albero MST.

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:

meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File	Descrizione	Posizione
`metrics.tsv`	tabella .tsv riassuntiva, con valori e statistiche dei campioni e relativi SNPs	cartella "result"
`referenceSNP.fasta`	file FASTA contenente le basi della sequenza reference per tutte le posizioni degli SNPs	cartella "result"
`snp_distance_matrix.tsv`	tabella .tsv con matrice di distanza, calcolata sulle differenze in SNP, per ogni coppia di campioni	cartella "result"
`snp_distance_pairwise.tsv`	tabella .tsv con le pairwise distances in base alle differenze in SNP, per ogni coppia di campioni	cartella "result"
`iqtree.nwk`	file dell'albero in formato .nwk (newick) calcolato con algoritmo ML	cartella "result"
`snpma.vcf`	elenco degli SNPs e delle relative posizioni, per ogni campione, in formato VCFv4.2	cartella "result"
`iqtree.mldist`	matrice di distanza per l'albero ML	cartella "result"
`auspice_iqtree.json`	file JSON con i metadati e l'albero ML	cartella "result"

Per ulteriori informazioni in merito a tutti gli output di CFSAN, si invita a consultare l'apposita sezione del manuale ufficiale CFSAN.

Piattaforma GenPat, Wiki

Topics

CFSAN

Introduzione

Lancia analisi CFSAN

Cartella dei risultati

On this page

Previous

4 in silico typing, 4TY_serotype

Next

SNPs-based clustering, kSNP