CFSAN
Introduzione
CFSAN effettua un'analisi filogenetica reference-based e costruisce una matrice di Polimorfismi a Singolo Nucleotide (SNPs). La matrice viene poi utilizzata per generare grafici di distanza "Maximum Likelihood" (ML) con IQ-TREE o FastTree e "Minimum Spanning Tree" (MST) e "Hierarchical Clustering" (HC) con ReporTree.
Ulteriori informazioni sul software sono consultabili su:
- Guida ufficiale di CFSAN: https://snp-pipeline.readthedocs.io/en/latest/readme.html
- Pagina GitHub di CFSAN: https://github.com/CFSAN-Biostatistics/snp-pipeline
- Pagina GitHub di ReporTree: https://github.com/insapathogenomics/ReporTree
- Pagina GitHub di IQ-TREE: https://github.com/iqtree/iqtree2
- Pagina GitHub di FastTree: https://github.com/morgannprice/fasttree
Lancia analisi CFSAN
Una volta selezionata l'analisi CFSAN nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma dell'analisi scelta.
Nella schermata di definizione parametri sarà necessario specificare un genoma reference; inoltre l'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.
Per CFSAN, gli input sono sempre reads in formato FASTQ:
La schermata di definizione dei parametri offre inoltre un elevato livello di personalizzazione, tra cui:
-
Parametri di CFSAN:
Pipeline version: permette di scegliere la versione del software (2.0.2 "legacy" o 2.2.1);Keep intermediate files: al termine dell'esecuzione, l'analisi normalmente elimina i file più grandi e non necessari per le analisi a valle. Questa opzione permette di scegliere di non eliminare tali file al termine del processo;Remove abnormal SNPs across all vcf files: i file di output di Snippy-core elencano, di norma, anche il reference usato per il mapping. Questa opzione permette di rimuovere il reference dal filecore.vcf, azione necessaria per evitare che il reference sia presente come campione nell'albero finale.
-
Parametri di ReporTree:
-
Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti genomici in cui siano state chiamate delle varianti. Questa opzione permette di definire un valore soglia: solo i siti per cui vengono chiamate varianti per una percentuale del dataset uguale o superiore al valore specificato verranno considerati. I siti che non passano il filtro vengono scartati;Minimum proportion of loci/positions called for SNP/allele matrices: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per il numero di siti in cui è stato chiamata una variante. Verranno scartati tutti i campioni con un numero di siti senza varianti inferiore al valore specificato;- Opzioni
Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso cluster; - Opzioni
Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale; - Opzioni
Custom parameters: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC).
-
Parametri per clustering ML:
Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I software disponibili sono IQ-TREE v2.3.6, IQ-TREE "legacy" v1.6.12 e FastTree.
Dato il numero e la complessità di parametri e risultati dei software CFSAN e ReporTree, si invita a consultarne le guide ufficiali: - guida ufficiale di CFSAN - guida ufficiale di ReporTree.
La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:
Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.
Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.
Per visualizzare l'albero sarà necessario navigare nella scheda dell'analisi e, nella sezione Dati risultato, selezionare il link: - ML tree (IQ-Tree) with Auspice per l'albero ML; - MST with SPREAD per l'albero MST.

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (
.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.
Cartella dei risultati
Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.
La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:
- meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
- result: in cui sono salvati i file con i risultati prodotti dall'analisi.
La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.
| File | Descrizione | Posizione |
|---|---|---|
metrics.tsv |
tabella .tsv riassuntiva, con valori e statistiche dei campioni e relativi SNPs | cartella "result" |
referenceSNP.fasta |
file FASTA contenente le basi della sequenza reference per tutte le posizioni degli SNPs | cartella "result" |
snp_distance_matrix.tsv |
tabella .tsv con matrice di distanza, calcolata sulle differenze in SNP, per ogni coppia di campioni | cartella "result" |
snp_distance_pairwise.tsv |
tabella .tsv con le pairwise distances in base alle differenze in SNP, per ogni coppia di campioni | cartella "result" |
iqtree.nwk |
file dell'albero in formato .nwk (newick) calcolato con algoritmo ML | cartella "result" |
snpma.vcf |
elenco degli SNPs e delle relative posizioni, per ogni campione, in formato VCFv4.2 | cartella "result" |
iqtree.mldist |
matrice di distanza per l'albero ML | cartella "result" |
auspice_iqtree.json |
file JSON con i metadati e l'albero ML | cartella "result" |
Per ulteriori informazioni in merito a tutti gli output di CFSAN, si invita a consultare l'apposita sezione del manuale ufficiale CFSAN.