ReporTree (cgMLST)

Introduzione

ReporTree costruisce grafici di distanza tra microrganismi a partire dai profili allelici dei campioni forniti. L'albero viene costruito con algoritmo "Minimum Spanning Tree" (MSTree o MST).

Pagina GitHub di ReporTree: https://github.com/insapathogenomics/ReporTree

Pagina GitHub di IQ-TREE: https://github.com/iqtree/iqtree2

Pagina GitHub di FastTree: https://github.com/morgannprice/fasttree

Una volta calcolato l'albero, è possibile visualizzarlo direttamente in piattaforma (usando SPREAD) tramite il sistema integrato di visualizzazione dendrogrammi, accessibile dalla scheda dell'analisi completata.

uml diagram

Lancia analisi ReporTree

Una volta selezionata l'analisi ReporTree nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma: non vi è necessità di scegliere il tool, in quanto l'analisi è specifica per l'uso di ReporTree.

L'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

Gli input necessari per ReporTree sono i profili allelici dei campioni:

La schermata di definizione dei parametri offre un elevato livello di personalizzazione, tra cui:

Parametri di ReporTree:
- Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;
- Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i loci nello schema. Questa opzione permette di definire un valore soglia: solo i loci chiamati in una percentuale del dataset uguale o superiore al valore specificato verranno considerati. I loci che non passano il filtro vengono scartati;
- Minimum proportion of loci/positions called for SNP/allele matrices: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per il numero di loci chiamati nel profilo allelico del campione. I campioni con numero di loci chiamati inferiore al valore specificato vengono scartati;
- Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso Cluster;
- Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale;
- Custom parameters: campo di testo in cui immettere opzioni in stile Command Line, che verranno passate direttamente a ReporTree.
Parametri di VCF2MST:
- VCF filtering and normalization: permette di attivare la funzionalità di normalizzazione delle varianti complesse, scomponendole nei singoli SNPs che le compongono.

Dato il numero e la complessità dei parametri di ReporTree, si invita a consultare la guida ufficiale di ReporTree, per maggiori informazioni sull'utilizzo del software.

Lancia analisi ReporTree

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei file di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di GrapeTree in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di GrapeTree e selezionare il link Minimum Spanning Tree with Grapetree:

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei file dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results è possibile trovare 2 sotto-cartelle:

meta: ("metadata") in cui vengono salvati i file di log e di configurazione del processo eseguito.
result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File	Descrizione	Posizione
gt_clusterComposition.tsv	Tabella con elenco dei cluster e loro composizione	cartella "result"
gt_dist_grapetree.tsv	Matrice di distanza	cartella "result"
reportree_metadata.tsv	Tabella dei metadati dei campioni	cartella "result"
gt_metadata_w_partitions.tsv	Tabella dei metadati dei campioni + cluster di appartenenza in base alle partizioni	cartella "result"
gt.nwk	Albero MST in formato newick	cartella "result"
gt_dist_hamming.tsv	Tabella con le distanze di Hamming	cartella "result"
result_alleles_all.tsv	Tabella delle chiamate alleliche	cartella "result"
gt_dist.tsv	Elenco delle distanze pairwise tra campioni	cartella "result"
gt_partitions_summary.tsv	Elenco delle partizioni dell'albero e relativi campioni nei cluster	cartella "result"
gt_loci_report.tsv	Report sulle statistiche dei loci usati	cartella "result"
gt_partitions.tsv	Tabella dei campioni e relativa appartenenza a cluster in base al partizionamento	cartella "result"
gt_loci_used.txt	Lista dei loci	cartella "result"

Il file in formato Newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.

Piattaforma GenPat, Wiki

Topics

ReporTree (cgMLST)

Introduzione

Lancia analisi ReporTree

Cartella dei risultati

On this page

Previous

Gene-by-gene based clustering, GrapeTree

Next

Gene-by-gene based clustering, Surveillance L. monocytogenes