ReporTree (cgMLST)
Introduzione
ReporTree costruisce grafici di distanza tra microrganismi a partire dai profili allelici dei campioni forniti. L'albero viene costruito con algoritmo "Minimum Spanning Tree" (MSTree o MST).
- Pagina GitHub di ReporTree: https://github.com/insapathogenomics/ReporTree
- Pagina GitHub di IQ-TREE: https://github.com/iqtree/iqtree2
- Pagina GitHub di FastTree: https://github.com/morgannprice/fasttree
Una volta calcolato l'albero, è possibile visualizzarlo direttamente in piattaforma (usando SPREAD) tramite il sistema integrato di visualizzazione dendrogrammi, accessibile dalla scheda dell'analisi completata.
Lancia analisi ReporTree
Una volta selezionata l'analisi ReporTree nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma: non vi è necessità di scegliere il tool, in quanto l'analisi è specifica per l'uso di ReporTree.
L'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.
Gli input necessari per ReporTree sono i profili allelici dei campioni:
La schermata di definizione dei parametri offre un elevato livello di personalizzazione, tra cui:
-
Parametri di ReporTree:
Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i loci nello schema. Questa opzione permette di definire un valore soglia: solo i loci chiamati in una percentuale del dataset uguale o superiore al valore specificato verranno considerati. I loci che non passano il filtro vengono scartati;Minimum proportion of loci/positions called for SNP/allele matrices: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per il numero di loci chiamati nel profilo allelico del campione. I campioni con numero di loci chiamati inferiore al valore specificato vengono scartati;- Opzioni
Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso Cluster; - Opzioni
Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale; Custom parameters: campo di testo in cui immettere opzioni in stile Command Line, che verranno passate direttamente a ReporTree.
-
Parametri di VCF2MST:
VCF filtering and normalization: permette di attivare la funzionalità di normalizzazione delle varianti complesse, scomponendole nei singoli SNPs che le compongono.
Dato il numero e la complessità dei parametri di ReporTree, si invita a consultare la guida ufficiale di ReporTree, per maggiori informazioni sull'utilizzo del software.
Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.
Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei file di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di GrapeTree in piattaforma.
Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di GrapeTree e selezionare il link Minimum Spanning Tree with Grapetree:

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (
.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.
Cartella dei risultati
Per consultare la guida sul download dei file dalla piattaforma si faccia riferimento all'apposita pagina.
La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results è possibile trovare 2 sotto-cartelle:
- meta: ("metadata") in cui vengono salvati i file di log e di configurazione del processo eseguito.
- result: in cui sono salvati i file con i risultati prodotti dall'analisi.
La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.
| File | Descrizione | Posizione |
|---|---|---|
| gt_clusterComposition.tsv | Tabella con elenco dei cluster e loro composizione | cartella "result" |
| gt_dist_grapetree.tsv | Matrice di distanza | cartella "result" |
| reportree_metadata.tsv | Tabella dei metadati dei campioni | cartella "result" |
| gt_metadata_w_partitions.tsv | Tabella dei metadati dei campioni + cluster di appartenenza in base alle partizioni | cartella "result" |
| gt.nwk | Albero MST in formato newick | cartella "result" |
| gt_dist_hamming.tsv | Tabella con le distanze di Hamming | cartella "result" |
| result_alleles_all.tsv | Tabella delle chiamate alleliche | cartella "result" |
| gt_dist.tsv | Elenco delle distanze pairwise tra campioni | cartella "result" |
| gt_partitions_summary.tsv | Elenco delle partizioni dell'albero e relativi campioni nei cluster | cartella "result" |
| gt_loci_report.tsv | Report sulle statistiche dei loci usati | cartella "result" |
| gt_partitions.tsv | Tabella dei campioni e relativa appartenenza a cluster in base al partizionamento | cartella "result" |
| gt_loci_used.txt | Lista dei loci | cartella "result" |
Il file in formato Newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.