Piattaforma GenPat, Wiki

Topics
Topics

ReporTree (cgMLST)

Introduzione

ReporTree costruisce grafici di distanza tra microrganismi a partire dai profili allelici dei campioni forniti. L'albero viene costruito con algoritmo "Minimum Spanning Tree" (MSTree o MST).

Una volta calcolato l'albero, è possibile visualizzarlo direttamente in piattaforma (usando SPREAD) tramite il sistema integrato di visualizzazione dendrogrammi, accessibile dalla scheda dell'analisi completata.

uml diagram

Lancia analisi ReporTree

Una volta selezionata l'analisi ReporTree nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma: non vi è necessità di scegliere il tool, in quanto l'analisi è specifica per l'uso di ReporTree.

L'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

Gli input necessari per ReporTree sono i profili allelici dei campioni:

La schermata di definizione dei parametri offre un elevato livello di personalizzazione, tra cui:

  • Parametri di ReporTree:

    • Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;
    • Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i loci nello schema. Questa opzione permette di definire un valore soglia: solo i loci chiamati in una percentuale del dataset uguale o superiore al valore specificato verranno considerati. I loci che non passano il filtro vengono scartati;
    • Minimum proportion of loci/positions called for SNP/allele matrices: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per il numero di loci chiamati nel profilo allelico del campione. I campioni con numero di loci chiamati inferiore al valore specificato vengono scartati;
    • Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso Cluster;
    • Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale;
    • Custom parameters: campo di testo in cui immettere opzioni in stile Command Line, che verranno passate direttamente a ReporTree.
  • Parametri di VCF2MST:

    • VCF filtering and normalization: permette di attivare la funzionalità di normalizzazione delle varianti complesse, scomponendole nei singoli SNPs che le compongono.

Dato il numero e la complessità dei parametri di ReporTree, si invita a consultare la guida ufficiale di ReporTree, per maggiori informazioni sull'utilizzo del software.

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei file di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di GrapeTree in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di GrapeTree e selezionare il link Minimum Spanning Tree with Grapetree:

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei file dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results è possibile trovare 2 sotto-cartelle:

  • meta: ("metadata") in cui vengono salvati i file di log e di configurazione del processo eseguito.
  • result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File Descrizione Posizione
gt_clusterComposition.tsv Tabella con elenco dei cluster e loro composizione cartella "result"
gt_dist_grapetree.tsv Matrice di distanza cartella "result"
reportree_metadata.tsv Tabella dei metadati dei campioni cartella "result"
gt_metadata_w_partitions.tsv Tabella dei metadati dei campioni + cluster di appartenenza in base alle partizioni cartella "result"
gt.nwk Albero MST in formato newick cartella "result"
gt_dist_hamming.tsv Tabella con le distanze di Hamming cartella "result"
result_alleles_all.tsv Tabella delle chiamate alleliche cartella "result"
gt_dist.tsv Elenco delle distanze pairwise tra campioni cartella "result"
gt_partitions_summary.tsv Elenco delle partizioni dell'albero e relativi campioni nei cluster cartella "result"
gt_loci_report.tsv Report sulle statistiche dei loci usati cartella "result"
gt_partitions.tsv Tabella dei campioni e relativa appartenenza a cluster in base al partizionamento cartella "result"
gt_loci_used.txt Lista dei loci cartella "result"

Il file in formato Newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.