Piattaforma GenPat, Wiki

Topics
Topics

VCF2MST

Introduzione

L'analisi VCF2MST esegue VCF2MST e ReporTree per costruire un albero filogenetico di tipo Minimum Spanning Tree (MST), a partire da una matrice di Polimorfismi a Singolo Nucleotide (SNPs) calcolata a partire dai FASTA derivati dal mapping.

La costruzione della matrice di distanza avviene senza ricorrere ad inferenze filogenomiche basate sull'allineamento delle sequenze.

Il programma costruisce la matrice MST basandosi sulle distanze di Hamming, che misurano il numero di sostituzioni necessarie perchè una sequenza (stringa) si trasformi in un'altra.

uml diagram

Lancia analisi VCF2MST

Una volta selezionata l'analisi VCF2MST nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma.

L'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

L'input per VCF2MST è costituito dai file FASTA provenienti dal mapping: step_2AS_mapping.

Nella schermata di selezione input sarà anche presente un campo per il genoma reference (il reference viene inserito automaticamente).

La schermata di definizione dei parametri offre un elevato livello di personalizzazione, tra cui:

  • Parametri di VCF2MST:

    • VCF filtering and normalization: permette di attivare la funzionalità di normalizzazione delle varianti complesse, scomponendole nei singoli SNPs che le compongono;
  • Parametri di ReporTree:

    • Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;
    • Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso cluster;
    • Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale.

Dato il numero e la complessità dei parametri di ReporTree, si invita a consultare la guida ufficiale di ReporTree, per maggiori informazioni sull'utilizzo del software.

La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di GrapeTree e selezionare il link Minimum Spanning Tree with SPREAD.

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:

  • meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
  • result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File Descrizione Posizione
gt.nwk file .nwk dell'albero MST cartella "result"
gt_loci_used.txt elenco dei loci usati per il calcolo della matrice di distanza (start position) cartella "result"
gt_partitions.tsv tabella con le informazioni dei cluster di appartenenza dei campioni, ad ogni valore di partizionamento dell'albero cartella "result"
gt_clusterComposition.tsv Tabella con elenco dei cluster e loro composizione cartella "result"
gt_partitions_summary.tsv tabella riepilogativa delle partizioni dell'albero e relativi campioni nei cluster cartella "result"
zooms.txt elenco degli zoom richiesti cartella "result"
gt_dist_grapetree.tsv matrice di distanza per l'albero MST cartella "result"
gt_dist.tsv distanze pairwise dell'albero MST cartella "result"
gt_dist_hamming.tsv matrice di distanza cartella "result"
gt_metadata_w_partitions.tsv Tabella dei metadati con informazioni sui cluster di appartenenza cartella "result"
reportree_metadata.tsv tabella dei metadati dei campioni prodotta da ReporTree cartella "result"

Il file in formato newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.