Piattaforma GenPat, Wiki

Topics
Topics

MAFFT

Introduzione

L'analisi MAFFT esegue il multiallineamento di sequenze; l'analisi è seguita dal lancio di ReporTree come analisi di clustering.

MAFFT produce il file FASTA del multiallineamento utilizzato come input di ReporTree. Quest'ultimo invece produce la matrice di distanza e l'albero "Minimum Spanning Tree" (MSTree o MST). Opzionalmente; l'analisi può anche calcolare il grafico del "clustering gerarchico" (Hierarchical Clustering, HC).

Una volta calcolato l'albero MST, è possibile visualizzarlo direttamente in piattaforma usando il sistema integrato di visualizzazione degli alberi (SPREAD), accessibile dalla scheda dell'analisi completata.

uml diagram

Lancia l'analisi MAFFT

Una volta selezionata l'analisi MAFFT nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma, mettendo anche a disposizone la modalità di selezione input avanzata. Tale funzionalità permette l'utilizzo di input prodotti da software diversi, a monte del flusso di analisi.

L'analisi produce il file di multiallineamento successivamente utilizzato da ReporTree. I file di input per la costruzione del multifasta sono quindi i singoli file FASTA dei campioni, i quali possono essere forniti come:

La schermata di definizione dei parametri offre un elevato livello di personalizzazione, tra cui:

  • Parametri di MAFFT:
    • Custom parameters for MAFFT: campo di testo per le opzioni in stile Command Line, in cui specificare i modificatori da passare a MAFFT;
  • Parametri di ReporTree:

    • Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;
    • Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti dei genomi allineati. Questa opzione permette di definire un valore soglia: i siti che presentano una percentuali di "missing data", ovvero una percentuale di N (%N) al di sotto del valore specificato, vengono scartati. Solo i siti che passano il filtro vengono conservati ed usati per il calcolo dell'albero;
    • Minimum proportion (0 to 1) of ATCG in informative sites of the alignment per sample: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per la percentuale di N nella sequenza del campione. I campioni con %N al di sotto del valore specificato vengono scartati;
    • Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione (o i campioni) d'interesse e i campioni appartenenti allo stesso cluster;
    • Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità opzionale per lo Hierarchical Clustering;
    • Opzioni Custom parameters for reportree: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC);
  • Parametri per clustering ML:

    • Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I sofware disponibili sono IQ-TREE e FastTree;
    • Custom parameters for ML phylogenetic tree calculation: campo di testo in cui immettere opzioni in stile Command Line per il clustering ML;
    • [IQ-TREE only] Try to apply CMAPLE tree search algorithm: se viene selezionato IQ-TREE, permette di scegliere se applicare l'algoritmo per il posizionamento nell'albero di CMAPLE, integrato in IQ-TREE.

Dato il numero e la complessità dei parametri di ReporTree, si invita a consultare la guida ufficiale di ReporTree per maggiori informazioni sull'utilizzo del software.

La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella dei risultati, come l'accesso diretto ad alcuni dei file di log e metadati, l'apertura del file nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato di GrapeTree e selezionare il link Minimum Spanning Tree with SPREAD:

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei file dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results è possibile trovare 2 sotto-cartelle:

  • meta: ("metadata") in cui vengono salvati i file di log e di configurazione del processo eseguito.
  • result: in cui sono salvati i file con i risultati prodotti dall'analisi.

La tabella in basso presenta la lista dei principali file di interesse presenti nelle cartelle, insieme ad alcune informazioni utili.

File Descrizione Posizione
gt.nwk file .nwk dell'albero MST cartella "result"
gt_dist_grapetree.tsv matrice di distanza per l'albero MST cartella "result"
alignment.fasta multifasta dell'allineamento dei campioni cartella "result"
reportree_metadata.tsv tabella dei metadati dei campioni prodotta da ReporTree cartella "result"
gt_dist.tsv distanze pairwise dell'albero MST cartella "result"
gt_clusterComposition.tsv Tabella con elenco dei cluster e loro composizione cartella "result"
gt_loci_used.txt elenco dei loci usati per il calcolo della matrice di distanza (start position) cartella "result"
multifasta.fasta multifasta delle sequenze non ancora allineate dei campioni cartella "result"
gt_dist_hamming.tsv matrice di distanza cartella "result"
gt_partitions.tsv tabella con le informazioni dei cluster di appartenenza dei campioni, ad ogni valore di partizionamento dell'albero cartella "result"
zooms.txt elenco degli zoom richiesti cartella "result"
gt_metadata_w_partitions.tsv Tabella dei metadati con informazioni sui cluster di appartenenza cartella "result"
gt_partitions_summary.tsv tabella riepilogativa delle partizioni dell'albero e relativi campioni nei cluster cartella "result"

Il file in formato newick (.nwk) contiene tutti i dati dell'albero e può essere visualizzato tramite SPREAD o un altro software esterno per la visualizzazione di dendrogrammi o grafici di distanza.