Piattaforma GenPat, Wiki

Topics
Topics

kSNP

Introduzione

kSNP identifica i Polimorfismi a Singolo Nucleotide (SNPs) nei campioni, esegue un'analisi filogenetica senza allineamento (reference-free) e costruisce un albero filogenetico con algoritmo Maximum Likelihood (ML), a partire dalla matrice di SNPs dei campioni. L'analisi lancia inoltre ReporTree per il calcolo dell'albero "Minimum Spanning Tree" (MST).

uml diagram

Lancia analisi kSNP

Una volta selezionata l'analisi kSNP nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma dell'analisi scelta.

L'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.

Gli input utilizzabili per kSNP sono:

La schermata di definizione dei parametri offre inoltre un elevato livello di personalizzazione, tra cui:

  • Parametri di kSNP:

    • Analysis type: permette di scegliere se effettuare l'analisi filogenetica utilizzando tutti gli SNPs (modalità "All") o solo i Core SNPs (modalità "Core");
    • Kmer length: permette di cambiare manualmente la lunghezza dei kmer;
    • kSNP version: permette di scegliere la versione del software tra kSNP3 ("legacy") e kSNP4 (v4.1);
  • Parametri di ReporTree:

  • Partition threshold for clustering definition: permette di personalizzare i valori soglia per la creazione delle partizioni dell'albero;

    • Minimum proportion of samples per site without missing data: ReporTree normalmente considera, per il calcolo della matrice di distanza e dell'albero, tutti i siti genomici in cui siano state chiamate delle varianti. Questa opzione permette di definire un valore soglia: solo i siti per cui vengono chiamate varianti in una percentuale del dataset uguale o superiore al valore specificato verranno considerati. I siti che non passano il filtro vengono scartati;
    • Minimum proportion of loci/positions called for SNP/allele matrices: ReporTree normalmente utilizza tutti i campioni forniti per il calcolo della matrice di distanza e dell'albero. Questa opzione consente di definire un valore soglia per il numero di siti in cui è stato chiamata una variante. Verranno scartati tutti i campioni con un numero di siti senza varianti inferiore al valore specificato;
    • Opzioni Sample of interest: consentono di specificare uno o più campioni di interesse su cui ReporTree ricalcola uno "Zoom", ovvero un albero contenente solo il campione d'interesse e i campioni appartenenti allo stesso cluster;
    • Opzioni Method used in HC clustering to create a dendrogram: selezione della modalità per lo Hierarchical Clustering opzionale;
    • Opzioni Custom parameters: campi di testo in cui immettere opzioni in stile Command Line, da passare a ReporTree esclusivamente per il calcolo degli alberi specificati nell'opzione (MST prodotto con Grapetree o HC);
  • Parametri per clustering ML:

    • Maximum likelood phylogenetic tree calculation: permette di scegliere il software da utilizzare per il clustering opzionale con algoritmo ML. I sofware disponibili sono IQ-TREE 2 e FastTree.

Dato il numero e la complessità di parametri e risultati dei software Snippy-core e ReporTree, si invita a consultarne le guide ufficiali: - guida ufficiale di kSNP - guida ufficiale di ReporTree

La procedura per il lancio dell'analisi è analoga ad altre analisi che comprendono l'esecuzione di ReporTree:

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di verificare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Nella scheda dell'analisi completata saranno presenti alcune opzioni, oltre alla possibilità di esplorare la cartella di output, come l'accesso diretto ad alcuni dei files di log e metadati, l'apertura del file .nwk e la visualizzazione diretta dell'albero MSTree tramite l'integrazione di SPREAD in piattaforma.

Per visualizzare l'albero sarà necessario navigare nella scheda del risultato e selezionare il link: - ML tree (IQ-Tree) with Auspice per l'albero ML; - MST with SPREAD per l'albero MST; - HC with Auspice per il grafico HC.

Nota: I risultati delle analisi multi-campione non possono essere importati. Si invita a sfruttare l'apposita funzionalità per la conservazione delle analisi non importabili o, in alternativa, l'opzione per il download diretto del file newick (.nwk) e del file dei metadati, in modo da poter conservare i file e visualizzare l'albero in qualunque momento, sia all'interno della piattaforma che con un software esterno.

Cartella dei risultati

Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:

  • meta: ("metadati") in cui vengono salvati i file di log e di configurazione del processo eseguito.
  • result: in cui sono salvati i file con i risultati prodotti dall'analisi.

Si tenga presente che, in base al parametro usato per Analysis type, il nome dei file di output sarà diverso:

  • SNPs_all_matrix (se è stato selezionato "All" per Analysis type);
  • core_SNPs_matrix (se è stato selezionato "Core" per Analysis type).

Nella tabella sottostante sono riportati i nomi nel caso di esecuzione sugli SNPs "Core".

File Descrizione Posizione
core_SNPs_matrix.fasta file multifasta contenente gli headers con il nome del campione e la riga per la sequenza di SNPs concatenati. "N" indica l'assenza di uno SNP in quel campione cartella "results"
gt.nwk file dell'albero in formato nwk (newick) calcolato con algoritmo MST cartella "results"
gt_clusterComposition.tsv tabella con elenco dei cluster e loro composizione cartella "result"
gt_metadata_w_partitions.tsv tabella dei metadati dei campioni con cluster di appartenenza in base alle partizioni cartella "result"
gt_dist_hamming.tsv tabella con le distanze di Hamming cartella "result"
gt_partitions_summary.tsv elenco delle partizioni dell'albero e relativi campioni nei cluster cartella "result"
gt_partitions.tsv tabella dei campioni e relativa appartenenza a cluster in base al partizionamento cartella "result"
gt_loci_used.txt lista dei loci cartella "result"

Per ulteriori informazioni riguardo la formattazione degli output di kSNP, si invita a consultare l'apposita sezione della guida utente kSNP.