Pipeline nf-core/ampliseq
Introduzione
La pipeline nf-core/ampliseq disponibile in GenPat proviene della community nf-core, dedita alla costruzione e condivisione di pipeline bioinformatiche gestite con Nextflow. Essa effettua il sequenziamento ed il denoising degli ampliconi, inoltre può disporre di diversi databases per l'assegnazione tassonomica (tra cui databases per sequenze 16S, ITS, CO1 and 18S). La pipeline supporta reads paired-end Illumina, single-end Illumina, PacBio o IonTorrent.
La versione della pipeline nf-core/ampliseq disponibile in GenPat è la 2.7.1.
Pagina ufficiale della versione 2.7.1 di nf-core/ampliseq sulla community nf-core: https://nf-co.re/ampliseq/2.7.1
Pagina GitHub di nf-core/ampliseq: https://github.com/nf-core/ampliseq
Immagine di proprietà della community nf-core: https://nf-co.re/ampliseq/2.7.1
Le analisi di default di nf-core/ampliseq (in verde nell'immagine sovrastante) sono quelle che vengono eseguite in GenPat. Alcune delle analisi "on demand" possono essere aggiunte sfruttando i parametri addizionali nel lancia analisi, inoltre alcune analisi di default possono essere saltate, sempre sfruttando i parametri addizionali. Si invita a consultare le sezioni "parameters" e "parameters: skipping specific steps" della guida ufficiale di nf-core/ampliseq per sfruttare al meglio i parametri addizionali ed il campo di testo per i parametri shell-like.
Lancia Pipeline nf-core/ampliseq
Nel sistema di lancio analisi, è possibile usare il filtro in alto per visualizzare esclusivamente le pipelines. Una volta selezionata la pipeline nf-core/ampliseq nella pagina dedicata al lancio di analisi, il sistema passerà ad un'interfaccia di conferma.
Le fasi della pipeline sono riassunte nello schema all'inizio della pagina.
Gli input utilizzabili sono le reads paired-end Illumina in formato fastq o le reads single-end da apparecchiature Illumina, IonTorrent o PacBio in formato fasta:
L'interfaccia per la selezione dell'input mette a disposizione la modalità di selezione input avanzata, per permettere l'utilizzo di input processati da metodi diversi, usati a monte nel flusso di analisi.
Parametri addizionali
Di seguito sono elencati i parametri addizionali disponibili nella sezione apposita del sistema di lancio:
FW_primereRV_primer: campi di testo in cui incollare la sequenza dei primers forward e reverse, rispettivamente. Necessario per il trimming dei primers.sample_inference: modalità di inferenza per il calcolo delle ASVs.independent: modalità "risparmio", più leggera e veloce ma con minore sensibilità;pooled: modalità "performance", con maggiore sensibilità ma più pesante da eseguire;pseudo: "pseudo-pooled". Modalità bilanciata;
trunclenf,trunclenretrunc_qmin: la fase di denoising richiede reads della stessa lunghezza. I parametri per il troncamento sono campi di testo in cui specificare manualmente la posizione nucleotidica da usare come valore di cutoff per la read forward (trunclenf) e per la read reverse (trunclenr). Le sequenze più corte vengono troncate e le quelle più corte vengono scartate.trunc_qminpermette di specificare un valore minimo di qualità della chiamata del nucleotide: setrunclenfetrunclenrnon vengono specificati, i valori di cutoff vengono determinati automaticamente, troncando quando il valore mediano del quality score scende sotto la soglia specificata.dada_ref_db: selezione del database usato da dada2 per l'assegnazione tassonomica (in GenPat sono attualmente disponibili il database di rRNA 12S "mito-all" e di rRNA 16S "silva").Reads: selezione della tipologia di reads (paired-end/single-end).Custom metadata (from IZSBOX): permette di indicare un file di metadati presente nel proprio IZSbox (incollare il percorso del file).Custom parameters: gli altri parametri di nf-core/ampliseq sono disponibili come modificatori da scrivere nel campo di testo come comandi da terminale. La guida ufficiale contiene tutte le informazioni necessarie.
Si invita a consultare le descrizioni dei parametri direttamente nella guida ufficiale nf-core/ampliseq: https://nf-co.re/ampliseq/2.7.1/parameters.

Una volta lanciata la pipeline, la pagina genererà un link alla sezione Controllo analisi, per permettere di visualizzare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo la pipeline, sia al termine dell'esecuzione.
Risultati
La scheda riassuntiva della pipeline completata con successo permette di accedere alla cartella di output, in modo da recuperare i files tabulari e le immagini dei grafici, ma mette a disposizione anche links diretti per la visualizzazione delle immagini e dei report.
La cartella di output può essere esplorata cliccando sul link prodotto dalla pagina di download o sul link presente all'interno della scheda dell'analisi. La cartella principale contiene le directories data e results. Nella cartella data è possibile trovare i files delle reads usate. All'interno della directory results sono invece presenti i risultati, organizzati in sotto-cartelle corrispondenti ai softwares lanciati dalla pipeline.
La tabella in basso presenta la lista delle principali cartelle ed il loro contenuto, insieme ad alcune informazioni utili.
| Cartella | Contenuto |
|---|---|
results/ |
sotto-cartelle dei softwares e tabella riassuntiva (overall_summary.tsv) |
results/cutadapt |
logs di cutadapt (DSXXXXXXXX.trimmed.cutadapt.log) e tabella riassuntiva (cutadapt_summary.tsv) |
results/dada2 |
tabelle tsv delle statistiche di dada2, degli ASVs trovati e fasta delle sequenze degli ASVs (ASV_seqs.fasta) |
results/dada2/QC |
grafici del quality check in formato pdf |
results/input |
file dei metadati (metadata.tsv) |
results/multiqc |
report di multiQC in formato html, cartelle dei dati di output e dei grafici di multiQC |
results/qiime |
cartelle dei dati prodotti da qiime: abundance_tables, alpha-rarefaction, barplot, diversity, phylogenetic_tree, rel_abundance_tables, representative_sequences |
results/summary_report |
grafici in formato immagine svg e report in formato html |