Piattaforma GenPat, Wiki

Topics
Topics

WGSBAC Pipeline - IAEA (Brucella)

Introduzione

La pipeline Wgsbac effettua la genotipizzazione e la caratterizzazione di isolati batterici utilizzando, come input, i file fastq.gz provenienti dal sequenziamento del genoma completo (whole-genome-sequencing, WGS). Nella piattaforma, sono implementati i workflow per campioni di Brucella. Per un elenco completo delle analisi disponibili nel workflow, è possibile consultare la pagina GitLab di WGSBAC.

uml diagram

Lanciare la pipeline Wgsbac - IAEA

Altri microorganismi, che possono essere analizzati con la pipeline originale, non sono supportati dall'installazione nella presente piattaforma.

La pipeline WGSBAC esegue una gamma di tool bioinformatici suddivisibili in:

  1. controllo qualità (QC) delle read e trimming;
  2. ricostruzione della sequenza;
  3. QC dell'assemblaggio e controllo di contaminazione;
  4. annotazione del genoma;
  5. tipizzazione;
  6. clustering gerarchico.

Una lista dettagliata di tutti i software eseguibili dalla pipeline è presente nella pagina ufficiale GitLab di WGSBAC.

Dopo aver selezionato la versione WGSBAC per il microorganismo di interesse, un'interfaccia di conferma permetterà di proseguire con la selezione dei parametri dell'analisi.

Gli input necessari sono reads fastq compresse (.fastq.gz), che possono essere fornite come:

  • step_0SQ_rawreads
  • step_1PP_trimming

Si noti che l'opzione step_1PP_trimming, come input, viene mantenuta solo per comodità dell'utente poiché la pipeline WGSBAC effettua, di default, il trimming con fastp.

Per poter eseguire alcune delle analisi della pipeline, inoltre, è necessario specificare un genoma reference per il microorganismo selezionato.

Nota importante: si ricordi che la pipeline WGSBAC può essere utilizzata solo su read Illumina paired end. Non sono attualmente supportate altre tecnologie di sequenziamento.

Una volta lanciata la pipeline, la pagina genererà un link alla sezione Controllo analisi, per permettere di visualizzare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo la pipeline, sia al termine dell'esecuzione.

Cartella dei risultati

I file dei risultati della pipeline WGSBAC includono gli outputs di ogni singola analisi. In basso, sono elencate le cartelle dei risultati di ciascuna analisi. Per una lista completa si rimanda alla pagina GitLab ufficiale WGSBAC: (https://gitlab.com/FLI_Bioinfo/WGSBAC).

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare i risultati delle singole analisi.

  • Per l'esecuzione su campioni di Brucella:
Analisi - Tool/DB Cartella
controllo di contaminazione - confindr wgsbac_results > confindr
calcolo del coverage wgsbac_results > coverage
trimming e QC - fastp wgsbac_results > fastp
file fastq decompressi wgsbac_results > fastq
QC delle raw reads - fastqc wgsbac_results > fastqc
fasta del reference wgsbac_results > finalAssembly
file fastq.gz di input wgsbac_results > input
controllo di contaminazione - kraken2 wgsbac_results > kraken
Multi Lucus Sequence Typing - mlst wgsbac_results > mlst
QC - multiQC wgsbac_results > multiqc
QC - fastQC wgsbac_results > multiqc_fastqc
identificazione dei plasmidi - plasmidfinder/platon wgsbac_results > plasmids
QC dell'assemblaggio - Quast wgsbac_results > quast
assemblaggio de novo - Shovill wgsbac_results > rawassembly_res
chiamata delle varianti - Snippy wgsbac_results > snippy
identificazione della specie - Sourmash wgsbac_results > sourmash