Piattaforma GenPat, Wiki

Topics
Topics

WGSBAC Pipeline - IAEA

Introduzione

La pipeline WGSBAC effettua genotipizzazione e caratterizzazione degli isolati batterici, utilizzando come input i files fastq.gz da whole-genome-sequencing (WGS). Nella piattaforma sono implementati i workflows per Salmonella e Brucella. La pagina GitLab di WGSBAC permette di consultare una lista completa delle analisi disponibili per la pipeline.

uml diagram

Lanciare la pipeline

La Pipeline IAEA WGSBAC è disponibile nella sezione Lancia Analisi della piattaforma come 2 pulsanti distinti: ono per Brucella ed uno per Salmonella.

Altri microorganismi che possono essere analizzati con la pipeline originale non sono supportati dall'installazione nella presente piattaforma.

La pipeline WGSBAC esegue una suite di tools bioinformatici suddivisibili in:

  1. Quality Check (QC) delle reads e trimming
  2. Ricostruzione della sequenza
  3. QC dell'assemblaggio e controllo di contaminazione
  4. Annotazione funzionale del genoma
  5. Tipizzazione
  6. Hierarchical clustering

Una lista dettagliata di tutti i softwares eseguibili dalla pipeline è presente nella pagina GitLab ufficiale di WGSBAC.

Dopo la selezione della versione della Pipeline WGSBAC per il microorganismo desiderato, sarà encessario scegliere i parametri dell'analisi.

Gli input necessari sono reads fastq compresse (.fastq.gz), che possono essere fornite come:

  • step_0SQ_rawreads
  • step_1PP_trimming

Si noti che l'opzione step_1PP_trimming come input viene mantenuta solo per comodità dell'utente, infatti la pipeline WGSBAC effettua di default il trimming con fastp.

Per poter eseguire alcune delle analisi della pipeline, è anche necessario specificare un genoma reference per il microorganismo selezionato.

Nota importante: si ricordi che la pipeline WGSBAC può essere utilizzata solo su reads Illumina paired end. Non sono attualmente supportate altre tecnologie di sequenziamento.

Dopo aver confermato il lancio dell'analisi, la pagina genererà un link alla sezione Controlla Analisi, dove è possibile visualizzare lo stato di esecuzione dell'analisi. Il sistema manderà delle notifiche una volta terminata l'esecuzione.

Outputs

I files di output della pipeline WGSBAC includono gli outputs di tutte le analisi singole lanciate nel workflow. In basso sono elencate le cartelle dei risultati. Per una lista completa si rimanda alla pagina GitLab ufficiale WGSBAC: (https://gitlab.com/FLI_Bioinfo/WGSBAC).

Le cartelle dei risultati sono in work > 0 > XX > XXXXXXX (dove XX e XXXXXXX rappresentano dei nomi variabili per le cartelle: sono presenti 2 cartelle XX, una delle quali comprende i files di input, mentre la seconda la cartella wgsbac_results).

  • Per l'esecuzione su campioni di Brucella:
Analysis - Tool/DB Results Directory
contamination check - confindr wgsbac_results > confindr
coverage calculation wgsbac_results > coverage
trimming and QC - fastp wgsbac_results > fastp
decompressed fastq files wgsbac_results > fastq
raw reads quality check - fastqc wgsbac_results > fastqc
reference fasta wgsbac_results > finalAssembly
input fastq.gz files wgsbac_results > input
contamination check - kraken2 wgsbac_results > kraken
Multi Lucus Sequence Typing - mlst wgsbac_results > mlst
QC - multiQC wgsbac_results > multiqc
QC - fastQC wgsbac_results > multiqc_fastqc
plasmid identification - plasmidfinder/platon wgsbac_results > plasmids
assembly QC - Quast wgsbac_results > quast
de novo assembly - Shovill wgsbac_results > rawassembly_res
variant calling - Snippy wgsbac_results > snippy
species identification - Sourmash wgsbac_results > sourmash
  • Per l'esecuzione su campioni di Salmonella:
Analysis - Tool/DB Results Directory
contamination check - confindr wgsbac_results > confindr
coverage calculation wgsbac_results > coverage
trimming and QC - fastp wgsbac_results > fastp
decompressed fastq files wgsbac_results > fastq
raw reads quality check - fastqc wgsbac_results > fastqc
reference fasta wgsbac_results > finalAssembly
input fastq.gz files wgsbac_results > input
contamination check - kraken2 wgsbac_results > kraken
Multi Lucus Sequence Typing - mlst wgsbac_results > mlst
QC - multiQC wgsbac_results > multiqc
QC - fastQC wgsbac_results > multiqc_fastqc
plasmid identification - plasmidfinder/platon wgsbac_results > plasmids
assembly QC - Quast wgsbac_results > quast
de novo assembly - Shovill wgsbac_results > rawassembly_res
variant calling - Snippy wgsbac_results > snippy
species identification - Sourmash wgsbac_results > sourmash
virulence genes identification - SPI wgsbac_results > virulence
Salmonella serotype prediction - seqSero seqSero
Salmonella serovar prediction - sistr sistr