WGSBAC Pipeline - IAEA
Introduzione
La pipeline WGSBAC effettua genotipizzazione e caratterizzazione degli isolati batterici, utilizzando come input i files fastq.gz da whole-genome-sequencing (WGS). Nella piattaforma sono implementati i workflows per Salmonella e Brucella. La pagina GitLab di WGSBAC permette di consultare una lista completa delle analisi disponibili per la pipeline.
- Official WGSBAC page: https://gitlab.com/FLI_Bioinfo/WGSBAC
- Authors: Jörg Linde (@joerg.linde) and Mostafa Abdel-Glil (@Mostafa.Abdel-Glil)
Lanciare la pipeline
La Pipeline IAEA WGSBAC è disponibile nella sezione Lancia Analisi della piattaforma come 2 pulsanti distinti: ono per Brucella ed uno per Salmonella.
Altri microorganismi che possono essere analizzati con la pipeline originale non sono supportati dall'installazione nella presente piattaforma.
La pipeline WGSBAC esegue una suite di tools bioinformatici suddivisibili in:
- Quality Check (QC) delle reads e trimming
- Ricostruzione della sequenza
- QC dell'assemblaggio e controllo di contaminazione
- Annotazione funzionale del genoma
- Tipizzazione
- Hierarchical clustering
Una lista dettagliata di tutti i softwares eseguibili dalla pipeline è presente nella pagina GitLab ufficiale di WGSBAC.
Dopo la selezione della versione della Pipeline WGSBAC per il microorganismo desiderato, sarà encessario scegliere i parametri dell'analisi.
Gli input necessari sono reads fastq compresse (.fastq.gz), che possono essere fornite come:
- step_0SQ_rawreads
- step_1PP_trimming
Si noti che l'opzione step_1PP_trimming come input viene mantenuta solo per comodità dell'utente, infatti la pipeline WGSBAC effettua di default il trimming con fastp.
Per poter eseguire alcune delle analisi della pipeline, è anche necessario specificare un genoma reference per il microorganismo selezionato.
Nota importante: si ricordi che la pipeline WGSBAC può essere utilizzata solo su reads Illumina paired end. Non sono attualmente supportate altre tecnologie di sequenziamento.

Dopo aver confermato il lancio dell'analisi, la pagina genererà un link alla sezione Controlla Analisi, dove è possibile visualizzare lo stato di esecuzione dell'analisi. Il sistema manderà delle notifiche una volta terminata l'esecuzione.
Outputs
I files di output della pipeline WGSBAC includono gli outputs di tutte le analisi singole lanciate nel workflow. In basso sono elencate le cartelle dei risultati. Per una lista completa si rimanda alla pagina GitLab ufficiale WGSBAC: (https://gitlab.com/FLI_Bioinfo/WGSBAC).
Le cartelle dei risultati sono in
work > 0 > XX > XXXXXXX(dove XX e XXXXXXX rappresentano dei nomi variabili per le cartelle: sono presenti 2 cartelle XX, una delle quali comprende i files di input, mentre la seconda la cartellawgsbac_results).
- Per l'esecuzione su campioni di Brucella:
| Analysis - Tool/DB | Results Directory |
|---|---|
| contamination check - confindr | wgsbac_results > confindr |
| coverage calculation | wgsbac_results > coverage |
| trimming and QC - fastp | wgsbac_results > fastp |
| decompressed fastq files | wgsbac_results > fastq |
| raw reads quality check - fastqc | wgsbac_results > fastqc |
| reference fasta | wgsbac_results > finalAssembly |
| input fastq.gz files | wgsbac_results > input |
| contamination check - kraken2 | wgsbac_results > kraken |
| Multi Lucus Sequence Typing - mlst | wgsbac_results > mlst |
| QC - multiQC | wgsbac_results > multiqc |
| QC - fastQC | wgsbac_results > multiqc_fastqc |
| plasmid identification - plasmidfinder/platon | wgsbac_results > plasmids |
| assembly QC - Quast | wgsbac_results > quast |
| de novo assembly - Shovill | wgsbac_results > rawassembly_res |
| variant calling - Snippy | wgsbac_results > snippy |
| species identification - Sourmash | wgsbac_results > sourmash |
- Per l'esecuzione su campioni di Salmonella:
| Analysis - Tool/DB | Results Directory |
|---|---|
| contamination check - confindr | wgsbac_results > confindr |
| coverage calculation | wgsbac_results > coverage |
| trimming and QC - fastp | wgsbac_results > fastp |
| decompressed fastq files | wgsbac_results > fastq |
| raw reads quality check - fastqc | wgsbac_results > fastqc |
| reference fasta | wgsbac_results > finalAssembly |
| input fastq.gz files | wgsbac_results > input |
| contamination check - kraken2 | wgsbac_results > kraken |
| Multi Lucus Sequence Typing - mlst | wgsbac_results > mlst |
| QC - multiQC | wgsbac_results > multiqc |
| QC - fastQC | wgsbac_results > multiqc_fastqc |
| plasmid identification - plasmidfinder/platon | wgsbac_results > plasmids |
| assembly QC - Quast | wgsbac_results > quast |
| de novo assembly - Shovill | wgsbac_results > rawassembly_res |
| variant calling - Snippy | wgsbac_results > snippy |
| species identification - Sourmash | wgsbac_results > sourmash |
| virulence genes identification - SPI | wgsbac_results > virulence |
| Salmonella serotype prediction - seqSero | seqSero |
| Salmonella serovar prediction - sistr | sistr |