Piattaforma GenPat, Wiki

Topics
Topics

Introduzione

Le analisi, su isolati batterici o virali disponibili in piattaforma, sono organizzate in categorie. I nomi di tali insiemi seguono una nomenclatura atta a descrivere la tipologia di analisi ed il suo livello di esecuzione.

Sistema di nomenclatura

Prefissi

La categoria di un'analisi ed il suo livello di esecuzione vengono riassunti da un breve codice, usato come prefisso del nome dell'accertamento. Di seguito viene riportata una tabella sintetica di tali prefissi:

1PP analisi di pre-processamento
2AS tools per l'assembly
2MG analisi di metagenomica
3TX classificazione tassonomica (taxa)
4TY tipizzazione in silico
4AN annotazione dei genomi (genome annotation)

Il primo carattere del prefisso è un numero indicante l'usuale livello di esecuzione: il pre-processamento viene normalmente eseguito prima di qualunque altra analisi e gli viene quindi attribuito livello pari ad 1; le analisi tassonomiche richiedono, come input, i files di assembly e sono quindi collocate al livello 3, dopo pre-processamento ed assembly.

Oltre alle analisi lanciabili dagli utenti è presente un'ulteriore classe, denominata 0SQ, che identifica le analisi per la valutazione della qualità delle sequenze (Sequence Quality), lanciate in automatico sulle nuove reads aggiunte in piattaforma.

Nomi delle analisi

Il nome dell'analisi segue il codice usato come prefisso. Esso descrive il tipo di manipolazione del dato che verrà effettuata dai tools bioinformatici disponibili per tale scopo.

L'analisi trimming, ad esempio, è classificata come analisi di pre-processamento; pertanto, il nome completo è 1PP_trimming. Analogamente, per lanciare un de novo assembly sarà necessario utilizzare l'analisi denominata 2AS_denovo che manterrà lo stesso nome, a prescindere dal fatto che sarà poi possibile scegliere tra più tools bioinformatici.

Nelle sezioni sottostanti sono elencate, in apposite tabelle, tutte le analisi appartenenti ad ogni gruppo presente nel lancia analisi della piattaforma, insieme ad una loro breve descrizione e ai links verso le rispettive pagine.

Suffissi

Molte delle analisi disponibili in piattaforma possono essere eseguite con più software alternativi, ognuno con le proprie caratteristiche e differenze rispetto agli altri. A tali programmi si fa riferimento come a "tools" bioinformatici o "metodi".

Il nome di un'analisi viene quindi completato usando come suffisso 2 caratteri underscore, ("_"), seguiti dal nome del tool scelto; ad esempio, "2AS_denovo__spades" e "2AS_denovo__unicycler" eseguono entrambi il de novo assembly; tuttavia, mentre il primo usa il software "spades", il secondo utilizza "unicycler".

Le analisi che possono essere eseguite da più software permetteranno la scelta del metodo da utilizzare tramite un menù a tendina nella fase 2 (Tools) del procedimento di lancio analisi.

I tools disponibili per ogni analisi sono elencati nelle rispettive pagine Wiki dedicate alle singole analisi.

Nota: nella maggior parte dei casi, le long reads prodotte da sistemi Nanopore, Iontorrent e apparati per long reads Illumina devono essere processate in maniera diversa rispetto alle short reads. Alcuni tools bionformatici disponibili sono, quindi, specifici per effettuare una data analisi esclusivamente su long reads; possono anche essere presenti intere analisi solo per il processamento di tali files.

La pagina "Tools bioinformatici per le long reads" permette di consultare le liste di tali analisi.

Analisi su singolo campione

Prefisso Nome analisi Descrizione Tool
1PP trimming rimozione dei residui di bassa qualità dalle *raw reads* trimmomatic
fastp
chopper
hostdepl deplezione delle sequenze dell'ospite mediante mapping contro il genoma dell'ospite Bowtie
minimap2
filtering conservare le read che hanno corrispondenza con l'organismo di interesse Bowtie
minimap2
downsampling riduzione del coverage in eccesso BBnorm
generated conversione da FASTA in FASTQ con valori di qualità fittizi fasta2fastq
2AS denovo assembly de novo del genoma SPAdes
unicycler
Shovill
flye
PlasmidSPAdes
mapping mapping reference-based Bowtie
ivar
Snippy
Medaka
hybrid hybrid short/long read assembly unicycler
indexing Bowtie2 indexing Bowtie2
2MG denovo assembly metagenomico metaSPAdes
3TX class classificazione tassonomica kraken
kraken2
ConFindr
Centrifuge
specie identificazione della specie più vicina kmerfinder
blast
abricate
mash
4TY MLST Multi-Locus Sequence Typing mlst
cgMLST MLST del genoma core chewBBACA
flaA Campylobacter flaA typing flaA
lineage SARS-CoV-2 lineage Pangolin
West Nile Virus lineage westnile
wgMLST MLST del genoma completo chewBBACA
plasmide plasmid typing MOB-suite
ML attribuzione della fonte basata su ML classificatore di origine
sierotipo predizione del sierotipo seqsero / dengue
4AN geni annotazione del genoma Prokka
AMR predizione dei geni di resistenza agli antibiotici abricate
blast
staramr
ResFinder
filtering

Multi sample analysis

Tipo di analisi Nome analisi / Tool Descrizione
Gene-by-gene based clustering Grapetree costruzione dell'albero MST e NJ
Reportree costruzione di MST e generazione del geoJSON
Augur Analisi filogenetica con Nextstrain
Sorveglianza Esecuzione manuale di ReporTree
Estrazione del pangenoma Panaroo Matrice di presenza/assenza dei geni accessori
Snippy-core identificazione degli SNP del core
SNP-based clustering CFSAN Filogenesi degli SNP rispetto ad un genoma di riferimento
kSNP3 Filogenesi degli SNP senza un genoma di riferimento
VCF2MST costruzione di un MST da un file VCF

Pipeline

Oltre al lancio delle singole analisi, in piattaforma sono disponibili anche delle pipeline automatiche, costituite da analisi già concatenate tra loro. Le pipelines sono concepite per rendere più semplice e rapida l'esecuzione di un flusso di lavoro di uso frequente.

Nella tabella sottostante sono elencate, per ogni pipeline, le singole analisi che la costituiscono (colonna "Analisi"; per informazioni sui singoli software usati per le analisi nelle pipeline, fare riferimento alle corrispondenti pagine Wiki).

Nome Pipeline Descrizione Analisi
Emergenza Covid assembly rapido di campioni di SARS-CoV2 e assegnazione lineage 2AS_mapping + 4TY_lineage
Deplezione & de novo deplezione delle reads dell'ospite dalle reads trimmate e successivo de novo assembly 1PP_hostdepl + 2AS_denovo
Draft del Genoma mapping e genome annotation. Il mapping viene eseguito sia con Bowtie, sia con Snippy. 2AS_mapping + 4AN_genes
Ricerca di enterotossine di S. aureus assembly de novo e successivo BLAST per identificare la presenza del gene codificante per enterotossina nel genoma 2AS_denovo + 4AN_AMR
NgsManager macro-pipeline che esegue, in base alla tipologia di campione, i moduli per campioni SARS-CoV2, Batteri o Virus pipeline "Processamento Raw Reads", "Emergenza Covid", "WGS sui Batteri", "Typing sui Batteri", "Draft del Genoma"
Processamento Raw Reads controllo qualità delle reads, trimming e classificazione virus/batteri 0SQ_rawreads + 1PP_trimming + 3TX_class
Filtraggio e de novo rimuove dalle raw reads le letture provenienti da organismi di non interesse e, consecutivamente, avvia il de novo assembly 1PP_filtering + 2AS_denovo
Tipizzazione sui Batteri calcolo della specie; calcolo del coverage orizzontale e verticale; annotazione geni; identificazione geni di virulenza e antibiotico resistenza; tipizzazione 2AS_mapping + 3TX_species + 4AN_genes + 4AN_AMR + 4TY_wgMLST + 4TY_cgMLST + 4TY_MLST + 4TY_flaA
WNV - lineage calculation and mapping calcolo del lineage per campioni di West Nile Virus e mapping contro il reference del lineage calcolato 4TY_lineage + 2AS_mapping
Mapping Virus Segmentati esegue il mapping dei segmenti di genoma dei virus segmentati usando più di un reference 2AS_mapping
Plasmidi (AMR) pipeline per la tipizzazione dei plasmidi con MOB-Suite 4TY_plasmid + 4AN_AMR
nf-core/ampliseq pipeline dalla community nf-core per il sequenziamento ed il denoising degli ampliconi. Supporta coppie di read Illumina, single-end Illumina, PacBio o IonTorrent nf-core/ampliseq

Pipeline per il controllo qualità (QC):

Nome Pipeline Descrizione
QC FastQC pipeline di controllo qualità per eseguire singolarmente il software FastQC sulle raw reads o sulle reads trimmate
QC Nanoplot pipeline di controllo qualità per eseguire singolarmente il software Nanoplot sulle raw reads da apparati Nanopore
QC Quast pipeline di quality check per eseguire singolarmente il software Quast sui file dell'assembly o dell'assembly ibrido