Piattaforma GenPat, Wiki

Topics
Topics

Introduzione

Le analisi, su isolati batterici o virali disponibili in piattaforma, sono organizzate in categorie. I nomi di tali insiemi seguono una nomenclatura atta a descrivere la tipologia di analisi ed il suo livello di esecuzione.

Sistema di nomenclatura

Prefissi

La categoria di un'analisi ed il suo livello di esecuzione vengono riassunti da un breve codice, usato come prefisso del nome dell'accertamento. Di seguito viene riportata una tabella sintetica di tali prefissi:

1PP analisi di pre-processamento
2AS tools per l'assembly
2MG analisi di metagenomica
3TX classificazione tassonomica (taxa)
4TY tipizzazione in silico
4AN annotazione dei genomi (genome annotation)

Il primo carattere del prefisso è un numero indicante l'usuale livello di esecuzione: il pre-processamento viene normalmente eseguito prima di qualunque altra analisi e gli viene quindi attribuito livello pari ad 1; le analisi tassonomiche richiedono, come input, i files di assembly e sono quindi collocate al livello 3, dopo pre-processamento ed assembly.

Oltre alle analisi lanciabili dagli utenti è presente un'ulteriore classe, denominata 0SQ, che identifica le analisi per la valutazione della qualità delle sequenze (Sequence Quality), lanciate in automatico sulle nuove reads aggiunte in piattaforma.

Nomi delle analisi

Il nome dell'analisi segue il codice usato come prefisso. Esso descrive il tipo di manipolazione del dato che verrà effettuata dai tools bioinformatici disponibili per tale scopo.

L'analisi trimming, ad esempio, è classificata come analisi di pre-processamento; pertanto, il nome completo è 1PP_trimming. Analogamente, per lanciare un de novo assembly sarà necessario utilizzare l'analisi denominata 2AS_denovo che manterrà lo stesso nome, a prescindere dal fatto che sarà poi possibile scegliere tra più tools bioinformatici.

Nelle sezioni sottostanti sono elencate, in apposite tabelle, tutte le analisi appartenenti ad ogni gruppo presente nel lancia analisi della piattaforma, insieme ad una loro breve descrizione e ai links verso le rispettive pagine.

Suffissi

Molte delle analisi disponibili in piattaforma possono essere eseguite con più softwares alternativi, ognuno con le proprie caratteristiche e differenze rispetto agli altri. A tali programmi si fa riferimento come a "tools" bioinformatici o "metodi".

Il nome di un'analisi viene quindi completato usando come suffisso 2 caratteri underscore, ("_"), seguiti dal nome del tool scelto; ad esempio, "2AS_denovo__spades" e "2AS_denovo__unicycler" eseguono entrambi il de novo assembly; tuttavia, mentre il primo usa il software "spades", il secondo utilizza "unicycler".

Le analisi che possono essere eseguite da più softwares permetteranno la scelta del metodo da utilizzare tramite un menù a tendina nella fase 2 (Tools) del procedimento di lancio analisi.

I tools disponibili per ogni analisi sono elencati nelle rispettive pagine Wiki dedicate alle singole analisi.

Nota: nella maggior parte dei casi, le long reads prodotte da sistemi Nanopore, Iontorrent e apparati per long reads Illumina devono essere processate in maniera diversa rispetto alle short reads. Alcuni tools bionformatici disponibili sono, quindi, specifici per effettuare una data analisi esclusivamente su long reads; possono anche essere presenti intere analisi solo per il processamento di tali files.

La pagina "Tools bioinformatici per le long reads" permette di consultare le liste di tali analisi.

Analisi su singolo campione

Prefisso Nome dell'analisi Descrizione Tools
1PP trimming rimozione dei residui di bassa qualità dalle "raw reads" trimmomatic
fastp
chopper
hostdepl deplezione delle sequenze dell'ospite: le "reads" vengono mappate contro il genoma dell'organismo ospite selezionato, per rimuovere le sequenze dell'ospite Bowtie
minimap2
filtering le reads vengono mappate contro il genoma di un organismo di interesse e vengono tenute solo quelle per cui c'è match Bowtie
minimap2
downsampling riduzione del numero di sequenze nelle regioni del genoma con eccessivo coverage verticale non informativo BBnorm
generated con uno script in-house un file FASTA viene convertito in formato FASTQ, usando valori fittizi e predefiniti per la qualità del base-calling. Questa analisi viene usata esclusivamente per semplificare l'uso di alcuni tools bioinformatici che non prevedono solo l'uso di files FASTQ. fasta2fastq
2AS denovo assembly "de novo": costruzione degli scaffold del genoma a partire dall'insieme di contigs SPAdes
unicycler
Shovill
flye
PlasmidSPAdes
mapping mappatura delle sequenze contro un genoma di riferimento Bowtie
ivar
Snippy
Medaka
hybrid assembly ibrido di short e long reads unicycler
2MG denovo de novo assembly per metagenomica: il software metaSPAdes costruisce il grafico di *de Bruijn* di tutte le reads usando SPAdes, poi trasformato in grafico di assembly, ricostruendo i percorsi che corrispondono a frammenti genomici all'interno di un metagenoma metaSPAdes
3TX class classificazione tassonomica degli organismi di appartenenza delle reads e controllo delle contaminazioni kraken
kraken2
ConFindr
Centrifuge
species identificazione della specie (batterica o virale) più vicina / identificazione del miglior reference virale kmerfinder
blast
vdabricate
mash
4TY MLST Multi-Locus Sequence Typing "in silico": utilizza schemi di 7 geni conservati per l'assegnazione di Sequence Type e Clonal Complex mlst
cgMLST analisi filogenetica del core genome Multi-Locus Sequence Typing in silico: chiamata allelica su schemi specie-specifici di alleli relativi al core genome dell'organismo chewBBACA
mentalist
blastMLST
flaA accertamento specifico per Campylobacter. Determinazione della variante del locus flaA "in silico" (MLST per flaA) flaA
lineage assegnazione del lineage per SARS-CoV2 Pangolin
assegnazione del lineage per il West Nile Virus westnile
wgMLST MLST sull'intero genoma (whole genome) chewBBACA
plasmid tipizzazione e ricostruzione delle sequenze plasmidiche a partire dagli assembly da Whole Genome Sequencing (WGS) MOB-suite
4AN genes genome annotation - annotazione funzionale del genoma tramite ricerca degli ORF (Open Reading Frame) nel genoma dell'organismo e identificazione delle possibili proteine codificate Prokka
AMR predizione della presenza di geni di antibiotico-resistenza abricate
blast
staramr
ResFinder
filtering

Analisi Multi Sample

Tipo di analisi Nome analisi / Tool Descrizione
Gene-by-gene based clustering Grapetree costruisce alberi MST (Minimum Spanning Tree) e NJ (Neighbor Joining) in formato nwk, a partire dai profili allelici
Reportree a partire dai profili allelici, costruisce alberi MST (Minimum Spanning Tree) in formato nwk e genera un file geoJSON a partire dai metadati
Augur esegue la pipeline Augur di Nextrain per l'analisi filogenetica, producendo un albero con algoritmo Maximum Likelihood (ML) a partire dai FASTA provenienti dal mapping o dal "de novo" assembly
Surveillance lancia manualmente ReporTree con la stessa modalità usata per il processo automatico di sorveglianza
Pangenome extraction Panaroo calcola una matrice binaria di presenza/assenza di geni accessori nei genomi dei campioni, a partire dai file gff prodotti da Prokka (genome annotation)
Snippy-core esegue Snippy per identificare le mutazioni (SNPs e indels) tra le read e un genoma aploide di riferimento, seguito da Snippy-core per costruire il file core.vcf a partire dai vcf prodotti da Snippy. Il file core.vcf contiene le mutazioni "core" tra quelle elencate nei singoli files vcf di Snippy
SNP-based clustering CFSAN identificazione di SNP con analisi filogenetica reference-based
kSNP3 identificazione di SNP senza reference con analisi filogenetica. Produce un albero Maximum Likelihood
VCF2MST costruisce rapidamente un albero MST a partire da un file VCF senza necessità di effettuare inferenze filogenomiche

Pipeline

Oltre al lancio delle singole analisi, in piattaforma sono disponibili anche delle pipeline automatiche, costituite da analisi già concatenate tra loro. Le pipelines sono concepite per rendere più semplice e rapida l'esecuzione di un flusso di lavoro di uso frequente.

Nella tabella sottostante sono elencate, per ogni pipeline, le singole analisi che la costituiscono (colonna "Analisi"; per informazioni sui singoli software usati per le analisi nelle pipeline, fare riferimento alle corrispondenti pagine Wiki).

Nome Pipeline Descrizione Analisi
Emergenza Covid assembly rapido di campioni di SARS-CoV2 e assegnazione lineage 2AS_mapping + 4TY_lineage
Deplezione & de novo deplezione delle reads dell'ospite dalle reads trimmate e successivo de novo assembly 1PP_hostdepl + 2AS_denovo
Draft del Genoma mapping e genome annotation. Il mapping viene eseguito sia con Bowtie, sia con Snippy. 2AS_mapping + 4AN_genes
Ricerca di enterotossine di S. aureus assembly de novo e successivo BLAST per identificare la presenza del gene codificante per enterotossina nel genoma 2AS_denovo + 4AN_AMR
NgsManager macro-pipeline che esegue, in base alla tipologia di campione, i moduli per campioni SARS-CoV2, Batteri o Virus pipeline "Processamento Raw Reads", "Emergenza Covid", "WGS sui Batteri", "Typing sui Batteri", "Draft del Genoma"
Processamento Raw Reads controllo qualità delle reads, trimming e classificazione virus/batteri 0SQ_rawreads + 1PP_trimming + 3TX_class
Filtraggio e de novo rimuove dalle raw reads le letture provenienti da organismi di non interesse e, consecutivamente, avvia il de novo assembly 1PP_filtering + 2AS_denovo
Tipizzazione sui Batteri calcolo della specie; calcolo del coverage orizzontale e verticale; annotazione geni; identificazione geni di virulenza e antibiotico resistenza; tipizzazione 2AS_mapping + 3TX_species + 4AN_genes + 4AN_AMR + 4TY_wgMLST + 4TY_cgMLST + 4TY_MLST + 4TY_flaA
WNV - lineage calculation and mapping calcolo del lineage per campioni di West Nile Virus e mapping contro il reference del lineage calcolato 4TY_lineage + 2AS_mapping
Mapping Virus Segmentati esegue il mapping dei segmenti di genoma dei virus segmentati usando più di un reference 2AS_mapping
Plasmidi (AMR) pipeline per la tipizzazione dei plasmidi con MOB-Suite 4TY_plasmid + 4AN_AMR
nf-core/ampliseq pipeline dalla community nf-core per il sequenziamento ed il denoising degli ampliconi. Supporta coppie di read Illumina, single-end Illumina, PacBio o IonTorrent nf-core/ampliseq

Pipeline per il controllo qualità (QC):

Nome Pipeline Descrizione
QC FastQC pipeline di controllo qualità per eseguire singolarmente il software FastQC sulle raw reads o sulle reads trimmate
QC Nanoplot pipeline di controllo qualità per eseguire singolarmente il software Nanoplot sulle raw reads da apparati Nanopore
QC Quast pipeline di quality check per eseguire singolarmente il software Quast sui file dell'assembly o dell'assembly ibrido