Introduzione

Le analisi, su isolati batterici o virali disponibili in piattaforma, sono organizzate in categorie. I nomi di tali insiemi seguono una nomenclatura atta a descrivere la tipologia di analisi ed il suo livello di esecuzione.

Sistema di nomenclatura

Prefissi

La categoria di un'analisi ed il suo livello di esecuzione vengono riassunti da un breve codice, usato come prefisso del nome dell'accertamento. Di seguito viene riportata una tabella sintetica di tali prefissi:


1PP	analisi di pre-processamento
2AS	tools per l'assembly
2MG	analisi di metagenomica
3TX	classificazione tassonomica (taxa)
4TY	tipizzazione in silico
4AN	annotazione dei genomi (genome annotation)

Il primo carattere del prefisso è un numero indicante l'usuale livello di esecuzione: il pre-processamento viene normalmente eseguito prima di qualunque altra analisi e gli viene quindi attribuito livello pari ad 1; le analisi tassonomiche richiedono, come input, i files di assembly e sono quindi collocate al livello 3, dopo pre-processamento ed assembly.

Oltre alle analisi lanciabili dagli utenti è presente un'ulteriore classe, denominata 0SQ, che identifica le analisi per la valutazione della qualità delle sequenze (Sequence Quality), lanciate in automatico sulle nuove reads aggiunte in piattaforma.

Nomi delle analisi

Il nome dell'analisi segue il codice usato come prefisso. Esso descrive il tipo di manipolazione del dato che verrà effettuata dai tools bioinformatici disponibili per tale scopo.

L'analisi trimming, ad esempio, è classificata come analisi di pre-processamento; pertanto, il nome completo è 1PP_trimming. Analogamente, per lanciare un de novo assembly sarà necessario utilizzare l'analisi denominata 2AS_denovo che manterrà lo stesso nome, a prescindere dal fatto che sarà poi possibile scegliere tra più tools bioinformatici.

Nelle sezioni sottostanti sono elencate, in apposite tabelle, tutte le analisi appartenenti ad ogni gruppo presente nel lancia analisi della piattaforma, insieme ad una loro breve descrizione e ai links verso le rispettive pagine.

Suffissi

Molte delle analisi disponibili in piattaforma possono essere eseguite con più software alternativi, ognuno con le proprie caratteristiche e differenze rispetto agli altri. A tali programmi si fa riferimento come a "tools" bioinformatici o "metodi".

Il nome di un'analisi viene quindi completato usando come suffisso 2 caratteri underscore, ("_"), seguiti dal nome del tool scelto; ad esempio, "2AS_denovo__spades" e "2AS_denovo__unicycler" eseguono entrambi il de novo assembly; tuttavia, mentre il primo usa il software "spades", il secondo utilizza "unicycler".

Le analisi che possono essere eseguite da più software permetteranno la scelta del metodo da utilizzare tramite un menù a tendina nella fase 2 (Tools) del procedimento di lancio analisi.

I tools disponibili per ogni analisi sono elencati nelle rispettive pagine Wiki dedicate alle singole analisi.

Nota: nella maggior parte dei casi, le long reads prodotte da sistemi Nanopore, Iontorrent e apparati per long reads Illumina devono essere processate in maniera diversa rispetto alle short reads. Alcuni tools bionformatici disponibili sono, quindi, specifici per effettuare una data analisi esclusivamente su long reads; possono anche essere presenti intere analisi solo per il processamento di tali files.

La pagina "Tools bioinformatici per le long reads" permette di consultare le liste di tali analisi.

Analisi su singolo campione

Prefisso	Nome analisi	Descrizione	Tool
1PP	trimming	rimozione dei residui di bassa qualità dalle raw reads	trimmomatic
			fastp
			chopper
	hostdepl	deplezione delle sequenze dell'ospite mediante mapping contro il genoma dell'ospite	Bowtie
	hostdepl		minimap2
	filtering	conservare le read che hanno corrispondenza con l'organismo di interesse	Bowtie
	filtering		minimap2
	downsampling	riduzione del coverage in eccesso	BBnorm
	generated	conversione da FASTA in FASTQ con valori di qualità fittizi	fasta2fastq
2AS	denovo	assembly de novo del genoma	SPAdes
			unicycler
			Shovill
			flye
			PlasmidSPAdes
	mapping	mapping reference-based	Bowtie
			ivar
			Snippy
			Medaka
	hybrid	hybrid short/long read assembly	unicycler
	indexing	Bowtie2 indexing	Bowtie2
2MG	denovo	assembly metagenomico	metaSPAdes
3TX	class	classificazione tassonomica	kraken
			kraken2
			ConFindr
			Centrifuge
	specie	identificazione della specie più vicina	kmerfinder
			blast
			abricate
			mash
4TY	MLST	Multi-Locus Sequence Typing	mlst
	cgMLST	MLST del genoma core	chewBBACA
	flaA	Campylobacter flaA typing	flaA
	lineage	SARS-CoV-2 lineage	Pangolin
	lineage	West Nile Virus lineage	westnile
	wgMLST	MLST del genoma completo	chewBBACA
	plasmide	plasmid typing	MOB-suite
	ML	attribuzione della fonte basata su ML	classificatore di origine
	sierotipo	predizione del sierotipo	seqsero / dengue

4AN	geni	annotazione del genoma	Prokka
	AMR	predizione dei geni di resistenza agli antibiotici	abricate
			blast
			staramr
			ResFinder
			filtering

Multi sample analysis

Tipo di analisi	Nome analisi / Tool	Descrizione
Gene-by-gene based clustering	Grapetree	costruzione dell'albero MST e NJ
	Reportree	costruzione di MST e generazione del geoJSON
	Augur	Analisi filogenetica con Nextstrain
	Sorveglianza	Esecuzione manuale di ReporTree
Estrazione del pangenoma	Panaroo	Matrice di presenza/assenza dei geni accessori
Estrazione del pangenoma	Snippy-core	identificazione degli SNP del core
SNP-based clustering	CFSAN	Filogenesi degli SNP rispetto ad un genoma di riferimento
	kSNP3	Filogenesi degli SNP senza un genoma di riferimento
	VCF2MST	costruzione di un MST da un file VCF

Pipeline

Oltre al lancio delle singole analisi, in piattaforma sono disponibili anche delle pipeline automatiche, costituite da analisi già concatenate tra loro. Le pipelines sono concepite per rendere più semplice e rapida l'esecuzione di un flusso di lavoro di uso frequente.

Nella tabella sottostante sono elencate, per ogni pipeline, le singole analisi che la costituiscono (colonna "Analisi"; per informazioni sui singoli software usati per le analisi nelle pipeline, fare riferimento alle corrispondenti pagine Wiki).

Nome Pipeline	Descrizione	Analisi
Emergenza Covid	assembly rapido di campioni di SARS-CoV2 e assegnazione lineage	2AS_mapping + 4TY_lineage
Deplezione & de novo	deplezione delle reads dell'ospite dalle reads trimmate e successivo de novo assembly	1PP_hostdepl + 2AS_denovo
Draft del Genoma	mapping e genome annotation. Il mapping viene eseguito sia con Bowtie, sia con Snippy.	2AS_mapping + 4AN_genes
Ricerca di enterotossine di S. aureus	assembly de novo e successivo BLAST per identificare la presenza del gene codificante per enterotossina nel genoma	2AS_denovo + 4AN_AMR
NgsManager	macro-pipeline che esegue, in base alla tipologia di campione, i moduli per campioni SARS-CoV2, Batteri o Virus	pipeline "Processamento Raw Reads", "Emergenza Covid", "WGS sui Batteri", "Typing sui Batteri", "Draft del Genoma"
Processamento Raw Reads	controllo qualità delle reads, trimming e classificazione virus/batteri	0SQ_rawreads + 1PP_trimming + 3TX_class
Filtraggio e de novo	rimuove dalle raw reads le letture provenienti da organismi di non interesse e, consecutivamente, avvia il de novo assembly	1PP_filtering + 2AS_denovo
Tipizzazione sui Batteri	calcolo della specie; calcolo del coverage orizzontale e verticale; annotazione geni; identificazione geni di virulenza e antibiotico resistenza; tipizzazione	2AS_mapping + 3TX_species + 4AN_genes + 4AN_AMR + 4TY_wgMLST + 4TY_cgMLST + 4TY_MLST + 4TY_flaA
WNV - lineage calculation and mapping	calcolo del lineage per campioni di West Nile Virus e mapping contro il reference del lineage calcolato	4TY_lineage + 2AS_mapping
Mapping Virus Segmentati	esegue il mapping dei segmenti di genoma dei virus segmentati usando più di un reference	2AS_mapping
Plasmidi (AMR)	pipeline per la tipizzazione dei plasmidi con MOB-Suite	4TY_plasmid + 4AN_AMR
nf-core/ampliseq	pipeline dalla community nf-core per il sequenziamento ed il denoising degli ampliconi. Supporta coppie di read Illumina, single-end Illumina, PacBio o IonTorrent	nf-core/ampliseq

Pipeline per il controllo qualità (QC):

Nome Pipeline	Descrizione
QC FastQC	pipeline di controllo qualità per eseguire singolarmente il software FastQC sulle raw reads o sulle reads trimmate
QC Nanoplot	pipeline di controllo qualità per eseguire singolarmente il software Nanoplot sulle raw reads da apparati Nanopore
QC Quast	pipeline di quality check per eseguire singolarmente il software Quast sui file dell'assembly o dell'assembly ibrido

Piattaforma GenPat, Wiki

Topics

Introduzione

Sistema di nomenclatura

Prefissi

Nomi delle analisi

Suffissi

Analisi su singolo campione

Multi sample analysis

Pipeline

On this page

Previous

Analisi, Visualizza analisi

Next

Descrizione tools, Tools per tecnologie non-Illumina