Introduzione
Le analisi, su isolati batterici o virali disponibili in piattaforma, sono organizzate in categorie. I nomi di tali insiemi seguono una nomenclatura atta a descrivere la tipologia di analisi ed il suo livello di esecuzione.
Sistema di nomenclatura
Prefissi
La categoria di un'analisi ed il suo livello di esecuzione vengono riassunti da un breve codice, usato come prefisso del nome dell'accertamento. Di seguito viene riportata una tabella sintetica di tali prefissi:
| 1PP | analisi di pre-processamento |
| 2AS | tools per l'assembly |
| 2MG | analisi di metagenomica |
| 3TX | classificazione tassonomica (taxa) |
| 4TY | tipizzazione in silico |
| 4AN | annotazione dei genomi (genome annotation) |
Il primo carattere del prefisso è un numero indicante l'usuale livello di esecuzione: il pre-processamento viene normalmente eseguito prima di qualunque altra analisi e gli viene quindi attribuito livello pari ad 1; le analisi tassonomiche richiedono, come input, i files di assembly e sono quindi collocate al livello 3, dopo pre-processamento ed assembly.
Oltre alle analisi lanciabili dagli utenti è presente un'ulteriore classe, denominata 0SQ, che identifica le analisi per la valutazione della qualità delle sequenze (Sequence Quality), lanciate in automatico sulle nuove reads aggiunte in piattaforma.
Nomi delle analisi
Il nome dell'analisi segue il codice usato come prefisso. Esso descrive il tipo di manipolazione del dato che verrà effettuata dai tools bioinformatici disponibili per tale scopo.
L'analisi trimming, ad esempio, è classificata come analisi di pre-processamento; pertanto, il nome completo è 1PP_trimming. Analogamente, per lanciare un de novo assembly sarà necessario utilizzare l'analisi denominata 2AS_denovo che manterrà lo stesso nome, a prescindere dal fatto che sarà poi possibile scegliere tra più tools bioinformatici.
Nelle sezioni sottostanti sono elencate, in apposite tabelle, tutte le analisi appartenenti ad ogni gruppo presente nel lancia analisi della piattaforma, insieme ad una loro breve descrizione e ai links verso le rispettive pagine.
Suffissi
Molte delle analisi disponibili in piattaforma possono essere eseguite con più softwares alternativi, ognuno con le proprie caratteristiche e differenze rispetto agli altri. A tali programmi si fa riferimento come a "tools" bioinformatici o "metodi".
Il nome di un'analisi viene quindi completato usando come suffisso 2 caratteri underscore, ("_"), seguiti dal nome del tool scelto; ad esempio, "2AS_denovo__spades" e "2AS_denovo__unicycler" eseguono entrambi il de novo assembly; tuttavia, mentre il primo usa il software "spades", il secondo utilizza "unicycler".
Le analisi che possono essere eseguite da più softwares permetteranno la scelta del metodo da utilizzare tramite un menù a tendina nella fase 2 (Tools) del procedimento di lancio analisi.
I tools disponibili per ogni analisi sono elencati nelle rispettive pagine Wiki dedicate alle singole analisi.
Nota: nella maggior parte dei casi, le long reads prodotte da sistemi Nanopore, Iontorrent e apparati per long reads Illumina devono essere processate in maniera diversa rispetto alle short reads. Alcuni tools bionformatici disponibili sono, quindi, specifici per effettuare una data analisi esclusivamente su long reads; possono anche essere presenti intere analisi solo per il processamento di tali files.
La pagina "Tools bioinformatici per le long reads" permette di consultare le liste di tali analisi.
Analisi su singolo campione
| Prefisso | Nome dell'analisi | Descrizione | Tools |
|---|---|---|---|
| 1PP | trimming | rimozione dei residui di bassa qualità dalle "raw reads" | trimmomatic |
| fastp | |||
| chopper | |||
| hostdepl | deplezione delle sequenze dell'ospite: le "reads" vengono mappate contro il genoma dell'organismo ospite selezionato, per rimuovere le sequenze dell'ospite | Bowtie | |
| minimap2 | |||
| filtering | le reads vengono mappate contro il genoma di un organismo di interesse e vengono tenute solo quelle per cui c'è match | Bowtie | |
| minimap2 | |||
| downsampling | riduzione del numero di sequenze nelle regioni del genoma con eccessivo coverage verticale non informativo | BBnorm | |
| generated | con uno script in-house un file FASTA viene convertito in formato FASTQ, usando valori fittizi e predefiniti per la qualità del base-calling. Questa analisi viene usata esclusivamente per semplificare l'uso di alcuni tools bioinformatici che non prevedono solo l'uso di files FASTQ. | fasta2fastq | |
| 2AS | denovo | assembly "de novo": costruzione degli scaffold del genoma a partire dall'insieme di contigs | SPAdes |
| unicycler | |||
| Shovill | |||
| flye | |||
| PlasmidSPAdes | |||
| mapping | mappatura delle sequenze contro un genoma di riferimento | Bowtie | |
| ivar | |||
| Snippy | |||
| Medaka | |||
| hybrid | assembly ibrido di short e long reads | unicycler | 2MG | denovo | de novo assembly per metagenomica: il software metaSPAdes costruisce il grafico di *de Bruijn* di tutte le reads usando SPAdes, poi trasformato in grafico di assembly, ricostruendo i percorsi che corrispondono a frammenti genomici all'interno di un metagenoma | metaSPAdes |
| 3TX | class | classificazione tassonomica degli organismi di appartenenza delle reads e controllo delle contaminazioni | kraken |
| kraken2 | |||
| ConFindr | |||
| Centrifuge | |||
| species | identificazione della specie (batterica o virale) più vicina / identificazione del miglior reference virale | kmerfinder | |
| blast | |||
| vdabricate | |||
| mash | |||
| 4TY | MLST | Multi-Locus Sequence Typing "in silico": utilizza schemi di 7 geni conservati per l'assegnazione di Sequence Type e Clonal Complex | mlst |
| cgMLST | analisi filogenetica del core genome Multi-Locus Sequence Typing in silico: chiamata allelica su schemi specie-specifici di alleli relativi al core genome dell'organismo | chewBBACA | |
| mentalist | |||
| blastMLST | |||
| flaA | accertamento specifico per Campylobacter. Determinazione della variante del locus flaA "in silico" (MLST per flaA) | flaA | |
| lineage | assegnazione del lineage per SARS-CoV2 | Pangolin | |
| assegnazione del lineage per il West Nile Virus | westnile | ||
| wgMLST | MLST sull'intero genoma (whole genome) | chewBBACA | |
| plasmid | tipizzazione e ricostruzione delle sequenze plasmidiche a partire dagli assembly da Whole Genome Sequencing (WGS) | MOB-suite | |
| 4AN | genes | genome annotation - annotazione funzionale del genoma tramite ricerca degli ORF (Open Reading Frame) nel genoma dell'organismo e identificazione delle possibili proteine codificate | Prokka |
| AMR | predizione della presenza di geni di antibiotico-resistenza | abricate | |
| blast | |||
| staramr | |||
| ResFinder | |||
| filtering |
Analisi Multi Sample
| Tipo di analisi | Nome analisi / Tool | Descrizione |
|---|---|---|
| Gene-by-gene based clustering | Grapetree | costruisce alberi MST (Minimum Spanning Tree) e NJ (Neighbor Joining) in formato nwk, a partire dai profili allelici |
| Reportree | a partire dai profili allelici, costruisce alberi MST (Minimum Spanning Tree) in formato nwk e genera un file geoJSON a partire dai metadati | |
| Augur | esegue la pipeline Augur di Nextrain per l'analisi filogenetica, producendo un albero con algoritmo Maximum Likelihood (ML) a partire dai FASTA provenienti dal mapping o dal "de novo" assembly | |
| Surveillance | lancia manualmente ReporTree con la stessa modalità usata per il processo automatico di sorveglianza | |
| Pangenome extraction | Panaroo | calcola una matrice binaria di presenza/assenza di geni accessori nei genomi dei campioni, a partire dai file gff prodotti da Prokka (genome annotation) |
| Snippy-core | esegue Snippy per identificare le mutazioni (SNPs e indels) tra le read e un genoma aploide di riferimento, seguito da Snippy-core per costruire il file core.vcf a partire dai vcf prodotti da Snippy. Il file core.vcf contiene le mutazioni "core" tra quelle elencate nei singoli files vcf di Snippy | |
| SNP-based clustering | CFSAN | identificazione di SNP con analisi filogenetica reference-based | kSNP3 | identificazione di SNP senza reference con analisi filogenetica. Produce un albero Maximum Likelihood | VCF2MST | costruisce rapidamente un albero MST a partire da un file VCF senza necessità di effettuare inferenze filogenomiche |
Pipeline
Oltre al lancio delle singole analisi, in piattaforma sono disponibili anche delle pipeline automatiche, costituite da analisi già concatenate tra loro. Le pipelines sono concepite per rendere più semplice e rapida l'esecuzione di un flusso di lavoro di uso frequente.
Nella tabella sottostante sono elencate, per ogni pipeline, le singole analisi che la costituiscono (colonna "Analisi"; per informazioni sui singoli software usati per le analisi nelle pipeline, fare riferimento alle corrispondenti pagine Wiki).
| Nome Pipeline | Descrizione | Analisi |
|---|---|---|
| Emergenza Covid | assembly rapido di campioni di SARS-CoV2 e assegnazione lineage | 2AS_mapping + 4TY_lineage |
| Deplezione & de novo | deplezione delle reads dell'ospite dalle reads trimmate e successivo de novo assembly | 1PP_hostdepl + 2AS_denovo |
| Draft del Genoma | mapping e genome annotation. Il mapping viene eseguito sia con Bowtie, sia con Snippy. | 2AS_mapping + 4AN_genes |
| Ricerca di enterotossine di S. aureus | assembly de novo e successivo BLAST per identificare la presenza del gene codificante per enterotossina nel genoma | 2AS_denovo + 4AN_AMR |
| NgsManager | macro-pipeline che esegue, in base alla tipologia di campione, i moduli per campioni SARS-CoV2, Batteri o Virus | pipeline "Processamento Raw Reads", "Emergenza Covid", "WGS sui Batteri", "Typing sui Batteri", "Draft del Genoma" |
| Processamento Raw Reads | controllo qualità delle reads, trimming e classificazione virus/batteri | 0SQ_rawreads + 1PP_trimming + 3TX_class |
| Filtraggio e de novo | rimuove dalle raw reads le letture provenienti da organismi di non interesse e, consecutivamente, avvia il de novo assembly | 1PP_filtering + 2AS_denovo |
| Tipizzazione sui Batteri | calcolo della specie; calcolo del coverage orizzontale e verticale; annotazione geni; identificazione geni di virulenza e antibiotico resistenza; tipizzazione | 2AS_mapping + 3TX_species + 4AN_genes + 4AN_AMR + 4TY_wgMLST + 4TY_cgMLST + 4TY_MLST + 4TY_flaA |
| WNV - lineage calculation and mapping | calcolo del lineage per campioni di West Nile Virus e mapping contro il reference del lineage calcolato | 4TY_lineage + 2AS_mapping |
| Mapping Virus Segmentati | esegue il mapping dei segmenti di genoma dei virus segmentati usando più di un reference | 2AS_mapping |
| Plasmidi (AMR) | pipeline per la tipizzazione dei plasmidi con MOB-Suite | 4TY_plasmid + 4AN_AMR |
| nf-core/ampliseq | pipeline dalla community nf-core per il sequenziamento ed il denoising degli ampliconi. Supporta coppie di read Illumina, single-end Illumina, PacBio o IonTorrent | nf-core/ampliseq |
Pipeline per il controllo qualità (QC):
| Nome Pipeline | Descrizione |
|---|---|
| QC FastQC | pipeline di controllo qualità per eseguire singolarmente il software FastQC sulle raw reads o sulle reads trimmate |
| QC Nanoplot | pipeline di controllo qualità per eseguire singolarmente il software Nanoplot sulle raw reads da apparati Nanopore |
| QC Quast | pipeline di quality check per eseguire singolarmente il software Quast sui file dell'assembly o dell'assembly ibrido |