Introduzione
Le analisi, su isolati batterici o virali disponibili in piattaforma, sono organizzate in categorie. I nomi di tali insiemi seguono una nomenclatura atta a descrivere la tipologia di analisi ed il suo livello di esecuzione.
Sistema di nomenclatura
Prefissi
La categoria di un'analisi ed il suo livello di esecuzione vengono riassunti da un breve codice, usato come prefisso del nome dell'accertamento. Di seguito viene riportata una tabella sintetica di tali prefissi:
| 1PP | analisi di pre-processamento |
| 2AS | tools per l'assembly |
| 2MG | analisi di metagenomica |
| 3TX | classificazione tassonomica (taxa) |
| 4TY | tipizzazione in silico |
| 4AN | annotazione dei genomi (genome annotation) |
Il primo carattere del prefisso è un numero indicante l'usuale livello di esecuzione: il pre-processamento viene normalmente eseguito prima di qualunque altra analisi e gli viene quindi attribuito livello pari ad 1; le analisi tassonomiche richiedono, come input, i files di assembly e sono quindi collocate al livello 3, dopo pre-processamento ed assembly.
Oltre alle analisi lanciabili dagli utenti è presente un'ulteriore classe, denominata 0SQ, che identifica le analisi per la valutazione della qualità delle sequenze (Sequence Quality), lanciate in automatico sulle nuove reads aggiunte in piattaforma.
Nomi delle analisi
Il nome dell'analisi segue il codice usato come prefisso. Esso descrive il tipo di manipolazione del dato che verrà effettuata dai tools bioinformatici disponibili per tale scopo.
L'analisi trimming, ad esempio, è classificata come analisi di pre-processamento; pertanto, il nome completo è 1PP_trimming. Analogamente, per lanciare un de novo assembly sarà necessario utilizzare l'analisi denominata 2AS_denovo che manterrà lo stesso nome, a prescindere dal fatto che sarà poi possibile scegliere tra più tools bioinformatici.
Nelle sezioni sottostanti sono elencate, in apposite tabelle, tutte le analisi appartenenti ad ogni gruppo presente nel lancia analisi della piattaforma, insieme ad una loro breve descrizione e ai links verso le rispettive pagine.
Suffissi
Molte delle analisi disponibili in piattaforma possono essere eseguite con più software alternativi, ognuno con le proprie caratteristiche e differenze rispetto agli altri. A tali programmi si fa riferimento come a "tools" bioinformatici o "metodi".
Il nome di un'analisi viene quindi completato usando come suffisso 2 caratteri underscore, ("_"), seguiti dal nome del tool scelto; ad esempio, "2AS_denovo__spades" e "2AS_denovo__unicycler" eseguono entrambi il de novo assembly; tuttavia, mentre il primo usa il software "spades", il secondo utilizza "unicycler".
Le analisi che possono essere eseguite da più software permetteranno la scelta del metodo da utilizzare tramite un menù a tendina nella fase 2 (Tools) del procedimento di lancio analisi.
I tools disponibili per ogni analisi sono elencati nelle rispettive pagine Wiki dedicate alle singole analisi.
Nota: nella maggior parte dei casi, le long reads prodotte da sistemi Nanopore, Iontorrent e apparati per long reads Illumina devono essere processate in maniera diversa rispetto alle short reads. Alcuni tools bionformatici disponibili sono, quindi, specifici per effettuare una data analisi esclusivamente su long reads; possono anche essere presenti intere analisi solo per il processamento di tali files.
La pagina "Tools bioinformatici per le long reads" permette di consultare le liste di tali analisi.
Analisi su singolo campione
| Prefisso | Nome analisi | Descrizione | Tool |
|---|---|---|---|
| 1PP | trimming | rimozione dei residui di bassa qualità dalle *raw reads* | trimmomatic |
| fastp | |||
| chopper | |||
| hostdepl | deplezione delle sequenze dell'ospite mediante mapping contro il genoma dell'ospite | Bowtie | |
| minimap2 | |||
| filtering | conservare le read che hanno corrispondenza con l'organismo di interesse | Bowtie | |
| minimap2 | |||
| downsampling | riduzione del coverage in eccesso | BBnorm | |
| generated | conversione da FASTA in FASTQ con valori di qualità fittizi | fasta2fastq | |
| 2AS | denovo | assembly de novo del genoma | SPAdes |
| unicycler | |||
| Shovill | |||
| flye | |||
| PlasmidSPAdes | |||
| mapping | mapping reference-based | Bowtie | |
| ivar | |||
| Snippy | |||
| Medaka | |||
| hybrid | hybrid short/long read assembly | unicycler | |
| indexing | Bowtie2 indexing | Bowtie2 | |
| 2MG | denovo | assembly metagenomico | metaSPAdes |
| 3TX | class | classificazione tassonomica | kraken |
| kraken2 | |||
| ConFindr | |||
| Centrifuge | |||
| specie | identificazione della specie più vicina | kmerfinder | |
| blast | |||
| abricate | |||
| mash | |||
| 4TY | MLST | Multi-Locus Sequence Typing | mlst |
| cgMLST | MLST del genoma core | chewBBACA | |
| flaA | Campylobacter flaA typing | flaA | |
| lineage | SARS-CoV-2 lineage | Pangolin | |
| West Nile Virus lineage | westnile | ||
| wgMLST | MLST del genoma completo | chewBBACA | |
| plasmide | plasmid typing | MOB-suite | |
| ML | attribuzione della fonte basata su ML | classificatore di origine | |
| sierotipo | predizione del sierotipo | seqsero / dengue | |
| 4AN | geni | annotazione del genoma | Prokka |
| AMR | predizione dei geni di resistenza agli antibiotici | abricate | |
| blast | |||
| staramr | |||
| ResFinder | |||
| filtering |
Multi sample analysis
| Tipo di analisi | Nome analisi / Tool | Descrizione |
|---|---|---|
| Gene-by-gene based clustering | Grapetree | costruzione dell'albero MST e NJ |
| Reportree | costruzione di MST e generazione del geoJSON | |
| Augur | Analisi filogenetica con Nextstrain | |
| Sorveglianza | Esecuzione manuale di ReporTree | |
| Estrazione del pangenoma | Panaroo | Matrice di presenza/assenza dei geni accessori |
| Snippy-core | identificazione degli SNP del core | |
| SNP-based clustering | CFSAN | Filogenesi degli SNP rispetto ad un genoma di riferimento |
| kSNP3 | Filogenesi degli SNP senza un genoma di riferimento | |
| VCF2MST | costruzione di un MST da un file VCF |
Pipeline
Oltre al lancio delle singole analisi, in piattaforma sono disponibili anche delle pipeline automatiche, costituite da analisi già concatenate tra loro. Le pipelines sono concepite per rendere più semplice e rapida l'esecuzione di un flusso di lavoro di uso frequente.
Nella tabella sottostante sono elencate, per ogni pipeline, le singole analisi che la costituiscono (colonna "Analisi"; per informazioni sui singoli software usati per le analisi nelle pipeline, fare riferimento alle corrispondenti pagine Wiki).
| Nome Pipeline | Descrizione | Analisi |
|---|---|---|
| Emergenza Covid | assembly rapido di campioni di SARS-CoV2 e assegnazione lineage | 2AS_mapping + 4TY_lineage |
| Deplezione & de novo | deplezione delle reads dell'ospite dalle reads trimmate e successivo de novo assembly | 1PP_hostdepl + 2AS_denovo |
| Draft del Genoma | mapping e genome annotation. Il mapping viene eseguito sia con Bowtie, sia con Snippy. | 2AS_mapping + 4AN_genes |
| Ricerca di enterotossine di S. aureus | assembly de novo e successivo BLAST per identificare la presenza del gene codificante per enterotossina nel genoma | 2AS_denovo + 4AN_AMR |
| NgsManager | macro-pipeline che esegue, in base alla tipologia di campione, i moduli per campioni SARS-CoV2, Batteri o Virus | pipeline "Processamento Raw Reads", "Emergenza Covid", "WGS sui Batteri", "Typing sui Batteri", "Draft del Genoma" |
| Processamento Raw Reads | controllo qualità delle reads, trimming e classificazione virus/batteri | 0SQ_rawreads + 1PP_trimming + 3TX_class |
| Filtraggio e de novo | rimuove dalle raw reads le letture provenienti da organismi di non interesse e, consecutivamente, avvia il de novo assembly | 1PP_filtering + 2AS_denovo |
| Tipizzazione sui Batteri | calcolo della specie; calcolo del coverage orizzontale e verticale; annotazione geni; identificazione geni di virulenza e antibiotico resistenza; tipizzazione | 2AS_mapping + 3TX_species + 4AN_genes + 4AN_AMR + 4TY_wgMLST + 4TY_cgMLST + 4TY_MLST + 4TY_flaA |
| WNV - lineage calculation and mapping | calcolo del lineage per campioni di West Nile Virus e mapping contro il reference del lineage calcolato | 4TY_lineage + 2AS_mapping |
| Mapping Virus Segmentati | esegue il mapping dei segmenti di genoma dei virus segmentati usando più di un reference | 2AS_mapping |
| Plasmidi (AMR) | pipeline per la tipizzazione dei plasmidi con MOB-Suite | 4TY_plasmid + 4AN_AMR |
| nf-core/ampliseq | pipeline dalla community nf-core per il sequenziamento ed il denoising degli ampliconi. Supporta coppie di read Illumina, single-end Illumina, PacBio o IonTorrent | nf-core/ampliseq |
Pipeline per il controllo qualità (QC):
| Nome Pipeline | Descrizione |
|---|---|
| QC FastQC | pipeline di controllo qualità per eseguire singolarmente il software FastQC sulle raw reads o sulle reads trimmate |
| QC Nanoplot | pipeline di controllo qualità per eseguire singolarmente il software Nanoplot sulle raw reads da apparati Nanopore |
| QC Quast | pipeline di quality check per eseguire singolarmente il software Quast sui file dell'assembly o dell'assembly ibrido |