4AN_genes
Introduzione
L'accertamento 4AN_genes esegue l'annotazione funzionale del genoma (genome annotation), identificando le possibili proteine codificate e gli ORF.
Lancia Analisi 4AN_genes
Una volta selezionata l'analisi 4AN_genes nella pagina dedicata al lancio di analisi, sarà possibile selezionare il software bioinformatico (anche detto "metodo") da usare tra quelli disponibili per l'analisi. I tool utilizzabili per questa analisi sono 2:
- Prokka - Tool to annotate bacterial, archaeal and viral genomes
- Pharokka - Annotation tool for bacteriophage genomes and metagenomes
Pagina GitHub di Prokka: https://github.com/tseemann/prokka
Pagina GitHub di Pharokka: https://github.com/gbouras13/pharokka
Tool Prokka
Il tool Prokka viene usato genericamente per l'annotazione dei genomi di batteri, virus e archea. I suoi parametri prevedono:
- la selezione di un regno tra:
- virus;
- batteri;
- archea;
- e in aggiunta mitocondri;
- la selezione di un genoma reference;
- la selezione dell'analisi di input.
Per Prokka è inoltre disponibile la modalità di selezione input avanzata.
I possibili input utilizzabili per 4AN_genes__prokka sono:
- step_2AS_mapping
- step_2AS_denovo
- step_2AS_hybrid
- step_2AS_import
Sarà necessario specificare le sequenze di input provenienti da de novo assembly o da mapping e il genoma reference usato per il mapping, nel caso venga selezionato quest'ultimo come input.

Tool Pharokka
Pharokka è un tool sviluppato appositamente ed esclusivamente per l'annotazione dei genomi di batteriofagi. I parametri richiesti sono solo 2:
- il software da usare per la predizione dei CDS (sono disponibili i tools Phanotate e Prodigal; Phanotate è lo strumento di default, in quanto specifico per la predizione sui pù piccoli genomi dei fagi);
- la selezione dell'analisi di input.
Anche per Pharokka è disponibile la modalità di selezione input avanzata.

Anche in questo caso sarà necessario specificare il genoma reference usato per il mapping, nel caso venga selezionato quest'ultimo come input dell'analisi.
Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di visualizzare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.
Cartella di output
Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.
La cartella di output può essere esplorata cliccando sul link prodotto dalla pagina di download o sul link presente all'interno della scheda dell'analisi. La cartella verrà visualizzata con la seguente gerarchia: results > ANNO > ID > 4AN_genes > DSXXXXXXXX-DTXXXXXX_prokka, dove il suffisso dipende dal software selezionato per l'analisi. Nella cartella sarà possibile trovare le 2 directories:
- meta: ("metadata") in cui vengono salvati i files di log e di configurazione del processo eseguito.
- result: in cui sono salvati i files con i risultati prodotti dall'analisi.
Prokka
La tabella sottostante elenca i files prodotti da Prokka.
| File | Descrizione | Posizione |
|---|---|---|
| log_errore_controlli_esami.log | log dei messaggi di avvertimento ed errore della run | cartella principale |
| metadata_samples.tsv | tabella riassuntiva in formato tsv dei metadati dei campioni | cartella principale |
| results.csv | tabella riassuntiva separata da ";" con informazioni e ID dei campioni | cartella principale |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.err | report delle incongruenze ed errori incontrati durante la run (file di testo) | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.faa | sequenze amminoacidiche della traduzione dei geni codificanti identificati (formato faa - fasta aminoacid) | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.ffn | sequenze nucleotidiche dei geni codificanti identificati (formato fnn - fasta nucleotide) | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.fna | sequenze nucleotidica dei geni codificanti identificati (formato fna) | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.fsa | sequenze in formato fsa (fragment analysis data file) | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.gbk | file di output in formato GenBank | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.gff | file di output in formato gff (General Feature Format) | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.log | log della run di prokka | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.sqn | file per la sottomissione a GenBank in formato Sequin | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.tbl | file di testo con le informazioni di sequenza e dei loci | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.tsv | file di output tsv che elenca i loci e i prodotti proteici dei geni codificanti mappati | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.txt | statistiche sui CDS identificati | cartella results |
| proteins.faa | sequenze delle proteine identificate in formato faa | cartella results |
Per ulteriori dettagli riguardo i files prodotti da Prokka, si invita a consultare il manuale di Prokka.
Pharokka
La tabella sottostante elenca i files prodotti da Prokka.
| File | Descrizione | Posizione |
|---|---|---|
| DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID.gbk | file genebank in formato gbk con le caratteristiche della sequenza | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID.gff | file genebank in formato gff con le caratteristiche della sequenza | cartella results |
| DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID_cds_final_merged_output.tsv | file tabulare in formato tsv contenente l'annotazione del genoma | cartella results |
Per ulteriori dettagli riguardo i files prodotti da Pharokka, si invita a consultare il manuale di Pharokka.