Piattaforma GenPat, Wiki

Topics
Topics

4AN_genes

Introduzione

L'accertamento 4AN_genes esegue l'annotazione funzionale del genoma (genome annotation), identificando le possibili proteine codificate e gli ORF.

uml diagram

Lancia Analisi 4AN_genes

Una volta selezionata l'analisi 4AN_genes nella pagina dedicata al lancio di analisi, sarà possibile selezionare il software bioinformatico (anche detto "metodo") da usare tra quelli disponibili per l'analisi. I tool utilizzabili per questa analisi sono 2:

Tool Prokka

Il tool Prokka viene usato genericamente per l'annotazione dei genomi di batteri, virus e archea. I suoi parametri prevedono:

  • la selezione di un regno tra:
    • virus;
    • batteri;
    • archea;
    • e in aggiunta mitocondri;
  • la selezione di un genoma reference;
  • la selezione dell'analisi di input.

Per Prokka è inoltre disponibile la modalità di selezione input avanzata.

I possibili input utilizzabili per 4AN_genes__prokka sono:

Sarà necessario specificare le sequenze di input provenienti da de novo assembly o da mapping e il genoma reference usato per il mapping, nel caso venga selezionato quest'ultimo come input.

Tool Pharokka

Pharokka è un tool sviluppato appositamente ed esclusivamente per l'annotazione dei genomi di batteriofagi. I parametri richiesti sono solo 2:

  • il software da usare per la predizione dei CDS (sono disponibili i tools Phanotate e Prodigal; Phanotate è lo strumento di default, in quanto specifico per la predizione sui pù piccoli genomi dei fagi);
  • la selezione dell'analisi di input.

Anche per Pharokka è disponibile la modalità di selezione input avanzata.

Anche in questo caso sarà necessario specificare il genoma reference usato per il mapping, nel caso venga selezionato quest'ultimo come input dell'analisi.


Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di visualizzare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Cartella di output

Per consultare la guida sul download dei files dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella di output può essere esplorata cliccando sul link prodotto dalla pagina di download o sul link presente all'interno della scheda dell'analisi. La cartella verrà visualizzata con la seguente gerarchia: results > ANNO > ID > 4AN_genes > DSXXXXXXXX-DTXXXXXX_prokka, dove il suffisso dipende dal software selezionato per l'analisi. Nella cartella sarà possibile trovare le 2 directories:

  • meta: ("metadata") in cui vengono salvati i files di log e di configurazione del processo eseguito.
  • result: in cui sono salvati i files con i risultati prodotti dall'analisi.

Prokka

La tabella sottostante elenca i files prodotti da Prokka.

File Descrizione Posizione
log_errore_controlli_esami.log log dei messaggi di avvertimento ed errore della run cartella principale
metadata_samples.tsv tabella riassuntiva in formato tsv dei metadati dei campioni cartella principale
results.csv tabella riassuntiva separata da ";" con informazioni e ID dei campioni cartella principale
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.err report delle incongruenze ed errori incontrati durante la run (file di testo) cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.faa sequenze amminoacidiche della traduzione dei geni codificanti identificati (formato faa - fasta aminoacid) cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.ffn sequenze nucleotidiche dei geni codificanti identificati (formato fnn - fasta nucleotide) cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.fna sequenze nucleotidica dei geni codificanti identificati (formato fna) cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.fsa sequenze in formato fsa (fragment analysis data file) cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.gbk file di output in formato GenBank cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.gff file di output in formato gff (General Feature Format) cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.log log della run di prokka cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.sqn file per la sottomissione a GenBank in formato Sequin cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.tbl file di testo con le informazioni di sequenza e dei loci cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.tsv file di output tsv che elenca i loci e i prodotti proteici dei geni codificanti mappati cartella results
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.txt statistiche sui CDS identificati cartella results
proteins.faa sequenze delle proteine identificate in formato faa cartella results

Per ulteriori dettagli riguardo i files prodotti da Prokka, si invita a consultare il manuale di Prokka.

Pharokka

La tabella sottostante elenca i files prodotti da Prokka.

File Descrizione Posizione
DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID.gbk file genebank in formato gbk con le caratteristiche della sequenza cartella results
DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID.gff file genebank in formato gff con le caratteristiche della sequenza cartella results
DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID_cds_final_merged_output.tsv file tabulare in formato tsv contenente l'annotazione del genoma cartella results

Per ulteriori dettagli riguardo i files prodotti da Pharokka, si invita a consultare il manuale di Pharokka.