Piattaforma GenPat, Wiki

Topics
Topics

4AN_genes

Introduzione

L'analisi 4AN_genes esegue l'annotazione funzionale del genoma (genome annotation), identificando le possibili proteine codificate e gli ORF.

uml diagram

Lancia analisi 4AN_genes

Una volta selezionata l'analisi 4AN_genes nella pagina dedicata al lancio di analisi, sarà possibile selezionare il software bioinformatico ("metodo") da usare tra quelli disponibili per l'analisi. I metodi utilizzabili per questa analisi sono:

Tool Prokka

Il tool Prokka viene usato genericamente per l'annotazione dei genomi di batteri, virus e archea. I suoi parametri prevedono:

  • la selezione di un regno tra:
    • virus;
    • batteri;
    • archea;
    • e, in aggiunta, mitocondri;
  • la selezione di un genoma reference;
  • la selezione dell'analisi di input.

Per Prokka, è disponibile la modalità di selezione input avanzata.

I possibili input possono provenire da:

Sarà necessario specificare le sequenze di input - provenienti da un assembly de novo o da un mapping - e indicare il genoma reference utilizzato per il mapping, se quest'ultimo viene selezionato come input.

Tool Pharokka

Pharokka è un tool sviluppato appositamente ed esclusivamente per l'annotazione dei genomi di batteriofagi. I parametri richiesti sono solo 2:

  • il software da usare per la predizione dei CDS (sono disponibili i tool Phanotate e Prodigal; Phanotate è lo strumento di default, in quanto specifico per la predizione sui più piccoli genomi dei fagi);
  • la selezione dell'analisi di input.

Anche per Pharokka è disponibile la modalità di selezione input avanzata.

I possibili input possono provenire da:

Anche in questo caso sarà necessario specificare il genoma reference utilizzato per il mapping, se quest'ultimo viene selezionato come input.

Una volta lanciata l'analisi, la pagina genererà un link alla sezione Controllo analisi, per permettere di visualizzare lo stato del processo. L'utente verrà notificato dal sistema sia una volta lanciata con successo l'analisi, sia al termine dell'esecuzione.

Cartella dei risultati

Per consultare la guida sul download dei file dalla piattaforma si faccia riferimento all'apposita pagina.

La cartella dei risultati, Result folder, è accessibile cliccando sul link presente all'interno della scheda dell'analisi, nella sezione Dati risultato. All'interno della conseguente cartella results, è possibile trovare 2 sotto-cartelle:

  • meta: (metadati) in cui vengono salvati i file di log e di configurazione del processo eseguito;
  • result: in cui sono salvati i files con i risultati prodotti dall'analisi.

Le tabelle in basso presentano la lista di file presenti nelle cartelle, insieme ad alcune informazioni utili.

Prokka

La tabella sottostante elenca i file prodotti da Prokka.

File Descrizione Posizione
log_errore_controlli_esami.log log degli avvisi e di errore della run cartella "results"
metadata_samples.tsv tabella di sintesi in formato .tsv dei metadati dei campioni cartella "results"
results.csv tabella riassuntiva separata da ";" con informazioni e ID dei campioni cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.err report delle incongruenze ed errori incontrati durante la run (file di testo) cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.faa sequenze amminoacidiche provenienti dalla traduzione dei geni codificanti identificati (formato .faa - fasta aminoacid) cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.ffn sequenze nucleotidiche dei geni codificanti identificati (formato .fnn - fasta nucleotide) cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.fna sequenze nucleotidiche dei geni codificanti identificati (formato .fna) cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.fsa sequenze in formato .fsa (file dei dati di analisi dei frammenti) cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.gbk file di output in formato GenBank cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.gff file di output in formato .gff (General Feature Format) cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.log log della run di Prokka cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.sqn file per la sottomissione a GenBank in formato Sequin cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.tbl file di testo con le informazioni di sequenza e dei loci cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.tsv file di output .tsv che elenca i loci e i prodotti proteici dei geni codificanti mappati cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_prokka_REFID_result.txt statistiche sui CDS identificati cartella "results"
proteins.faa sequenze delle proteine identificate in formato .faa cartella "results"

Per ulteriori dettagli riguardo i file prodotti da Prokka, si invita a consultare il manuale di Prokka.

Pharokka

La tabella sottostante elenca i file prodotti da Pharokka.

File Descrizione Posizione
DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID.gbk file GenBank, in formato .gbk, con le caratteristiche della sequenza cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID.gff file GenBank, in formato .gff, con le caratteristiche della sequenza cartella "results"
DSXXXXXXXX-DTXXXXXX_ID_pharokka_REFID_cds_final_merged_output.tsv file tabulare, in formato .tsv, contenente l'annotazione del genoma cartella "results"

Per ulteriori dettagli riguardo i file prodotti da Pharokka, si invita a consultare il manuale di Pharokka.