Está en la página 1de 10

PREDICIÓN Y ANOTACIÓN DE GENOMAS

Guía 13. Genómica y bioinformática

Objetivo: Aprender el esquema básico para la predicción y anotación de genes en un genoma.

Para toda esta parte cada vez que se ejecute un comando escriba la sintaxis
usada para responder la pregunta.
Usando el genoma guardado de la guía pasada se realizarán los siguientes procedimientos.

A. PREDICCIÓN DE GENES
La anotación de un genoma puede hacerse por homología, cuando se tiene un genoma de
referencia cercano, o ab initio cuando no se conoce nada acerca de él o sus grupos
hermanos. Para la guía de hoy usaremos para predecir en procariotas Prodigal y en
eucariotas Augustus.

Para entregar:

En el cluster en la carpeta CLASS_DATA/Guia13 se encuentran los archivos fasta que


usaremos hoy. Uno para procariota (PR_1. fasta) y una para eucariota (EU_1.fasta). Estos
archivos son genomas completos.

1. Utilizando herramientas aprendidas en guías anteriores averigüe a que organismos


pertenecen estos fasta. Puede usar el comando Head -n 80 Nombre del genoma >
primeras_80lineas_genoma. fasta para solo tomar un pedazo del fasta y hallar la
identidad.
No pudimos hacer el blast en el clúster, esperamos más o menos media hora, pero aun así
no fue posible. Hicimos dos secuencias, con 80 y 20 líneas, pero, aun así, no corrió.
Por lo tanto, procedimos a realizarlo en NCBI.
2. Para el organismo procariota utilizaremos Prodigal. Cargue el módulo prodigal/2.50.
Recuerde que puede ver el manual usando -h. Utilice la siguiente sintaxis para correr
el programa prodigal -i my.genome.fna -a protein.translations.fa , -i corresponde
al archivo de genoma a usar, -o salida en formato gbk y -a salida en formato de fasta
de aminoácidos. ¿Cuántas proteínas resultaron?
Resultaron 44 proteínas.

3. Ahora correremos Augustus. Cargue el módulo augustus/3.2.3. Recuerde que


puede ver el manual usando -h o en la página
http://augustus.gobics.de/binaries/README.TXT. Utilice la siguiente sintaxis para
correr el programa augustus fasta --species=especie más cercana --cds=on --
outfile=salida.augustus. En este caso el archivo de salida es un gff2. Vamos a revisar
solo algunas proteínas predichas. ¿Cuántas proteínas resultaron?
augustus protein.translations.fa --species=ustilago_maydis --cds=on --
outfile=salida.augustus
Resultaron 4085 proteínas.
4. Tome 10 proteínas al azar de la salida de Augustus y colóquelas en un nuevo archivo.
5.Para la salida de Prodigal corra el siguiente comando para tomar solo las 100
primeras salidas del fasta. Head -n 200 “nombre del proteoma” >
primeras_100.fasta. Esta será la salida para pannzer2 y blastp.
head -n 200 “Prodigal.txt” > primeras_100.fasta

B. ANOTACIÓN
Para esta parte vamos a usar el programa PANNZER2, un servidor online para la anotación
basado en términos GO y la secuencia de proteínas. Lo puede encontrar en la página
http://ekhidna2.biocenter.helsinki.fi/sanspanz/

1. Suba los archivos de proteínas de Prodigal y Augustus a Pannzer. Llene todos los
campos básicos de los pasos 2 y 3 (en el paso 3 escoja la opción para enviar resultado
por correo). Corra el programa.
Prodigal
Augustus

2. En la salida identifique las funciones a las que están asociadas sus genes. Realice un
diagrama de barras o circular para representar los resultados.
Prodigal
Augustus
3. Con lo anterior responda, ¿Cuáles son las funciones predominantes de su
organismo? y ¿Tiene esto sentido con el tipo de organismo que es?
Para prodigal el organismo que se obtuvo con BLAST fue Mycobacterium tuberculosis y las
funciones predominantes son las correspondientes al citoplasma, la pared celular, la
membrana plasmática, la unión del ATP e la inicialización y la replicación del DNA; estas
funciones son acordes al organismo porque este patógeno tiene todas las estructuras
mencionadas que cumplen una gran importancia en los procesos infectivos y de
agrupamiento. Aunque con un porcentaje pequeño, también se tiene la resistencia a los
antibióticos y esta función ayudaría a estar más seguros de la anotación de los genes para
esclarecer las funciones, dado que este organismo es de importancia clínica y se ha
reportado en los últimos años la resistencia a los antibióticos.
Para augustus el organismo que se obtuvo con BLAST fue Malassezia restricta y las
funciones predominantes son las correspondientes al citoplasma, la pared celular, la
membrana plasmática, la unión del ATP e la inicialización y la replicación del DNA; estas
funciones son acordes al organismo porque este patógeno tiene todas las estructuras
mencionadas que cumplen una gran importancia en los procesos infectivos. Sin embargo,
la función de resistencia a antibióticos debería referirse a resistencia a antifúngicos en este
caso.
En conclusión, la anotación de las funciones para los dos organismos es acorde a las
funciones que tendrían y predominan en ambos las referentes a la pared celular, el
citplasma y la membrana plasmática.

C. REVISIÓN DE LA ANOTACIÓN Paula


Para anotar el genoma se debe hacer búsqueda de elementos transponibles, repeticiones,
péptidos señal, información de Gene Ontology (GO), búsqueda por homología de proteínas
ya anotadas en otros organismos. Para este caso, vamos a buscar en BLASTp que evidencia
hay de que los CDS predichos son genes (mediante identidad y ontología).

Para entregar:

1. Con el archivo salida de prodigal y las lecturas que escogió de Augustus corra un
BLASTp (en el cluster) contra la base de datos no redudante, y con los mejores hits
decida si son genes previamente establecidos o no lo son. Describa cuales tienen
anotación y cuáles no. Represéntelo en una gráfica de barras.
De acuerdo a los resultados obtenidos son genes previamente establecidos, de los
cuales ninguno tiene anotación.

2. Usando la salida de PANNZER y comparando con la salida de blast, intente describir


la función de los genes no anotados.

Según los resultados obtenidos, la función de los genes es la regulación de la replicación


de DNA y su debida replicación. Así mismo, participan en la biosíntesis de ADP y su
desfoforilación.

También podría gustarte