Está en la página 1de 17

Estructura de la presentación – exposición de bioinformática.

*No olvidar: 70% de la diapositiva con letra máximo y poner imágenes en cada
diapositiva, de no ser posible usar diagramas o mapas conceptuales*
Este documento está abierto a modificación.
1. Tema (carátula) [persona 1]
Genómica funcional: anotación de genomas
Contenido (índice)
2. Objetivos – Introducción [persona 1]
¿Qué es genómica funcional?
-Genómica La genómica es una ciencia que se enfoca al estudio de los genomas así como
los genes que contienen, sus funciones, las interacciones entre ellos y con los factores
ambientales. El estudio de los genomas incluye los mapas genómicos, las secuencias
genómicas y las funciones génicas. La genómica, por lo tanto, se puede considerar una
rama de la genética que estudia los organismos en términos de sus genomas. El Proyecto
del Genoma Humano es el primer paso para el conocimiento de los humanos a nivel
molecular. A partir de la finalización de la fase de secuenciación de los nucleótidos que lo
constituyen, han surgido muchas preguntas que permanecen sin respuesta, incluyendo la
función de los 30, 000-35, 000 genes humanos estimados. Tampoco se sabe la función de
los polimorfismos de nucleótido sencillo (SNP, single nucleotide polymorphism), o de las
regiones no codificantes y repetidas del genoma humano. Si la era genómica pudiera tener
una fecha precisa de nacimiento correspondería al 14 de abril del 2004. En esta fecha el
Proyecto del Genoma Humano puso fin a la era pregenómica con el anuncio de que había
completado la última meta que se había propuesto, la secuencia completa del genoma
humano. La marcha del progreso de la genómica es ilustrada por el hecho de que esta meta
se alcanzó antes de lo previsto. 3.-Genómica estructural La genómica estructural se enfoca
a la identificación y estudio de las variantes estructurales de secuencia en los genomas.
Dichas variantes pueden ser polimorfismos de un solo nucleótido (SNPs), mutaciones, o
cambios como repeticiones o inserciones de nucleótidos. La genómica estructural estudia
también las estructuras tridimensionales hasta ahora conocidas, de las proteínas y la función
que éstas realizan en los procesos bioquímicos de un organismo, utilizando técnicas
experimentales y simulación por computadora. 4.-Genómica funcional La genómica
funcional es la rama de genómica que determina la función biológica de los genes y sus
productos. 5.-Genómica comparativa La genómica comparativa se enfoca al estudio
comparativo de los genomas estructural y funcionalmente en organismos como el humano,
el ratón, la mosca de la fruta o bacterias como Escherichia coli. El propósito de esta rama
de la genómica es obtener un mejor entendimiento de cómo han evolucionado las especies
y también es útil para determinar la función de los genes y de las regiones no codificantes
de los genomas.
La palabra GENOMICA fue propuesta por Thomas H. Roderick en 1986 para describir la
disciplina cuyo objetivo es mapear y secuenciar el genoma. La genómica funcional trata
de asignar función a las secuencias anónimas generadas por los proyectos genoma. En
realidad, lo que hacen estos proyectos es simplemente transferir la información digital del
ADN a ficheros de ordenador.
La genómica funcional es la ciencia que permitirá comprender como funciona el
genoma en su conjunto, a través de la expresión controlada de todos y cada uno de sus
genes.

 Definición de anotación de genomas (una diapo o dos)


Se denomina anotación de un genoma a la tarea de identificar y asignar funciones a los
distintos elementos presentes en la secuencia genética de un organismo (Stein, 2001). La
anotación puede realizarse de forma automática o manual.
La anotación del genoma es el proceso de encontrar elementos funcionales en un ensamblaje
del genoma. Generalmente, estos toman la forma de genes que codifican proteínas, pero
también pueden incluir transcripciones no codificantes ( 45 ), configuración de cromatina (
46 ), hipersensibilidad a la ADNasa ( 47 ), islas CpG ( 48 ) y variación de la población ( 49 , 50
).
Si bien la anotación manual es más laboriosa, es a menudo más precisa y produce menos
errores que la automática (Rouze et al., 1999). Los métodos de anotación basados en
homología se basan en la comparación de las secuencias de distintas especies, con el fin de
inferir sus correspondientes funciones.
Estos métodos asumen que secuencias muy similares deben 11 desempeñar las mismas
funciones en especies distintas, ya que derivan de una secuencia ancestral común y han sido
sometidas a los mismos procesos evolutivos (Koonin, 2001). La tarea de anotar
automáticamente conjuntos de genomas se ha considerado desde que se lanzaron los primeros
genomas completos a mediados de la década de 1990 ( 51 - 53 ). Esta tarea a menudo se divide
en dos categorías: la predicción ab initio, o la predicción computacional de la estructura exón-
intrón mediante modelos estadísticos, y enfoques basados en la alineación de secuencias, que
mapean cualquier etiqueta de secuencia expresada (EST), ADN complementario (ADNc) o
secuencias de proteínas en una secuencia ensamblada para descubrir transcripciones ( 38 ).
Algunas canalizaciones de anotaciones combinan ambas fuentes de predicción de
transcripciones para generar un conjunto de anotaciones final
Los métodos ab initio, sin embargo, intentan identificar los genes a partir de características
de la propia secuencia, como la existencia de las pautas abiertas de lectura (ORF, open
reading frames).
Los pseudogenes, aunque son genéticamente similares al gen funcional original,
no se expresan y frecuentemente contienen numerosas
mutaciones. Pseudogenes: Consisten en secuencias de ADN muy similares a los
genes conocidos, pero no son funcionales.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6450745/
https://bioinfo2.ugr.es/genomicafuncional/

http://dspace.umh.es/bitstream/11000/3562/1/TFG%20Gallego%20Zaragoza
%2CAinoa.pdf
3. Marco teórico [persona 2-3-4]
 Anotación estructural Persona 2
1. Método ab initio o de novo
2. Método por comparación
La anotación estructural es responsable de detectar genes, sus localizaciones en la secuencia, la
estructura de los intrones y exones que lo componen y predecir las secuencias de proteínas que
codifican. Por tanto, se pueden utilizar diferentes métodos:

La anotación estructural está relacionada con la identificación de genes, en conjunto con regiones
génicas como codones de iniciación y terminación, regiones no traducidas (UTR), elementos
transponibles, sitios de splicing, regiones promotoras y reguladoras, islas CpG, sitios poliA,
pseudogenes, entre otros elementos biológicamente importantes
Método ab initio: procedimiento que utiliza solamente las propiedades de la secuencia de ADN
para predecir la localización de genes. Este método se basa en sensores y detectores de contenido
para discriminar las regiones codifcantes y no codificantes y, a partir de ellas, inferir dónde está el
gen. El método ab initio utiliza algoritmos estadísticos o de reconocimiento de patrones para
determinar si la secuencia de interés es codificante o no, mediante la detección de patrones o
motivos específicos en la secuencia

Método basado en homología: utiliza conceptos de la conservación evolutiva, como la homología,


para deducir la localización y estructura de genes
Es la relación que existe entre dos partes orgánicas diferentes cuando sus determinantes genéticos
tienen el mismo origen evolutivo. Las estructuras homólogas son estructuras que son similares en
organismos relacionados porque se heredaron de un ancestro común. Estas estructuras pueden o no tener la
misma función en los descendientes

Método por comparación identifica zonas de alta similitud en organismos relacionados o en bases
de datos de proteínas para reconocer las regiones codificantes. Sin embargo, este método es
menos exitoso en la identificación de nuevos genes y en nuevos organismos, ya que las bases de
datos están sesgadas hacia los genes altamente expresados en los organismos más estudiados
(Aguilar & Falquet, 2015)

La anotación estructural puede realizarse a nivel de nucleótidos y a nivel de proteínas, sin


excluirse mutuamente. La anotación a nivel de nucleótidos pregunta ¾dónde? están las partes
relevantes del genoma y tiene como objetivo identicar puntos de referencia genómica, genes,
ARN no codicantes, regiones de regulación, repeticiones, duplicaciones y mutaciones. Por otro
lado, la anotación a nivel proteico contesta a la pregunta ¿qué?, buscando recopilar un catálogo
denitivo de las proteínas de los organismos a la vez que las nombra .

Existe una innidad de programas que pueden ser utilizados para diferentes objetivos de la
anotación estructural. BLASTn4 y programas basados en búsqueda de similitudes buscan puntos
de referencia genómica, mientras BLASTx4 puede ser utilizado para encontrar genes y
RepeatMasker42 es aplicado para identicar y mapear repeticiones.

http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0253-570X2015000200008
 Anotación funcional Persona 3
1. Métodos basados en detección de homología (búsqueda de secuencias homólogas
en bases de datos)
2. Métodos basados en comparación de genomas.
3. Métodos basados en el análisis de las secuencias de las proteínas.
4. Métodos basados en la estructura de las proteínas (búsqueda de motivos y dominios
funcionales)
NICCOLLY
Anotación Funcional
Pero que entendemos por Anotación Funcional, bueno por anotación funcional
denominamos al proceso que consiste en unir y detallar la información biológica de las
secuencias de genes o proteínas. Cuyo objetivo en la anotación de genomas es definir la
función que tiene cada uno de los genes que componen un genoma y de las proteínas que lo
codifican.
Consideramos 3 rutas paralelas para predecir la función de un gen, entre ellos están los
Métodos basados en la detección de homología, aquellos basados en comparación de
genomas y los basados en el análisis de las secuencias de proteínas.
Homología Diapositiva
Primero que nada debemos recordar las diferencias entre Homología, Ortología y Paralogía.
2 genes son homólogos cuando poseen similitud entre sí.
Son ortólogos cuando esta similitud deriva de una ascendencia común y por lo tanto tienen
la misma función.
Y son parálogos cuando la similitud se produce dentro del mismo genoma a causa de la
duplicación de un gen *y por lo tanto la función es diferente.*
Ortólogos Genes que comparten el último ancestro común y cuya divergencia se debe a la especiación. Los mismos genes en distintas especies. Parálogos Genes que debido a una
duplicación, ya no comparten el último ancestro. Frecuentemente tienen funciones distintas. Copias que tiene la posibilidad de evolucionar.

Entonces dos secuencias que comparten un ancestro común se denominan secuencias


homólogas y la predicción de homología se realiza extrayendo la información conservada
de las secuencias para luego compararlas y de aquellos patrones que coincidan se podrá
inferir la función.
*Por lo tanto, después de una búsqueda e identificación de homólogos, se requiere de
herramientas adicionales como es la alineación de secuencias, en donde se observa si la
secuencia coincide con la secuencia diana*
Diapositiva
Bueno el fundamento de identificar homólogos es que las regiones codificantes se van a
conservar en todas las especies y por lo tanto, van a conservar la capacidad de hibridar o combinarse.
Una de las estrategias es la divergencia (dos secuencias pueden haber divergido tanto que sea imposible reconocerlas, o diferenciarlas de la
Paralogía) , Transferencia horizontal de genes (genes adquiridos recientemente pueden también impedir la identificación de los verdaderos

ortólogos en el organismo receptor), Duplicación o pérdida de genes

Y entre los programas usados tenemos a BLAST


Diapositiva Comparación de genomas
Otro método es la comparación de genomas
La cual nos va a ayudar a revelar el grado de conservación y la transferencia ausencia o
adquisición de genes entre los genomas
En donde la secuencia del genoma de consulta se compara con una colección de secuencias
del genoma objetivo que tiene una función conocida o también predicha

Para comprender la conservación de las secuencias entre los genomas se puede realizar una
comparación directa entre genomas o el alineamiento del mismo. Sin embargo, comparar el
genoma entero resulta una tarea tediosa
Diapositiva
La comparación de genomas se fundamente en que se ocupa de las similitudes y
divergencias que existen entre genomas de distintos organismos para poder determinar
cómo ha actuado la selección natural. Se mantendrían estables en el tiempo aquellos elementos que confieran semejanzas entre distintas especies
(selección estabilizadora), mientras que los elementos causantes de las discrepancias entre especies deberían divergir (selección direccional). Por último, aquellos elementos que no
aportan nada relevante desde el punto de vista del proceso evolutivo del organismo no serán conservados (selección neutral)

Además una de las estrategias que emplea el método es el uso de vocabularios controlados
para describir las funciones, como por ejemplo la ontología genética. Entonces que es un
vocabulario controlado, este es un conjunto restringido y estandarizado de términos que
están definidos y diseñados a fin de reducir la ambigüedad al describir un función . *GO se
puede usar para todo el proceso de anotación funcional, sin embargo la comparación forma parte de todos los métodos
anteriores si se dan cuenta*

Y uno de los programas que se puede emplear es GENOMESCAN


Diapositiva Análisis de proteinas
Por otro lado para el análisis de las secuencias de proteínas, nos basamos en que las
proteínas presentan dominios y motivos, que nos van a servir para caracterizar las funciones
de las secuencias desconocidas.
Un motivo es un patrón de secuencia corto conservado que habitualmente se asocia con
distintas funciones y a menudo se le asocia con los dominios.
Un dominio es también un patrón o región de secuencia conservada con una función
estructural independiente y específica. Los dominios son más largos y constan de mas o menos 40 a 700
aminoácidos, constan Por lo general de mas o menos 100 aminoácidos. Estos pueden incluir
o no 1 o varios motivos.
Diapositiva
El análisis nos va a permitir caracterizar funciones de proteínas que son desconocidas,
porque una secuencia de proteína recién obtenida a menudo carece de similitud con
secuencias de base de datos de funciones conocidas en toda su longitud.
Además debemos considerar que para este método es importante conocer la estructura
de las proteínas.
También es importante resaltar que a partir de un alineamiento múltiple de secuencias, se
van a hallar regiones conservadas (coincidencias) que consideraremos motivos y dominios,
los cuales nos van a servir para almacenar la información en una base de datos y así poder
identificar la función de la proteína desconocida que está presente en los patrones o
regiones. Entre los programas tenemos GlobPlot e InterPro
http://www.pdg.cnb.uam.es/cursos/Leon_2003/pages/Genomas_Anal_Anot/2_2_Anal.html
http://dspace.umh.es/bitstream/11000/3562/1/TFG%20Gallego%20Zaragoza
%2CAinoa.pdf

http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0253-570X2015000200008
 Análisis del contexto del genoma y predicción funcional. Persona 4
 Aplicaciones (En la investigación biológica: desarrollo de hipótesis o análisis de
genómica comparativa)
https://www.facebook.com/wintergenomics/videos/587146095262760
 Errores en la anotación del genoma
http://compbio.berkeley.edu/class/c246/Reading/brenner-1999-tig.pdf

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6450745/
Persona 4
Diapositiva 1
Análisis del contexto y predicción de genes
En general, las funciones de proteínas codificadas en genomas secuenciados se predicen
extrapolando las funciones de sus homólogos caracterizados experimentalmente. Este
análisis continúa como la metodología central de la genómica ya que produce la mayor
parte de la información útil.
La noción de “contexto” incluye todos los tipos de asociaciones entre genes y proteínas en
el mismo o diferentes genomas que pueden apuntar a interacciones funcionales y justificar
un veredicto de “culpa por asociación”.
Esto se refiere a que si el gen A está involucrado en la función X y se obtiene evidencia de
que el gen B se asocia funcionalmente con A, entonces B también está involucrado en X.
De hecho, los genes cuyos productos están implicados en funciones estrechamente
relacionadas deberían estar presentes o ausentes en un determinado conjunto de genomas,
es decir tener patrones fileticos similares, y deben expresarse de forma coordinadas, es
decir tener patrones de expresión similares.
Usando esta lógica se nos brinda una potencial herramienta de asignar genes que no tienen
homólogos caracterizados experimentalmente, aunque las predicciones sean bastante
generales.
Diapositiva 2
Los genes que codifican proteínas que funcionan en el mismo sistema celular o vía tienden
a tener patrones fileticos similares, por lo que esta tendencia podría usarse en la dirección
inversa, para deducir funciones de genes no caracterizados. Sin embargo, en la vida real los
patrones fileticos se ven afectados por fenómenos evolutivos como la redundancia parcial
en las funciones de los genes, el desplazamiento de genes no ortólogos y la pérdida de
genes específicos de linaje.
Diapositiva 3
A pesar de la tendencia para tener patrones similares, no existe una vía en la que todos
miembros muestren el mismo patrón de forma exacta, debido a esta variabilidad, el poder
predictivo es limitado. Sin embargo, al apoyarse en otras líneas de evidencia, dichas
observaciones resultan útiles.
Por ejemplo, la proteína no caracterizada YchF se predice mediante análisis de la secuencia
proteica como una GTPasa, además contiene un dominio TGS de unión al ARN C-terminal.
Junto con la ubicuidad de esta proteína y con el hecho de que los miembros arqueales de la
COGG se agrupan con eucariotas, se sugiere que YchF es un factor de traducción universal
no caracterizado. Esto se respalda por la yuxtaposición del gen ychF con el gen peptidil
tRNA hidrolasa (pth) en varias proteobacterias cuya función es hidrolizar los peptidil-
tRNAs que se caen de forma prematura de los ribosomas durante la síntesis de proteínas.
En esto recae que los métodos de contexto son mejores cuando se complementan entre sí.
Entre otras consideraciones, la culpa por asociación también se puede establecer mediante
la identificación de grupos de genes que se eliminan conjuntamente en un linaje dado, este
enfoque aprovecha el fenómeno de la perdida de genes específicos del linaje. Además, en
muchas ocasiones, el desplazamiento de genes no ortólogos se manifiesta en patrones
fileticos complementarios en lugar de idénticos o similares.
Diapositiva 4
Fusiones de genes (dominios) o también llamado culpa por asociación
PD (Parte no dicha): Se debe saber que el término “dominio” se designa a una región de
una proteína con interés biológico o funcional y que también puede referirse a una región
de la estructura tridimensional de una proteína funcional que incluye regiones no
necesariamente contiguas en la secuencia de aminoácidos.
Diapositiva 5
Es común que las proteínas que interactúan funcionalmente y están codificadas por genes
separados en ciertos organismos se fusionen en una única cadena polipeptídica en otros. La
ventaja de una arquitectura multidominio es que facilita el ensamblaje del complejo
funcional y permite la canalización intermedia de la reacción.
El supuesto básico en el análisis de las fusiones de dominios es que una fusión se fijará
durante la evolución solo cuando proporcione una ventaja selectiva al organismo en forma
de interacción funcional mejorada entre proteínas, por tanto, encontrar proteínas fusionas
en una especie sugiere que podrían interactuar física o funcionalmente en otras especies.
El enfoque de la culpa por asociación permite la expansión de asociaciones funcionales
entre componentes conectados transitivamente, en otras palabras, la detección de
combinaciones de dominios AB, BC y CD sugiere que los dominios A, B, C y D forman
una red funcional.
Diapositiva 6
Finalmente, existen errores en la anotación genómica que conllevan a ciertos problemas.
Este problema aumenta de forma drástica más allá del genoma de un organismo, ya que os
genes con funciones incorrectas se ingresan en bases de datos públicas que luego en
búsquedas posteriores en dichas bases provocan que los errores se propaguen a futuras
asignaciones funcionales.
Según el estudio de Galperin & Koonin de 1998 realizado con anotaciones genómicas de
Mycoplasma genitalium y Methanococcus jannaschii, las causas más comunes de
predicciones cuestionables son: 1) el uso no crítico de anotaciones de entradas de bases de
datos existes, junto a que solo toman en cuenta la anotación del mejor resultado arrojado
por la base de datos. 2) El enmascaramiento insuficiente de regiones de baja calidad en
secuencias proteicas que da como resultado coincidencias falsas que oscurecen las
relevantes. 3) el que se ignore la organización multidominio de las proteínas consultados,
así como realizar inferencias funcionales no críticas sobre la base de las funciones de genes
vecinos en un operón. 4) y por último, el desplazamiento de genes no ortólogos, es decir, la
participación de proteínas estructuralmente no relacionas en la misma función.
Otros errores mencionados por diferentes autores son: la nomenclatura empleada al realizar
la anotación por lo que causa confusión entre los investigadores, errores en el ensamblaje,
entre otros.
¡Gracias!

4. Ejemplos prácticos [persona 5]


Buscar programas que se usen para la anotación de genomas (características, comparación,
metodología) / usar el tutorial (https://training.galaxyproject.org/training-material/topics/genome-
annotation/tutorials/genome-annotation/tutorial.html).

*Realizar un diagrama de flujo de ser posible*


PRACTICA

Diapositiva 1

La anotación de genomas

o Definición: es el proceso de juntar la información biológica a las secuencias de ADN.


o Consiste en tres pasos fundamentales:
1. Identificar las partes del genoma que codifica o no proteínas (Anotación estructural) Al
principio, debe identificar las estructuras del genoma que codifican proteínas.
Este paso de la anotación se denomina "anotación estructural".
Anotación estructural .

· Contiene la identificación y ubicación de ORF marcos de lectura abiertos


· la identificación de estructuras génicas y regiones codificantes
· la ubicación de motivos reguladores (es un elemento conservado en la secuencia
de aminoácidos o nucleótidos, que habitualmente se asocia con una función concreta)

2. Identificar los elementos en el genoma, ( predicción de genes) (la identificación


algorítmica de trozos de secuencia)

Las herramientas mas comunes para la predicción de genes son

Augustus (para eucariotas y procariotas)

l (solo para procariotas).


La predicción de genes es el proceso de identificación de regiones que codifican genes, a saber.
genes que codifican proteínas, genes de ARN y regiones reguladoras en el ADN genómico. Es uno
de los primeros pasos para comprender una especie después de secuenciar y ensamblar el
genoma. La predicción genética es uno de los pasos clave en la anotación del genoma. Antes del
advenimiento de la bioinformática y sus sólidas herramientas computacionales, la predicción o el
descubrimiento de genes era un proceso laborioso basado en una elaborada experimentación con
células vivas. Ahora, es posible predecir genes y sus funciones basándose únicamente en la
secuencia.

Las regiones codificantes son aquellas partes del gen cuya información (secuencia de


nucleótidos) se utiliza para sintetizar la proteína correspondiente.

Las partes de la secuencia de genes que contienen la información para producir


las proteínas se llaman exones, ya que se expresan, mientras que las partes de la
secuencia del gen que no codifican se llaman intrones, porque están en medio o
interfieren con- los exones.
Existe una diferencia en la predicción de genes para genomas procarióticos y eucarióticos. El
descubrimiento de genes en genomas procariotas es relativamente menos difícil debido a la
densidad genética más alta típica y la ausencia de intrones en las regiones codificantes de
proteínas. Por otro lado, para los eucariotas, los genes están separados por intrones, lo que
dificulta el proceso de predicción de genes.

3. Determinar la información biológica - Anotación funcional (La anotación de genes


funcionales significa la descripción de la función bioquímica y biológica de las
proteínas.)
· Función bioquímica.
· Función biológica.

Los posibles análisis para anotar genes pueden ser, por ejemplo:

· búsquedas de similitud (BLAST) Para búsquedas de similitud usamos NCBI


BLAST + blastp para encontrar proteínas similares en una base de datos
https://training.galaxyproject.org/training-material/topics/genome-annotation/tutorials/genome-
annotation/tutorial.html#introduction-into-file-formats

Diapositiva 2

Proceso genérico para la anotación del genoma bacteriano

file:///C:/Users/Usuario/Downloads/bbs007%20(1).en.es%20(2).pdf

Aquí describimos un proceso muy general utilizado para la anotación del genoma
bacteriano (Figura 1).
La mayoría de los canales de anotación emplean software de predicción de genes, el más
común de los cuales es GLIMMER [13]--- Glimmer es un sistema para encontrar genes en
el ADN microbiano, especialmente los genomas de bacterias, arqueas y virus. Glimmer
(Gene Locator y Interpolated Markov ModelER) utiliza modelos de Markov interpolados
(IMM) para identificar las regiones codificantes y distinguirlas del ADN no codificante.
· Esto utiliza un conjunto de secuencias de referencia para entrenar un modelo y luego
utiliza ese modelo para predecir regiones codificantes en el genoma de interés.
· Una vez que se han identificado las regiones codificantes, se alinean con una anotación
del genoma de referencia o con la totalidad de UniProt [17] utilizando herramientas de
alineación de secuencia rápida (BLAST ), los primeros éxitos se aceptan como homólogos y
la anotación se transfiere a través de genes que muestran una gran similitud.
· Otras características, como los ARNt y los ARNr, pueden agregarse utilizando otro software
de predicción
· UniProt : es un repositorio central de datos gratuito sobre proteínas.
En sistemas de predicción de genes basados en evidencias, en el genoma objetivo se buscan
secuencias que sean similares a la evidencia externa, que toma la forma de una secuencia
conocida de un ARN mensajero (ARNm) o producto proteico. Dada una secuencia de ARNm,
es trivial derivar una única secuencia genómica de ADN desde la cual haya tenido que ser
transcrita.

UniProt : es un repositorio central de datos gratuito sobre proteínas.


Un dominio es un término más genérico que designa una región de una proteína con interés
biológico funcional o estructural. También se llama dominio a una región de la estructura
tridimensional de una proteína con una función concreta, que incluye regiones no
necesariamente contiguas en la secuencia de aminoácidos.
EXPLICACION
El software de predicción genética a veces asigna sitios de inicio / terminación incorrectos.
Glimmer, por ejemplo, asigna el sitio de inicio como el codón de inicio más aguas arriba
[5]. Al buscar RBS, se puede inferir y reasignar el sitio de inicio; RBSFinder hace esto
buscando motivos como el patrón de secuencia de Shine-Dalgarno [5]. Para los sitios de
terminación, TransTerm busca terminadores de transcripción independientes de rho para
asignar el sitio de terminación correcto [6]. Además de corregir los sitios de inicio /
terminación, estas características deben agregarse a la anotación, utilizando las etiquetas
'RBS' y 'terminator' respectivamente. Las regiones de conservación dentro de proteínas,
como motivos y dominios, deben agregarse a la anotación después del paso de búsqueda de
genes. Hay muchas bases de datos que almacenan familias de proteínas como ProSite,
PRINTS y Pfam [4, 7, 8]. InterproScan puede realizar búsquedas en una variedad de bases
de datos de dominio / motivo [30]. A los accesos a bases de datos de motivos / dominios se
les debe asignar el calificador 'db_xref' dentro de la función CDS correspondiente [9, 10].
Las áreas de transferencia horizontal de genes (HGT), como las islas de patogenicidad y el
profago, pueden predecirse observando las asimetrías en la composición de codones y el
contenido de GC, ya que a menudo difieren entre las áreas de HGT y el resto del genoma
[31]. A menudo se asocian con la presencia de integrasas, transposasas y elementos IS [31].
Existen herramientas de software para predecir estos [32, 33], y Langille los revisa y
compara, et al. [34]. Existen pautas claras para anotar fagos, esto debe asignarse bajo la
característica 'fuente' con el nombre del bacteriófago en el calificador 'organismo' y el tipo
de secuencia en 'mol_type' (generalmente ADN genómico). No existe una etiqueta de
anotación específica para otras IG, por lo que estas deben anotarse como características
diversas. Los propios elementos genéticos móviles utilizan la etiqueta 'mobile_ element
Diapositiva 2

https://www.redalyc.org/articulo.oa?id=371852108019
1.Se utilizó la secuencia del genoma borrador de M. haemolytica A2 Ovino, disponible
en la base de datos del NCBI (Número de accesión: ACZX00000000).

2. El genoma fue obtenido en formato FASTA y en 144 contigs (son segmentos de ADN
superpuestos, que juntos representan una región consenso de ADN.).

3. Los contigs fueron concatenados en un solo archivo multifasta, utilizando el


programa CAP3 (Programa de ensamblaje de secuencia)(Huang y Madan, 1999).

4. Las secuencias codificantes (CDS) fueron identificadas en los mismos contigs


utilizando el conjunto de programas pertenecientes a Glimmer 3.0.2 (Delcher et al.,
2007).

Parte 2 del primer cuadro

1.Ademas, El training set of genes fue obtenido a partir de todos los contigs del
genoma, con el programa long-orfs (ste programa encuentra marcos de lectura abiertos
largos en el archivo nombrado en la línea de comando, elimina aquellos que se superponen
demasiado e imprime las coordenadas resultantes en la salida estándar) , y la lista de
coordenadas de secuencias fueron extraídas con el programa extract.

2. Los training set of genes fueron utilizados para construir el Modelo de Contexto
Interpolado (ICM), mediante el programa build-ICM. (Este programa lee (desde stdin), el
archivo generado por 'extract', que consta de una etiqueta seguida de un espacio en blanco,
luego el marco de lectura abierto (orf) seguido de una nueva línea. Luego, el programa
construye un modelo de Markov selectivo usando la siguiente idea)

3.Este modelo fue finalmente utilizado en el programa Glimmer para la identificación


de genes presuntivamente codificantes de proteínas, considerando al genoma de tipo
lineal por estar en contigs.

Anotación estruccitural-predicción (cuadro 2)

Asimismo, un script en Perl fue utilizado para adicionar a la lista de coordenadas de


los marcos abiertos de lectura (ORFs, orf.predict),

un campo extra que especifique los contigs específicos donde pertenecen dichas
coordenadas, necesarios para ser extraídos mediante el programa multi-extract
(orfs.seq).

Previo a la anotación funcional, cada CDS (secuencia codificante) fue traducida a


secuencias de aminoácidos (protein.seq), utilizando el programa transeq del paquete
EMBOSS (Rice et al., 2000) aplicando el código genético estándar de bacterias.
Finalmente, Estos genes potenciales traducidos fueron anotados por una búsqueda
local de homología de secuencias contra la base de datos completa de proteínas no
redundantes (nr) del NCBI, usando el programa BlastP (compara proteínas con una
base de datos de proteínas). del paquete BLAST

5. Conclusiones [persona 6]
De todo el trabajo (cada persona realiza una conclusión de su tema)
6. Resumen de un artículo científico actualizado [persona 6]

Una solución centrada en el dominio para la genómica funcional a través de dcGO


Predictor

Las anotaciones computacionales / manuales de las funciones de las proteínas son una
de las primeras rutas para dar sentido a un genoma recién secuenciado.
las propiedades estructurales más evidentes de la proteína son los dominios, los cuales
pueden llevar a cabo muchos aspectos de las funciones de las proteínas, y se utilizan
ampliamente como predictores funcionales ya que la información estructural a nivel de
dominio es muy relevante para las funciones biológicas. Por lo tanto, la generación de
anotaciones funcionales centradas en el dominio es necesaria para realizar dicha
predicción automatizada de la función de las proteínas.
Biológicamente, las anotaciones GO centradas en el dominio (dcGO) resultantes han
llevado a cabo señales funcionales ocultas bajo las proteínas anotadas existentes. Que es
GO? Gene Ontology es una iniciativa de bioinformática que tiene como objetivo
estandarizar la representación de los genes de todas las especies
Con las anotaciones de dcGO a mano, desarrollamos 'dcGO Predictor' para predecir las
funciones de las secuencias objetivo en el experimento CAFA que es la evaluación crítica
de la anotación de funciones
RESULTADOS
En la tabla resume las estadísticas en términos de dominios/supradominios anotables,
términos GO utilizados, el total de anotaciones observadas y la densidad de anotaciones
(definida como la relación entre lo observado y lo teórico).
En la segunda gráfica, se representa el rendimiento de dcGO Predictor en el experimento
CAFA antes mencionado en donde se presenta la precisión Vs la tasa de verdaderos
positivos. Las líneas presentadas demuestran cada uno de los 7 conjuntos de secuencias,
estas predicciones se basaron en las anotaciones de GO tanto de dominios y
supradominios en donde como resultado se obtuvo que las predicciones de dcGO
tuvieron un éxito notable en la recuperación de verdaderas anotaciones funcionales. La
predicción produjo los mejores resultados para Euk_set6. También encontramos que el
uso de anotaciones GO en MF (función molecular) superó el uso de aquellos en BP
(proceso biológico) lo que indica que el aspecto funcional molecular es más relevante
para describir los dominios de proteínas.

CONCLUSIÓN

Se presentó un enfoque de ontología genética centrado en el dominio que utiliza


anotaciones a nivel de proteína e información estructural para detectar señales
funcionales a los dominios/supra-dominios.

'dcGO Predictor' es una herramienta de anotación functional el cual a través de


anotaciones a nivel de proteína e información structural permite detectar señales
funcionales de los dominios/supra-dominios.

Se demostró su utilidad para la predicción de la función de las proteínas, este tipo de


información funcional centrada en los dominios debería incorporarse al estudio futuro de
anotaciones genómicas.

'dcGO Predictor' es muy prometedor para contribuir a una comprensión funcional de los
genomas centrada en los dominios en la era de la secuenciación de nueva generación

7. Bibliografía
Todos ponen sus propias referencias y al final de se unen.
8. Actividad práctica
Persona 6
9. Cuestionario
Persona 1 – 2 preguntas
Persona 2 – 2 preguntas
Persona 3 – 2 preguntas
Persona 4 – 2 preguntas
Persona 5 – 2 preguntas (Dependiente del contexto)
Bibliografía
Ainoa Gallego Zaragoza. 2017. Secuenciación, Ensamblaje de Novo y Anotación Del
Genoma Del Cloroplasto Del Ajo (Allium Sativum).
Handrick, Susann et al. 2020. “Whole Genome Sequencing and Phylogenetic Classification
of Tunisian SARS-CoV-2 Strains from Patients of the Military Hospital in Tunis.”
Virus Genes 56(6): 767–71. https://doi.org/10.1007/s11262-020-01795-9 (December
15, 2020).

Barnes, MR. (Ed.) 2007. Bioinformatics for Geneticists: A Bioinformatics Primer for
the Analysis of Genetic Data, 2nd ed. John Wiley and Sons Ltd,

Persona 4
Abascal, F. (2003). Doctor en Ciencias. Análisis de genomas. Métodos para la predicción y
anotación de la función de las proteínas. Universidad Autónoma de Madrid,
Madrid.
Brenner, S. (1999). Errors in genome annotation. Outlook, 15(4), 1-2.
Dias , D. (2011). Máster en Inteligencia Artificial. Estrategia de solución al problema de la
anotación de secuencias de ADN mediante la metodología CommonKADS.
Universidad Complutense de Madrid, Madrid.
Fernández, J. (19 de junio de 2013). Motivos y Dominios. San Pedro Zacantenco, México:
Cinvestav.
Frith, M. (2011). Gentle Masking of Low-Complexity Sequences Improves Homology
Search. PLoS One., 6(12).
Galperin, M., & Koonin, E. (1998). Sources of systematic error in functional annotation of
genomes: domain rearrangement, non-orthologous gene displacement and operon
disruption. In silico Bio., 1(1), 55-67.
Koonin, E., & Galperin, M. (2003). Sequence - Evolution - Function: Computational
Approaches in Comparative Genomics. Boston: Kluwer Academic.
Smith, T., & Zhang, X. (1997). The challenges of genome sequence annotation or "The
devil is in the details". Nature, 15(11), 1222-1223.

Glosario de términos
Patrones filogenéticos/Perfiles fileticos: Un patrón filogenético describe la presencia o
ausencia de un determinado gen en genomas de diferentes especies, lo que refleja la
adquisición y pérdida diferencial de este gen a lo largo de los diversos linajes evolutivos.
Desplazamiento genético no ortólogo: participación de proteínas estructuralmente no
relacionadas en la misma función.
Sucede cuando al producirse una transferencia horizontal de material genético, el
organismo llega tener dos proteínas no homólogas para una misma función y acaba
perdiendo la proteína original.
Enmascaramiento de secuencias:
Se refiere a la tarea de ocultar regiones repetidas del genoma que no representen un gen
funcional y que den lugar a altas coincidencias con otras secuencias y por tanto, se lleguen
a ocultar (o no sea muy notorio) las regiones relevantes del genoma que deseamos
encontrar.
La detección de secuencias homólogas, es decir, descendientes de un ancestro común, es
una tarea fundamental en biología computacional. Esta tarea se ve confundida por tractos
de baja complejidad (como atatatatatat), que surgen con frecuencia e independientemente,
provocando fuertes similitudes que no son homologías.

También podría gustarte