Documentos de Académico
Documentos de Profesional
Documentos de Cultura
*No olvidar: 70% de la diapositiva con letra máximo y poner imágenes en cada
diapositiva, de no ser posible usar diagramas o mapas conceptuales*
Este documento está abierto a modificación.
1. Tema (carátula) [persona 1]
Genómica funcional: anotación de genomas
Contenido (índice)
2. Objetivos – Introducción [persona 1]
¿Qué es genómica funcional?
-Genómica La genómica es una ciencia que se enfoca al estudio de los genomas así como
los genes que contienen, sus funciones, las interacciones entre ellos y con los factores
ambientales. El estudio de los genomas incluye los mapas genómicos, las secuencias
genómicas y las funciones génicas. La genómica, por lo tanto, se puede considerar una
rama de la genética que estudia los organismos en términos de sus genomas. El Proyecto
del Genoma Humano es el primer paso para el conocimiento de los humanos a nivel
molecular. A partir de la finalización de la fase de secuenciación de los nucleótidos que lo
constituyen, han surgido muchas preguntas que permanecen sin respuesta, incluyendo la
función de los 30, 000-35, 000 genes humanos estimados. Tampoco se sabe la función de
los polimorfismos de nucleótido sencillo (SNP, single nucleotide polymorphism), o de las
regiones no codificantes y repetidas del genoma humano. Si la era genómica pudiera tener
una fecha precisa de nacimiento correspondería al 14 de abril del 2004. En esta fecha el
Proyecto del Genoma Humano puso fin a la era pregenómica con el anuncio de que había
completado la última meta que se había propuesto, la secuencia completa del genoma
humano. La marcha del progreso de la genómica es ilustrada por el hecho de que esta meta
se alcanzó antes de lo previsto. 3.-Genómica estructural La genómica estructural se enfoca
a la identificación y estudio de las variantes estructurales de secuencia en los genomas.
Dichas variantes pueden ser polimorfismos de un solo nucleótido (SNPs), mutaciones, o
cambios como repeticiones o inserciones de nucleótidos. La genómica estructural estudia
también las estructuras tridimensionales hasta ahora conocidas, de las proteínas y la función
que éstas realizan en los procesos bioquímicos de un organismo, utilizando técnicas
experimentales y simulación por computadora. 4.-Genómica funcional La genómica
funcional es la rama de genómica que determina la función biológica de los genes y sus
productos. 5.-Genómica comparativa La genómica comparativa se enfoca al estudio
comparativo de los genomas estructural y funcionalmente en organismos como el humano,
el ratón, la mosca de la fruta o bacterias como Escherichia coli. El propósito de esta rama
de la genómica es obtener un mejor entendimiento de cómo han evolucionado las especies
y también es útil para determinar la función de los genes y de las regiones no codificantes
de los genomas.
La palabra GENOMICA fue propuesta por Thomas H. Roderick en 1986 para describir la
disciplina cuyo objetivo es mapear y secuenciar el genoma. La genómica funcional trata
de asignar función a las secuencias anónimas generadas por los proyectos genoma. En
realidad, lo que hacen estos proyectos es simplemente transferir la información digital del
ADN a ficheros de ordenador.
La genómica funcional es la ciencia que permitirá comprender como funciona el
genoma en su conjunto, a través de la expresión controlada de todos y cada uno de sus
genes.
http://dspace.umh.es/bitstream/11000/3562/1/TFG%20Gallego%20Zaragoza
%2CAinoa.pdf
3. Marco teórico [persona 2-3-4]
Anotación estructural Persona 2
1. Método ab initio o de novo
2. Método por comparación
La anotación estructural es responsable de detectar genes, sus localizaciones en la secuencia, la
estructura de los intrones y exones que lo componen y predecir las secuencias de proteínas que
codifican. Por tanto, se pueden utilizar diferentes métodos:
La anotación estructural está relacionada con la identificación de genes, en conjunto con regiones
génicas como codones de iniciación y terminación, regiones no traducidas (UTR), elementos
transponibles, sitios de splicing, regiones promotoras y reguladoras, islas CpG, sitios poliA,
pseudogenes, entre otros elementos biológicamente importantes
Método ab initio: procedimiento que utiliza solamente las propiedades de la secuencia de ADN
para predecir la localización de genes. Este método se basa en sensores y detectores de contenido
para discriminar las regiones codifcantes y no codificantes y, a partir de ellas, inferir dónde está el
gen. El método ab initio utiliza algoritmos estadísticos o de reconocimiento de patrones para
determinar si la secuencia de interés es codificante o no, mediante la detección de patrones o
motivos específicos en la secuencia
Método por comparación identifica zonas de alta similitud en organismos relacionados o en bases
de datos de proteínas para reconocer las regiones codificantes. Sin embargo, este método es
menos exitoso en la identificación de nuevos genes y en nuevos organismos, ya que las bases de
datos están sesgadas hacia los genes altamente expresados en los organismos más estudiados
(Aguilar & Falquet, 2015)
Existe una innidad de programas que pueden ser utilizados para diferentes objetivos de la
anotación estructural. BLASTn4 y programas basados en búsqueda de similitudes buscan puntos
de referencia genómica, mientras BLASTx4 puede ser utilizado para encontrar genes y
RepeatMasker42 es aplicado para identicar y mapear repeticiones.
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0253-570X2015000200008
Anotación funcional Persona 3
1. Métodos basados en detección de homología (búsqueda de secuencias homólogas
en bases de datos)
2. Métodos basados en comparación de genomas.
3. Métodos basados en el análisis de las secuencias de las proteínas.
4. Métodos basados en la estructura de las proteínas (búsqueda de motivos y dominios
funcionales)
NICCOLLY
Anotación Funcional
Pero que entendemos por Anotación Funcional, bueno por anotación funcional
denominamos al proceso que consiste en unir y detallar la información biológica de las
secuencias de genes o proteínas. Cuyo objetivo en la anotación de genomas es definir la
función que tiene cada uno de los genes que componen un genoma y de las proteínas que lo
codifican.
Consideramos 3 rutas paralelas para predecir la función de un gen, entre ellos están los
Métodos basados en la detección de homología, aquellos basados en comparación de
genomas y los basados en el análisis de las secuencias de proteínas.
Homología Diapositiva
Primero que nada debemos recordar las diferencias entre Homología, Ortología y Paralogía.
2 genes son homólogos cuando poseen similitud entre sí.
Son ortólogos cuando esta similitud deriva de una ascendencia común y por lo tanto tienen
la misma función.
Y son parálogos cuando la similitud se produce dentro del mismo genoma a causa de la
duplicación de un gen *y por lo tanto la función es diferente.*
Ortólogos Genes que comparten el último ancestro común y cuya divergencia se debe a la especiación. Los mismos genes en distintas especies. Parálogos Genes que debido a una
duplicación, ya no comparten el último ancestro. Frecuentemente tienen funciones distintas. Copias que tiene la posibilidad de evolucionar.
Para comprender la conservación de las secuencias entre los genomas se puede realizar una
comparación directa entre genomas o el alineamiento del mismo. Sin embargo, comparar el
genoma entero resulta una tarea tediosa
Diapositiva
La comparación de genomas se fundamente en que se ocupa de las similitudes y
divergencias que existen entre genomas de distintos organismos para poder determinar
cómo ha actuado la selección natural. Se mantendrían estables en el tiempo aquellos elementos que confieran semejanzas entre distintas especies
(selección estabilizadora), mientras que los elementos causantes de las discrepancias entre especies deberían divergir (selección direccional). Por último, aquellos elementos que no
aportan nada relevante desde el punto de vista del proceso evolutivo del organismo no serán conservados (selección neutral)
Además una de las estrategias que emplea el método es el uso de vocabularios controlados
para describir las funciones, como por ejemplo la ontología genética. Entonces que es un
vocabulario controlado, este es un conjunto restringido y estandarizado de términos que
están definidos y diseñados a fin de reducir la ambigüedad al describir un función . *GO se
puede usar para todo el proceso de anotación funcional, sin embargo la comparación forma parte de todos los métodos
anteriores si se dan cuenta*
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0253-570X2015000200008
Análisis del contexto del genoma y predicción funcional. Persona 4
Aplicaciones (En la investigación biológica: desarrollo de hipótesis o análisis de
genómica comparativa)
https://www.facebook.com/wintergenomics/videos/587146095262760
Errores en la anotación del genoma
http://compbio.berkeley.edu/class/c246/Reading/brenner-1999-tig.pdf
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6450745/
Persona 4
Diapositiva 1
Análisis del contexto y predicción de genes
En general, las funciones de proteínas codificadas en genomas secuenciados se predicen
extrapolando las funciones de sus homólogos caracterizados experimentalmente. Este
análisis continúa como la metodología central de la genómica ya que produce la mayor
parte de la información útil.
La noción de “contexto” incluye todos los tipos de asociaciones entre genes y proteínas en
el mismo o diferentes genomas que pueden apuntar a interacciones funcionales y justificar
un veredicto de “culpa por asociación”.
Esto se refiere a que si el gen A está involucrado en la función X y se obtiene evidencia de
que el gen B se asocia funcionalmente con A, entonces B también está involucrado en X.
De hecho, los genes cuyos productos están implicados en funciones estrechamente
relacionadas deberían estar presentes o ausentes en un determinado conjunto de genomas,
es decir tener patrones fileticos similares, y deben expresarse de forma coordinadas, es
decir tener patrones de expresión similares.
Usando esta lógica se nos brinda una potencial herramienta de asignar genes que no tienen
homólogos caracterizados experimentalmente, aunque las predicciones sean bastante
generales.
Diapositiva 2
Los genes que codifican proteínas que funcionan en el mismo sistema celular o vía tienden
a tener patrones fileticos similares, por lo que esta tendencia podría usarse en la dirección
inversa, para deducir funciones de genes no caracterizados. Sin embargo, en la vida real los
patrones fileticos se ven afectados por fenómenos evolutivos como la redundancia parcial
en las funciones de los genes, el desplazamiento de genes no ortólogos y la pérdida de
genes específicos de linaje.
Diapositiva 3
A pesar de la tendencia para tener patrones similares, no existe una vía en la que todos
miembros muestren el mismo patrón de forma exacta, debido a esta variabilidad, el poder
predictivo es limitado. Sin embargo, al apoyarse en otras líneas de evidencia, dichas
observaciones resultan útiles.
Por ejemplo, la proteína no caracterizada YchF se predice mediante análisis de la secuencia
proteica como una GTPasa, además contiene un dominio TGS de unión al ARN C-terminal.
Junto con la ubicuidad de esta proteína y con el hecho de que los miembros arqueales de la
COGG se agrupan con eucariotas, se sugiere que YchF es un factor de traducción universal
no caracterizado. Esto se respalda por la yuxtaposición del gen ychF con el gen peptidil
tRNA hidrolasa (pth) en varias proteobacterias cuya función es hidrolizar los peptidil-
tRNAs que se caen de forma prematura de los ribosomas durante la síntesis de proteínas.
En esto recae que los métodos de contexto son mejores cuando se complementan entre sí.
Entre otras consideraciones, la culpa por asociación también se puede establecer mediante
la identificación de grupos de genes que se eliminan conjuntamente en un linaje dado, este
enfoque aprovecha el fenómeno de la perdida de genes específicos del linaje. Además, en
muchas ocasiones, el desplazamiento de genes no ortólogos se manifiesta en patrones
fileticos complementarios en lugar de idénticos o similares.
Diapositiva 4
Fusiones de genes (dominios) o también llamado culpa por asociación
PD (Parte no dicha): Se debe saber que el término “dominio” se designa a una región de
una proteína con interés biológico o funcional y que también puede referirse a una región
de la estructura tridimensional de una proteína funcional que incluye regiones no
necesariamente contiguas en la secuencia de aminoácidos.
Diapositiva 5
Es común que las proteínas que interactúan funcionalmente y están codificadas por genes
separados en ciertos organismos se fusionen en una única cadena polipeptídica en otros. La
ventaja de una arquitectura multidominio es que facilita el ensamblaje del complejo
funcional y permite la canalización intermedia de la reacción.
El supuesto básico en el análisis de las fusiones de dominios es que una fusión se fijará
durante la evolución solo cuando proporcione una ventaja selectiva al organismo en forma
de interacción funcional mejorada entre proteínas, por tanto, encontrar proteínas fusionas
en una especie sugiere que podrían interactuar física o funcionalmente en otras especies.
El enfoque de la culpa por asociación permite la expansión de asociaciones funcionales
entre componentes conectados transitivamente, en otras palabras, la detección de
combinaciones de dominios AB, BC y CD sugiere que los dominios A, B, C y D forman
una red funcional.
Diapositiva 6
Finalmente, existen errores en la anotación genómica que conllevan a ciertos problemas.
Este problema aumenta de forma drástica más allá del genoma de un organismo, ya que os
genes con funciones incorrectas se ingresan en bases de datos públicas que luego en
búsquedas posteriores en dichas bases provocan que los errores se propaguen a futuras
asignaciones funcionales.
Según el estudio de Galperin & Koonin de 1998 realizado con anotaciones genómicas de
Mycoplasma genitalium y Methanococcus jannaschii, las causas más comunes de
predicciones cuestionables son: 1) el uso no crítico de anotaciones de entradas de bases de
datos existes, junto a que solo toman en cuenta la anotación del mejor resultado arrojado
por la base de datos. 2) El enmascaramiento insuficiente de regiones de baja calidad en
secuencias proteicas que da como resultado coincidencias falsas que oscurecen las
relevantes. 3) el que se ignore la organización multidominio de las proteínas consultados,
así como realizar inferencias funcionales no críticas sobre la base de las funciones de genes
vecinos en un operón. 4) y por último, el desplazamiento de genes no ortólogos, es decir, la
participación de proteínas estructuralmente no relacionas en la misma función.
Otros errores mencionados por diferentes autores son: la nomenclatura empleada al realizar
la anotación por lo que causa confusión entre los investigadores, errores en el ensamblaje,
entre otros.
¡Gracias!
Diapositiva 1
La anotación de genomas
Los posibles análisis para anotar genes pueden ser, por ejemplo:
Diapositiva 2
file:///C:/Users/Usuario/Downloads/bbs007%20(1).en.es%20(2).pdf
Aquí describimos un proceso muy general utilizado para la anotación del genoma
bacteriano (Figura 1).
La mayoría de los canales de anotación emplean software de predicción de genes, el más
común de los cuales es GLIMMER [13]--- Glimmer es un sistema para encontrar genes en
el ADN microbiano, especialmente los genomas de bacterias, arqueas y virus. Glimmer
(Gene Locator y Interpolated Markov ModelER) utiliza modelos de Markov interpolados
(IMM) para identificar las regiones codificantes y distinguirlas del ADN no codificante.
· Esto utiliza un conjunto de secuencias de referencia para entrenar un modelo y luego
utiliza ese modelo para predecir regiones codificantes en el genoma de interés.
· Una vez que se han identificado las regiones codificantes, se alinean con una anotación
del genoma de referencia o con la totalidad de UniProt [17] utilizando herramientas de
alineación de secuencia rápida (BLAST ), los primeros éxitos se aceptan como homólogos y
la anotación se transfiere a través de genes que muestran una gran similitud.
· Otras características, como los ARNt y los ARNr, pueden agregarse utilizando otro software
de predicción
· UniProt : es un repositorio central de datos gratuito sobre proteínas.
En sistemas de predicción de genes basados en evidencias, en el genoma objetivo se buscan
secuencias que sean similares a la evidencia externa, que toma la forma de una secuencia
conocida de un ARN mensajero (ARNm) o producto proteico. Dada una secuencia de ARNm,
es trivial derivar una única secuencia genómica de ADN desde la cual haya tenido que ser
transcrita.
https://www.redalyc.org/articulo.oa?id=371852108019
1.Se utilizó la secuencia del genoma borrador de M. haemolytica A2 Ovino, disponible
en la base de datos del NCBI (Número de accesión: ACZX00000000).
2. El genoma fue obtenido en formato FASTA y en 144 contigs (son segmentos de ADN
superpuestos, que juntos representan una región consenso de ADN.).
1.Ademas, El training set of genes fue obtenido a partir de todos los contigs del
genoma, con el programa long-orfs (ste programa encuentra marcos de lectura abiertos
largos en el archivo nombrado en la línea de comando, elimina aquellos que se superponen
demasiado e imprime las coordenadas resultantes en la salida estándar) , y la lista de
coordenadas de secuencias fueron extraídas con el programa extract.
2. Los training set of genes fueron utilizados para construir el Modelo de Contexto
Interpolado (ICM), mediante el programa build-ICM. (Este programa lee (desde stdin), el
archivo generado por 'extract', que consta de una etiqueta seguida de un espacio en blanco,
luego el marco de lectura abierto (orf) seguido de una nueva línea. Luego, el programa
construye un modelo de Markov selectivo usando la siguiente idea)
un campo extra que especifique los contigs específicos donde pertenecen dichas
coordenadas, necesarios para ser extraídos mediante el programa multi-extract
(orfs.seq).
5. Conclusiones [persona 6]
De todo el trabajo (cada persona realiza una conclusión de su tema)
6. Resumen de un artículo científico actualizado [persona 6]
Las anotaciones computacionales / manuales de las funciones de las proteínas son una
de las primeras rutas para dar sentido a un genoma recién secuenciado.
las propiedades estructurales más evidentes de la proteína son los dominios, los cuales
pueden llevar a cabo muchos aspectos de las funciones de las proteínas, y se utilizan
ampliamente como predictores funcionales ya que la información estructural a nivel de
dominio es muy relevante para las funciones biológicas. Por lo tanto, la generación de
anotaciones funcionales centradas en el dominio es necesaria para realizar dicha
predicción automatizada de la función de las proteínas.
Biológicamente, las anotaciones GO centradas en el dominio (dcGO) resultantes han
llevado a cabo señales funcionales ocultas bajo las proteínas anotadas existentes. Que es
GO? Gene Ontology es una iniciativa de bioinformática que tiene como objetivo
estandarizar la representación de los genes de todas las especies
Con las anotaciones de dcGO a mano, desarrollamos 'dcGO Predictor' para predecir las
funciones de las secuencias objetivo en el experimento CAFA que es la evaluación crítica
de la anotación de funciones
RESULTADOS
En la tabla resume las estadísticas en términos de dominios/supradominios anotables,
términos GO utilizados, el total de anotaciones observadas y la densidad de anotaciones
(definida como la relación entre lo observado y lo teórico).
En la segunda gráfica, se representa el rendimiento de dcGO Predictor en el experimento
CAFA antes mencionado en donde se presenta la precisión Vs la tasa de verdaderos
positivos. Las líneas presentadas demuestran cada uno de los 7 conjuntos de secuencias,
estas predicciones se basaron en las anotaciones de GO tanto de dominios y
supradominios en donde como resultado se obtuvo que las predicciones de dcGO
tuvieron un éxito notable en la recuperación de verdaderas anotaciones funcionales. La
predicción produjo los mejores resultados para Euk_set6. También encontramos que el
uso de anotaciones GO en MF (función molecular) superó el uso de aquellos en BP
(proceso biológico) lo que indica que el aspecto funcional molecular es más relevante
para describir los dominios de proteínas.
CONCLUSIÓN
'dcGO Predictor' es muy prometedor para contribuir a una comprensión funcional de los
genomas centrada en los dominios en la era de la secuenciación de nueva generación
7. Bibliografía
Todos ponen sus propias referencias y al final de se unen.
8. Actividad práctica
Persona 6
9. Cuestionario
Persona 1 – 2 preguntas
Persona 2 – 2 preguntas
Persona 3 – 2 preguntas
Persona 4 – 2 preguntas
Persona 5 – 2 preguntas (Dependiente del contexto)
Bibliografía
Ainoa Gallego Zaragoza. 2017. Secuenciación, Ensamblaje de Novo y Anotación Del
Genoma Del Cloroplasto Del Ajo (Allium Sativum).
Handrick, Susann et al. 2020. “Whole Genome Sequencing and Phylogenetic Classification
of Tunisian SARS-CoV-2 Strains from Patients of the Military Hospital in Tunis.”
Virus Genes 56(6): 767–71. https://doi.org/10.1007/s11262-020-01795-9 (December
15, 2020).
Barnes, MR. (Ed.) 2007. Bioinformatics for Geneticists: A Bioinformatics Primer for
the Analysis of Genetic Data, 2nd ed. John Wiley and Sons Ltd,
Persona 4
Abascal, F. (2003). Doctor en Ciencias. Análisis de genomas. Métodos para la predicción y
anotación de la función de las proteínas. Universidad Autónoma de Madrid,
Madrid.
Brenner, S. (1999). Errors in genome annotation. Outlook, 15(4), 1-2.
Dias , D. (2011). Máster en Inteligencia Artificial. Estrategia de solución al problema de la
anotación de secuencias de ADN mediante la metodología CommonKADS.
Universidad Complutense de Madrid, Madrid.
Fernández, J. (19 de junio de 2013). Motivos y Dominios. San Pedro Zacantenco, México:
Cinvestav.
Frith, M. (2011). Gentle Masking of Low-Complexity Sequences Improves Homology
Search. PLoS One., 6(12).
Galperin, M., & Koonin, E. (1998). Sources of systematic error in functional annotation of
genomes: domain rearrangement, non-orthologous gene displacement and operon
disruption. In silico Bio., 1(1), 55-67.
Koonin, E., & Galperin, M. (2003). Sequence - Evolution - Function: Computational
Approaches in Comparative Genomics. Boston: Kluwer Academic.
Smith, T., & Zhang, X. (1997). The challenges of genome sequence annotation or "The
devil is in the details". Nature, 15(11), 1222-1223.
Glosario de términos
Patrones filogenéticos/Perfiles fileticos: Un patrón filogenético describe la presencia o
ausencia de un determinado gen en genomas de diferentes especies, lo que refleja la
adquisición y pérdida diferencial de este gen a lo largo de los diversos linajes evolutivos.
Desplazamiento genético no ortólogo: participación de proteínas estructuralmente no
relacionadas en la misma función.
Sucede cuando al producirse una transferencia horizontal de material genético, el
organismo llega tener dos proteínas no homólogas para una misma función y acaba
perdiendo la proteína original.
Enmascaramiento de secuencias:
Se refiere a la tarea de ocultar regiones repetidas del genoma que no representen un gen
funcional y que den lugar a altas coincidencias con otras secuencias y por tanto, se lleguen
a ocultar (o no sea muy notorio) las regiones relevantes del genoma que deseamos
encontrar.
La detección de secuencias homólogas, es decir, descendientes de un ancestro común, es
una tarea fundamental en biología computacional. Esta tarea se ve confundida por tractos
de baja complejidad (como atatatatatat), que surgen con frecuencia e independientemente,
provocando fuertes similitudes que no son homologías.