Sesion10 A PDF

Predicción de Genes
Jesús Alejandro Hernández Mejía
Cinvestav-Zacatenco
2 de Julio de 2013
Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 1 / 52

1 Predicción de genes
Introducción
Categorías de los programas de predicción de genes
Predicción de genes en procariotas
Determinación convencional de marcos abiertos de lectura
Predicción de genes usando Modelos de Markov y Modelos Ocultos de Markov
Evaluación del desempeño
Predicción de genes en eucariotas
Programas de predicción de genes ab initio
Programas basados en homología
Programas basados en consenso

Predicción de genes Introducción
Introducción

Introducción
En los años recientes ha habido una rápida acumulación de

información genómica que necesita ser procesada para predecir la
estructura de los genes. Dicho proceso incluye la detección de marcos
abiertos de lectura (ORF’s) así como la descripción de exones e
intrones en organismos eucariotas. El objetivo principal es describir
todos los genes en una cadena de ADN con 100 % de precisión .
Sin embargo, la predicción de genes representa uno de los problemas

más difíciles en el área, debido a que las regiones codificantes
(regiones compuestas de exones que codifican proteínas) no suelen
tener motivos conservados.
La predicción de genes en general no sólo incluye la identificación de

genes codificantes de proteínas, sino también genes codificantes de
ARN o de regiones reguladoras.

Introducción
Ha habido mucho progreso en la predicción de genes procariotas, con

varios algoritmos que presentan diversos grados de éxito. Sin embargo,
para organismos eucariotas, aún no hay resultados satisfactorios.
Esto se debe a que los organismos eucariotas son más complejos que
los procariotas, recordemos que estos últimos generalmente no tienen
intrones y están compuestos de una sola hebra de ADN que es
relativamente pequeña (de 0.5 a 10 Mbp)

Predicción de genes Categorías de los programas de predicción de genes
Introducción

Predicción de genes Categorías de los programas de predicción de genes
Los métodos de predicción de genes actuales se pueden clasificar en

dos categorías principales: ab initio y basados en homología.
El enfoque ab initio se basa en dos características de los genes:

La existencia de señales en genes, éstas señales pueden ser codones de
inicio y parada, sitios de enlaces ribosomales, etc.
El contenido del gen por sí mismo, ya que las regiones codificantes
varían significativamente de las regiones no codificantes. Los modelos
probabilísticos como los modelos ocultos de Markov ayudan a esta
tarea.
Los métodos basados en homología hacen sus predicciones

comparando una secuencia con secuencias conocidas de genes.
Algunos algoritmos pueden hacer uso de ambas estrategias, este tipo

de algoritmos se les conoce como basados en consenso.

Predicción de genes Predicción de genes en procariotas
Introducción

El entendimiento detallado de la estructura genética de estos

organismos se vuelve muy útil para la predicción de genes. Veamos
algunos puntos clave:
La densidad de genes es de más del 90 %.
Un gen se compone de una sola tira de un marco abierto de lectura sin
interrupciones.
Hay muy pocas secuencias repetitivas.
La mayoría de los genes tienen un codón de inicio ATG (AUG en ARN).
Aunque también puede haber GTG y TTG como codones de inicio.
Además de los codones de inicio, otra características están asociadas
con la traducción. Un ejemplo es la secuencia de Shine-Dalgarno, esta
secuencia está compuesta por 6 o 7 nucleótidos antes del codón de
inicio y regula la iniciación de la traducción.
Existen tres posibles codones de parada.
Hay genes típicos y atípicos. Los genes típicos varían en longitud desde
100 hasta 500 aminoácidos, mientras que los atípicos son mucho más
cortos.

Figura : Estructura típica de un gen procariota.

Introducción

Esto nos lleva a concluir que la identificación de genes puede estar

basada en la determinación de ORFs y de las señales principales.
Como primer paso, el ADN se puede traducir a sus seis maneras

diferentes (recordemos que se toman codones de 3 nucleótidos), tres
en un sentido y tres en sentido inverso.
Debido a que un codón de parada puede ocurrir por azar cada veinte
codones, un marco con más de 50 o 60 codones sin codones de parada
es sugerente para ser una región codificante.
El gen supuesto se confirma buscando señales de inicio y la secuencia

Shine-Dalgarno. Posteriormente se traduce a una proteína y se
compara en una base de datos de proteínas.

Figura : Los seis posibles marcos de lectura

Los primeros algoritmos para la predicción de genes se basaron en una

regla empírica. En una región codificante la tercera posición de un
codón suele tener preferencia por la base G o C o suele repetirse
mucho. Esta regla tiende a identificar sólo genes típicos y omite los
atípicos.
La nueva genración de algoritmos de predicción usan modelos

estadísticos más sofisticados.

Introducción

Un modelo de Markov describe la probabilidad de la distribución de los

nucleótidos en una secuencia de ADN, en la que la probabilidad
condicional de una posición particular de la secuencia depende de las k
posiciones previas. En este caso, k es el orden de un modelo de
Markov. Un modelo de Markov de segundo orden se fija en las dos
bases precedentes para determinar a la base que sigue, algo que es
característico en los codones. Entre mayor sea el grado del modelo de
Markov, más precisamente se puede predecir un gen.

Figura : Un modelo oculto de Markov de segundo orden para predicción de genes

procariotas.

Los análisis estadísticos han mostrado que la frecuencia de seis

nucleótidos únicos en una región codificante es mucho más alta que
por mero azar. Sería lógico entonces usar un modelo de Markov de
quinto orden. Sin embargo, los modelos de Markov de orden grande no
son eficaces para secuencias de genes cortas.
Para enfrentar esta limitación se usa un modelo de Markov de orden

variable, llamado Modelo de Markov Interpolado (IMM por sus siglas
en inglés). Este método toma una muestra del mayor número de
patrones de secuencias con k desde 1 a 8 y usa un esquema ponderado,
con más peso en k-meros raros y menos en los más frecuentes.
Los genes atípicos tienden a escapar al modelo de Markov. Por tanto,

para tener un algoritmo robusto de predicción, se necesita más de un
modelo de Markov.

Existen aplicaciones en la red que implementan distintos tipos de

modelos de markov para la predicción de genes de procariotas.
GeneMark - Implementa HMM’s de quinto orden. El programa principal
está entrenado con genomas microbianos. El HMM puede usar el ADN
de un organismo que tenga relación al genoma de entrada o se puede
proporcionar un ADN, siempre y cuando tenga al menos 100 kbp.
También tiene variante para organismos eucariotas.
Glimmer - Implementa un IMM, al igual que GeneMark primero entrena
el modelo y después hace la predicción. También tiene variante para
organismos eucariotas.
FGENESB - Usa HMM’s de quinto orden. Está entrenado con
secuencias de bacterias y usa el algoritmo Vertibi para encontrar el
resultado óptimo.
RBSfinder - Utiliza la salida de Glimmer para buscar las secuencias
Shine-Dalgarno en el vecindario del codón de inicio.

Introducción

La precisión de la predicción puede ser medida por la sensibilidad y la

especificidad. Recapitulemos los cuatro parámetros y la fórmula de
estas métricas:
Sensibilidad = VP/(VP + FN) Especificidad = VP/(VP + FP)
Donde VP = Verdadero Positivo, VN = Verdadero Negativo, FP =

Falso Positivo y FN = Falso Negativo.
La sensibilidad es la proporción de señales verdaderas predichas de

todas las señales verdaderas las posibles. La especificidad es la
proporción de señales verdaderas predichas de todas las señales
predichas.

Para predecir completamente la precisión, se necesita un solo valor que

resuma la especificidad y la sensibilidad. Un valor llamado coeficiente
de correlación (CC) se usa con este fin y está dado por la siguiente
fórmula:
VP×VN−FP×FN
CC = √
(VP+FP)(VN+FN)(FP+VN
El valor de CC varía de -1 a 1 siendo 1 una predicción siempre correcta

y -1 una predicción incorrecta.

Predicción de genes Predicción de genes en eucariotas
Introducción

Análogamente a como lo hicimos con los procariotas, veamos algunas

características de los organismos eucariotas.
Los genomas son usualmente más grandes que en los procariotas,
variando desde 10Mbp a 670 Gbp, con una densidad de genes mucho
más baja.
El espacio entre genes es usualmente muy grande y rico en secuencias
repetitivas y elementos transponibles.
Lo más importante quizá es que los genomas tienen una organización
en la que la parte codifican de un gen tiene partes intermedias no
codificantes.
La transcripción (de ADN a ARNm) pasa por tres etapas antes de la
traducción de proteínas.

La primer fase es el capping (la adición de un nucleótido especial en el

extremo 5’ del ARN)
La segunda fase es el splicing, en que se eliminan los intrones y se

juntan los exones. Esta fase se puede complicar pues los exones se
pueden juntar de diferentes maneras y generan una transcripción
diferente (Splicing alternativo).
La última fase es la adición de un tira de A’s (aprox. 250) en el

extremo 3’.

El problema principal en la predicción de genes eucariotas es la

identificación de exones, intrones y posiciones de splicing. El splicing
hace particularmente difícil este problema.
Afortunadamente hay secuencias conservadas que permiten la

predicción. Por ejemplo, la intersección de intrones y exones siguen la
regla GT-AG en que un intrón en la intersección de splicing 5’ tiene un
motivo de consenso GTAAGT y en la intersección de splicing 3’ un
motivo de consenso (Py )12 NCAG.
Otra caractersística son las islas CpG, que son regiones cerca del inicio
del gen con alta densidad de dinucleótidos CG.

Figura : Transcripción de un gen eucariota y splicing.

Introducción

Este tipo de programas predicen exones, basados en las señales y el

contenido del gen.
Las señales incluyen la de inicio, de parada, presuntas posiciones de

splice o consensos reconocibles.
El contenido se refiere a las estadísticas de las regiones codificantes, lo

cual incluye distribución de nucleótidos no aleatoria, frecuencias de
hexámeros, etc. La frecuencia de hexámeros parece ser muy buena
para discriminar las regiones codificantes.
Tres técnicas son prominentes para la predicción: redes neuronales,

modelos ocultos de markov y análisis de discriminantes.

En los métodos basados en redes neuronales, una red neuronal es

entrenada con cadenas de genes conocidos, donde la información del
gen está apropiadamente separada en varias características.
La red recibe como entrada una secuencia con intrones y exones, y

devuelve como salida la probabilidad de la estructura del exón.
GRAIL es un programa en la red que usa redes neruonales y está

especializado en los organismos humano, de ratón, Arabidopsis,
Drosophila y E. coli.

Figura : Estructura básica de una red neuronal para predicción de genes

Las técnicas que usan análisis de discriminantes funcionan graficando

en dos dimensiones las señales codificantes contra todas las posiciones
potenciales de slice 3’.
El análisis lineal divide las señales codificantes de las no codificantes

mediante una linea.
El análisis cuadrático divide las señales codificantes de las no

codificantes mediante una curva.
Programas que implementan este análisis son FGENES y MZEF.

Figura : LDA vs QDA, los triángulos son características codificantes, los taches
son regiones no codificantes.

Varios programas están disponibles en la red que usan HMM.

GENSCAN es uno de ellos y usa un modelo de markov de quinto orden.
HMMgene es otro de ellos que utiliza una característica única llamada

probabilidad condicional máxima para discriminar. Esta propiedad dice
que si una secuencia tiene una región que ya ha sido identificada como
codificante, se queda fija y la predicción subsecuente se hace con un
sesgo hacia la región fija.

Introducción

Los programas basados en homología toman ventaja del hecho de que

las estructuras de los exones y las secuencias de exones entre especies
están altamente conservadas. Los marcos codificantes pueden
traducirse y alinearse contra las proteínas homólogas más cercanas
para encontrar regiones emparejadas casi perfectamente.
El inconveniente de esta técnica es la confianza que se tiene en las

secuencias de la base de datos y más aún, la presencia de estas. En
caso de no existir, no se puede emplear esta técnica.

Algunos programas en la red basados en homología:

GenomeScan - Combina los resultados de GENSCAN con las búsquedas
de similitud de BLASTX.
EST2Genome - Basado enteramente en el enfoque de alineamiento de
secuencias (con programación dinámica) para establecer los límites de
intrones y exones. Es especialmente bueno para encontrar exones
pequeños y exones en splicings alternativos.
SGP-1 - Alinea dos secuencias de ADN de organismos relacionados.
Traduce los exones potenciales a proteínas y hace un alineamiento por
pares.
TwinScan Muy parecido a GenomeScan.

En lugar de usar las propiedades estadísticas de los exones, el

problema se puede ver de la siguiente manera: Dada una proteína
objetivo y una secuencia genómica, se necesita encontrar las
subcadenas (substring) en la secuencia genómica cuya concatenación
se ajusta mejor al objetivo.
El enfoque por fuerza bruta busca todas las similitudes locales entre
las secuencias y entrega un exón candidato. El mejor subconjunto de
subcadenas que no se traslapan corresponde al mejor candidato a ser
un exón.
En el enfoque de programación dinámica, cada exón se modela con un

intervalo ponderado en la secuencia genómica, descrito por tres
parámetros (l,r,w). w refleja la probabilidad de el intevalo sea un exón,
l y r son las posiciones de inicio y de fin del exón.

Definamos una cadena como un conjunto de intervalos ponderados

que no se traslapan. El peso total de una cadena es la suma de pesos
de los intervalos.
Un posible algoritmo puede recibir un conjunto de n intervalos

ponderados, creando un grafo G de 2n vertices, donde n de ellos
representan las posiciones de inicio y las n restantes las posiciones de
fin.

Existirán 3n-1 aristas, n de ellas conectan a li y ri con peso wi . Las

2n-1 restantes tienen peso 0 y conectan vértices adyacentes, en el
siguiente algoritmo si representa el camino más largo hasta el vértice
vi .

EXONCHAINING(G , n)
1 for i ← 1 to2n
2 si ← 0
3 for i ← 1 to 2n
4 if vértice vi en G corresponde al extremo derecho del intervalo I .
5 j ← índice del vértice del extremo izquierdo del intervalo I
6 w ← peso del intervalo I
7 si ← max(sj + w , si−1 )
8 else
9 si ← si−1
10 return s2 n

Un defecto de éste enfoque es que los puntos finales de los exones

candidatos no están muy bien definidos. Más importante, la primer
cadena de intervalos óptima puede ser similar a un sufijo de una
proteína mientras que el segundo intervalo puede ser similar a un
prefijo. En este caso los exones supuestos no se pueden combinar en
un alineamiento válido. (Splicing tradicional).

En 1966, Mikhail Gelfand et al propusieron el algoritmo spliced

alignment (programación dinámica). El primer paso del algoritmo es
seleccionar los posibles exones de ciertos sitios (dinucleótidos AG y
GT) o de hallar todas las subcadenas similares a una proteína objetivo.
Dado un conjunto de exones candidatos y una proteína objetivo, se
exploran todas las posibles cadenas del exón candidato que se parezca
más a la proteína.

Sea G = g1 ...gn la secuencia genómica, T = t1 ...tm la secuencia

objetivo (proteína) y B el conjunto de exones candidatos.
El objetivo es encontrar una cadena de exones candidatos en la

secuencia genómica que mejor se ajusta a la secuencia objetivo. El
problema del spliced alignment se puede ver como encontrar un
camino en un grafo acćlico dirigido. Los vértices del grafo
corresponden a exones y las aristas sólo conectan vértices que no se
traslapan. Los vértices están etiquetados con la cadena del posible
exón, por tanto, un camino en el grafo deletrea la cadena final. El
peso de un camino en el grafo está definido por el alineamiento entre
la secuencia objetivo y la cadena del camino.

Figura : Un ejemplo de grafo de spliced alignment. El grafo es acíclico, las aristas

solo conectan vértices que no se traslapan.

La recurrencia que usa el algoritmo define el puntaje de similitud entre

el prefijo i del grafo y el prefijo j de la secuencia objetivo. La dificultad
yace en que típicamente hay muchos prefijos que contienen la posición
i (muchos prefijos i).
Sea B = gleft ...gi ...gright un exón candidato que contenga la posición i

en la secuencia genómica G. Definase el prefijo-i de B como
B(i) = gleft ...gi y end(B) = right (right se usa como índice)
Si la cadena Γ = (B1 , B2 , ..., B) termina en el bloque B, se define

Γ ∗ (i) como la concatenación de todos los exones candidatos en la
cadena hasta B, más todos los caracteres en B hasta i.
Γ ∗ (i) = B1 ◦ B2 ... ◦ B(i)

Finalmente, sea S(i, j, B) = maxs(Γ ∗ (i), T (j)) de todas las cadenas

Γ que terminan en B
Esto es, dados i, j y un exón candidato B que cubre la posicione

i, S(i, j, B) es el puntaje del spliced alignment óptimo entre el prefijo i
de G y el prefijo j de T . En la siguiente recurrencia se usa σ y δ como
penalización por huecos y matriz de puntaje respectivamente.

 S(i − 1, j, B) − σ
S(i, j, B) = max S(i, j − 1, B) − σ
S(i − 1, j − 1, B) + δ(gi , tj )

Si i no es la posición inicial.

Si i es la posición inicial.

 S(i, j − 1, B) − σ
S(i, j, B) = max max(S(end(B 0 ), j − 1, B 0 ) + δ(gi , tj )
max(S(end(B 0 ), j, B 0 ) + σ

Siendo B’ todos los bloques que preceden a B
Esta matriz tridimensional tendrá el puntaje óptimo del spliced

alignment en maxB S(end(B), m, B)

Introducción

Estos programas trabajan reteniendo las predicciones en común de los

algoritmos de homología y ab initio. Eliminan las predicciones
inconsistentes, con lo cual mejora la especificidad al costo de más baja
sensibilidad.
GeneComber - Es un programa web que combina HMMGene y

GenScan.
DIGIT - Use las predicciones de tres programas ab initio FGENESH,

GENSCAN y HMMgene.

Introducción

La complejidad adicional de los organismos eucariotas tiene como

consecuencia que sea necesario redefinir la sensibilidad y la
especificidad al nivel de exones y genes.
La sensibilidad al nivel de los exones y de los genes es la proporción de

exones o genes correctamente predichos de entre los exones o genes
que sí están presentes. Al mismo nivel, la especificidad es la proporción
de exones o genes predichos de todas las predicciones. En lugar de
usar el CC se calcula un promedio de sensibilidad y especificidad.

Sesion10 A PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesion10 A PDF

Cargado por

Copyright:

Formatos disponibles

Predicción de Genes

Jesús Alejandro Hernández Mejía

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 1 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 2 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 3 / 52

En los años recientes ha habido una rápida acumulación de

Sin embargo, la predicción de genes representa uno de los problemas

La predicción de genes en general no sólo incluye la identificación de

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 4 / 52

Ha habido mucho progreso en la predicción de genes procariotas, con

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 5 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 6 / 52

Categorías de los programas de predicción de genes

Los métodos de predicción de genes actuales se pueden clasificar en

El enfoque ab initio se basa en dos características de los genes:

Los métodos basados en homología hacen sus predicciones

Algunos algoritmos pueden hacer uso de ambas estrategias, este tipo

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 7 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 8 / 52

Predicción de genes en procariotas

El entendimiento detallado de la estructura genética de estos

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 9 / 52

Predicción de genes en procariotas

Figura : Estructura típica de un gen procariota.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 10 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 11 / 52

Predicción de genes en procariotas

Esto nos lleva a concluir que la identificación de genes puede estar

Como primer paso, el ADN se puede traducir a sus seis maneras

El gen supuesto se confirma buscando señales de inicio y la secuencia

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 12 / 52

Predicción de genes en procariotas

Figura : Los seis posibles marcos de lectura

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 13 / 52

Predicción de genes en procariotas

Los primeros algoritmos para la predicción de genes se basaron en una

La nueva genración de algoritmos de predicción usan modelos

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 14 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 15 / 52

Predicción de genes en procariotas

Un modelo de Markov describe la probabilidad de la distribución de los

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 16 / 52

Predicción de genes en procariotas

Figura : Un modelo oculto de Markov de segundo orden para predicción de genes

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 17 / 52

Predicción de genes en procariotas

Los análisis estadísticos han mostrado que la frecuencia de seis

Para enfrentar esta limitación se usa un modelo de Markov de orden

Los genes atípicos tienden a escapar al modelo de Markov. Por tanto,

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 18 / 52

Predicción de genes en procariotas

Existen aplicaciones en la red que implementan distintos tipos de

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 19 / 52

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 20 / 52

Predicción de genes en procariotas

La precisión de la predicción puede ser medida por la sensibilidad y la

Sensibilidad = VP/(VP + FN) Especificidad = VP/(VP + FP)

Donde VP = Verdadero Positivo, VN = Verdadero Negativo, FP =

La sensibilidad es la proporción de señales verdaderas predichas de

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 21 / 52

Predicción de genes en procariotas

Para predecir completamente la precisión, se necesita un solo valor que

El valor de CC varía de -1 a 1 siendo 1 una predicción siempre correcta