Motivo & Dominios PDF

Motivos y Dominios
Jesús Fernández C.
Cinvestav-Zacatenco
19 de Junio del 2013
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 1 / 58

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Motivos y Dominios Introducción
Introducción
secuencias
Proles
Search Trees
Motif Problem

Introducción
Un aspecto importante de la caracterización de secuencias biológicas

son los motivos y los dominios, ya que sirven para caracterizar
funciones de proteínas desconocidas.
Secuencias conservadas son secuencias biológicas similares o idénticas

que pueden encontrarse en ácidos nucléicos, proteínas.
Un motivo es un elemento conservado en la secuencia de aminoácidos

o nucleótidos, que habitualmente se asocia con una función concreta.
Los motivos se generan a partir de alineamientos múltiples de
secuencias con elementos funcionales o estructurales conocidos, por lo
que son útiles para predecir la existencia de esos mismos elementos en
otras proteínas de función y estructura desconocida.

Introducción
Un dominio es un término más genérico que designa una región de una

proteína con interés biológico funcional o estructural. También se
llama dominio a una región de la estructura tridimensional de una
proteína con una función concreta, que incluye regiones no
necesariamente contiguas en la secuencia de aminoácidos.

Identicación de motivos y dominios en alineamiento
Motivos y Dominios múltiple de secuencias
Introducción
secuencias
Proles
Search Trees
Motif Problem

Motivos y Dominios múltiple de secuencias

múltiple de secuencias
Los motivos y dominios son construidos a partir de un AMdS

(Alineamiento múltiple de Secuencias) en las cuales, las secuencias
está relacionadas entre sí.
Esto sirve para hallar las regiones conservadas.
Una vez halladas las regiones que se consideran motivos y dominios se

prosigue a almacenar la información de consenso en una base de datos
para que así sirvan como base en la identicación de las funciones de
una proteína desconocida que presente los mismos patrones.
Esto puede ser almacenado de dos formas:Expresiones regulares o

Mediante un modelo estadístico.

Motivos y Dominios Usando expresiones regulares en las bases de datos
Introducción
secuencias
Proles
Search Trees
Motif Problem

Una expresión regular es una manera concisa de representar una

familia de secuencias por un string.
Cuando los dominios y los motivos son escritos en expresiones

regulares se deben seguir las siguientes reglas.
Un aminoácido es conservado se debe escribir su código de letra.
Cuando una posición tiene varias alternativas de aminoácidos se
encierra entre corchetes todas las posibilidades.
Si no está especicado se escribe por una X.
Cada posición está ligada por un guión.
Finalmente si se repite un patrón se escribe entre paréntesis cuántas
veces se repite.

Ejemplo E − X (2) − [FHM ] − X (4) − {P } − L.
Existen dos mecanismos para coincidir dos expresiones regulares: Exact

Matching y Fuzzy Matching.

En el Exact Matching como su nombre lo indica no permite alguna

variación en la secuencia del query, ésta manera de buscar tiene una
alta probabilidad de perder motivos relevantes que pueden tener
pequeñas variaciones.
En el Fuzzy matches, también llamado approximate matches, las

coincidencias son más exibles entre residuos de propiedades
bioquímicas semejantes, éste método es capaz de incluir una mayor
variedad de formas de un motivo con una función conservada, sin
embargo ésto incrementa el ruido y los falsos positivos.
Ejemplos: PROSITE y Emotif .

Motivos y Dominios Usando modelos estadísticos en las bases de datos
Introducción
secuencias
Proles
Search Trees
Motif Problem

La mayor limitación de las expresiones regulares es que estos métodos

no toman en cuenta la información de la probabilidad. Una expresión
regular tiene menos poder predictivo porque muchas secuencias con el
mismo tipo de motivo no son representadas.

Al contrario de las expresiones regulares, se utilizan PSSMs (Position

specic scoring matrices), perles y HMMs (Hidden Makarov models)
y preservan la información de la secuencia de un AMdS y lo expresan
con modelos probabilísticos. Además, éstos modelos estadísticos tienen
un mayor poder de predicción que los modelos basados en expresiones
regulares, incluso aunque han sido obtenidos de un número reducido
de secuencias. Ésta capacidad puede incrementar la sensibilidad del
descubrimiento de motivos y detectar secuencias divergentes pero que
estén relacionadas.

Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas
Introducción
secuencias
Proles
Search Trees
Motif Problem

Para un conjunto de secuencias que estén estrechamente relacionadas,

se pueden encontrar motivos mediante el uso de AMdS, pero no
sucede ésto cuando son distantes pero están relacionadas.
Para detectar estos motivos se necesitan algoritmos más especializados

como: Expectation maximation y Gibbs Motif sampling.

Puede ser usado para encontrar motivos ocultos. El método primero

hace un alineamiento aleatorio de secuencias para generar un PSSM
de prueba. Luego la prueba es usada para comparar cada secuencia
individualmente. Se irán modicando las puntuaciones de la PSSM en
cada iteración para maximizar el alineamiento de la matriz a cada
secuencia.
Durante cada iteración la secuencia de patrones de los motivos

conservados se irá reuniendo en el PSSM.
El problema radica en la convergencia prematura al alcanzar un

óptimo local.

Éste método es muy similar al EM. Primero se hace un alineamiento

sobre todas las secuencias excepto una. Luego un se genera un PSSM
de prueba, luego la matriz se alinea con la secuencia que se dejó fuera.
La matriz de puntuaciones se ajusta para obtener el mejor
alineamiento. Éste se procesó se repite hasta que ya no quede nada
que mejorar.
Éste método es menos susceptible a los mínimos locales.

Motivos y Dominios Motivos reguladores en secuencias de ADN
Introducción
secuencias
Proles
Search Trees
Motif Problem

Las moscas de fruta son susceptibles a infecciones de bacterias y otros

patógenos.Pero no tienen el sistema inmune tan sosticado como
nosotros. Ellos tienen un conjunto de genes inmunes que generalmente
se encuentran dormidos en el genoma de la mosca los cuáles de alguna
manera se despiertan y producen proteínas que destruyen el patógeno
y generalmente curan la infección.

Si realizamos un experimento en el cual se contagian las moscas y

medimos cuales genes se despiertan como una respuesta inmune. De
este conjunto de genes nos gustaría determinar que activa ese proceso.
Éste proceso nos va a mostrar que los residuos TCGGGGATTTCC son
los culpables de ésta activación. Éstas cadenas cortas llamadas NF-kB
binding sites, son importantes ejemplos de los motivos reguladores.
Proteínas tales como los factores de transcripción están ligados a estos
motivos, Haciendo que el ARN polimerasa transcriba los genes
previamente dichos. Uno de los problemas es descubrir tales motivos
sin un conocimiento de como podrían verse.

Tomando en cuenta el experimento anterior va a devolver un conjunto

de regiones de los genes en el genoma, cada región contiene al menos
un NF-kB binding sites. Supongamos que no sabemos cual es el
patrón de NF-kB y tampoco sabes en que parte se encuentra
localizado en la muestra.
Por lo cual necesitamos un algoritmo que dado un conjunto de

secuencias de un genoma, pueda encontrar subcadenas cortas que
parezcan ocurrir seguido.
A pesar de que el DNA es complicado de descifrar, éste método es

usado popularmente para encontrar motivos bajo la idea de que
palabras mas frecuentes o mas rara corresponden a los motivos
reguladores en el ADN.

Figura: Texto encriptado

Figura: Texto parcialmente desencriptado

Motivos y Dominios Proles
Introducción
secuencias
Proles
Search Trees
Motif Problem

Proles
Supongamos que se presentan 7 nucleótidos de tamaño 32 generados

aleatoriamente. También se da otro conjunto pero con el patrón
secreto p = ATGCAATCT y de tamaño l =8 implantado en una
posición aleatoria. Supongamos que tampoco conocemos el patrón P
o donde la secuencia es implantada. La tarea es hallar P analizando la
secuencia de ADN.
Una de las maneras de hacer esto es buscar todas las cadenas de

longitud l que aparezcan en el conjunto, seria muy raro hallar ese tipo
de cadenas dado el azar(7 veces o mas) por lo cual podemos concluir
que es el patrón p que estamos buscando.

Proles
Figura: Ejemplos de secuencias

Proles
Para hacer mas difícil el problema podemos hacer que ADN mute en
cierto nucleótidos, como por ejemplo tomando los NF-kB binding sites
TCGGGGATTTCC , y se da un conjunto donde cada cadena cambia
muy poco.
Esto se complica ya que la búsqueda de la cadena de tamaño 8 no

revela ninguna patrón y la cadena ATGCAACT no aparece ni una sola
vez.
Por lo cual es necesario que queremos por motivo . Ya que permitir

que un solo string represente un motivo generalmente falla al
representar las variaciones de los patrones en la vida real sin embargo
una representación de un motivo puede ser hecho por una matriz de
perles.

Proles
Figura: Nucleótidos mutados y la obtención del Patrón

Proles
Figura: Secuencia con mutaciones

Proles
Lo que se realiza es lo siguiente, consideremos que un conjunto de t

secuencias de ADN, cada una tiene n nucleótidos. Selecciona una
posición de esas t secuencias,y así formar un array s = (s1 , s2 , ..., st ,
con 1 <= si <= n − l + 1. Éstas cadenas de tamaño l pueden ser
agrupadas en una matriz, la cual será la matriz de perles y después
de un consenso se halla que el string de consenso es ATGCAACT que
es el patrón P.

Proles
Figura: Selección del consenso

Motivos y Dominios El problema de hallar motivos.
Introducción
secuencias
Proles
Search Trees
Motif Problem

Si P (s ) denota la matriz de perles correspondiente a las posiciones

de inicio s, entonces podemos usar Mps (j ) para denotar como el
mayor número en la columna j de P (s ).
Mientras que la puntuación de consenso está dada por la suma de

todos los Mps (j ), éste score puede se usado como una medida de que
tan fuerte es un perl correspondiendo las posiciones de inicio de s.
Un consenso de la puntuación lt corresponde al mejor alineamiento

posible, en el cual cada la de una columna tiene la misma letra. Sin
embargo un consenso de lt /4 corresponde al peor alineamiento posible.

En la forma más sencilla el problema de hallar el motivo se formula

como la selección de las posiciones iniciales de s.

Motivos y Dominios Motif Finding Problem.
Introducción
secuencias
Proles
Search Trees
Motif Problem

Dado un conjunto de secuencias encontrar el conjunto de l-mers. uno

por cada secuencia, que maxímice las puntuaciones.
Input: Una matriz t ×n de ADN.
Output: Un arreglo de t que contienen posiciones iniciales
s = (s 1, s 2, ..., st ) que maxímize Score (s , DNA).

Otra forma de ver el problema es en formular el problema como si

fuera un problema de hallar un String mediano. Dado dos l-mers v y
w, podemos computar la distancia de Hamming entre ellos, como el
número de posiciones que dieren en los dos string.
Forzando la notación podemos calcular la distancia de hamming total

entre v y s , dH (v , s ), para hallar la distancia mínima de hamming
entre un string v y cualquier set es un problema sencillo.
Primero uno tiene que encontrar la mejor coincidencia para v en la

primer secuencia de ADN, luego la segunda y así sucesivamente.

Motivos y Dominios Median String Problem.
Introducción
secuencias
Proles
Search Trees
Motif Problem

Motivos y Dominios Median String Problem.
Dado un conjunto desecuencias de ADN, encontrar el string mediano.

Input: Una matriz At × n de ADN, y l la longitud del patrón.
Output: Un string v de l nucleótidos que minimize la distancia total
entre v ,ADN, sobre todos los strings de esa longitud.
Una vez calculado el string medio del ADN puede ser usado para
generar un prole que resuelva el problema de busqueda de motivos.

Motivos y Dominios Search Trees
Introducción
secuencias
Proles
Search Trees
Motif Problem

Search Trees
Como hemos visto hasta ahora para resolver los problemas de hallar el
motivo y encontrar la cadena mediana, es necesario manejar una gran
cantidad de información (( n − l + 1)t y k l )
En general puede ser visto como un todos los kL L-mers, la siguiente

subrutina NextLeaf muestra como saltar de un L-mer a otro através de
una progresión.

Search Trees
Figura: Espacio de busqueda para hallar los mejores s

Search Trees
Figura: Espacio de busqueda para hallar la cadena mediana

Search Trees
NEXTLEAF( a, L, k )
1 for i ← L to 1
2 if ai < k
3 ai ← ai + 1
4 return a
5 ai ← 1
6 return a

Search Trees
Utilizando este algoritmo podemos producir todas las hojas de un L-mer

con el algoritmo a continuación.
ALL LEAVES( L, k )
1 a ← (1, ..., 1)
2 while forever
3 output a
4 a ←NEXTLEAF(a, L, k )
5 if a = (1, 1, ..., 1)
6 return

Search Trees
Estas hojas pueden ser utilizadas para construir un árbol como el siguiente.
Figura: Arbol con k = 2 y l = 4

Search Trees
PREORDER( v)
1 output v
2 if v has children
3 PREORDER ( left child of v )
4 PREORDER ( rigth child of v )

Search Trees
Una manera iterativa de hacer esto es la siguiente.
NEXTVERTEX( a, i , L, k )
1 if i <L
2 ai +1 ← 1
3 return (a, i + 1)
4 else
5 j ← L to 1
for
6 if aj < k
7 aj ← aj + 1
8 return (a, j )
9 return (a, 0)
Cuando i > L, nos movemos hacia abajo en el árbol. Si i =L y j <k nos

movemos a los lados del árbol, pero k =j nos movemos hacia atrás, el
proceso acaba cuando todo el árbol es explorado.

Motivos y Dominios Motif Problem
Introducción
secuencias
Proles
Search Trees
Motif Problem

Motif Problem
El algoritmo de fuerza bruta quedaría como el siguiente.

BRUTEFORCEMOTIFSEARCH( ADN , t , n, l )
1 bestScore ← 0
2 for each (s 1, ..., st ) from (1, ..., 1) to (n − l + 1, ..., n − l + 1)
3 if Score (s , ADN ) > bestScore
4 bestScore ← Score (s , ADN )

5 bestMotif ← (s 1, s 2, ..., st )
6 return bestMotif

Motif Problem
Para encontrar un mejor método podemos utilizar el método de selección

para encontrar todos los posiblesL-mer.
BRUTEFORCEMOTIFSEARCHAGAIN( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
3 while forever
4 s ← NEXTLEAF(s , t , n − l + 1)
5 if Score (s , ADN ) > bestScore

7 bestMotif ← (s 1, s 2, ..., st )
8 if s = (1, 1, ..., 1)
9 return bestMotif

Motif Problem
O en su defecto podemos utilizar el algoritmo de NextVertex para generar
un árbol.
SIMPLEMOTIFSEARCH( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← 0
3 i ←0
4 while i > 0
5 if i < t
6 (s , i ) ←NEXTVERTEX(s , i , t , n − l + 1)
7 else
8 Score (s , ADN ) > bestScore
if
10 bestMotif ← (s 1, s 2, ..., st )
12 return bestMotif
Motif Problem
Podemos observar de los resultados para hallar la mejor puntuacion. Por
ejemplo si al primeras i posiciones de inicio t son un perl débil, puede que
no sea necesario seguir analizando esa rama, ya que lo más probable es que
los perles que se puedan generar no sean mejores que los perles que
generen las otras ramas.
BRANCHANDBOUNDMOTIFSEARCH( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← 0
3 i ←0
4 while i > 0
5 if i < t
6 optimisticScore ← Score (s , i , ADN ) + (t − i )l

7 if optimisticScore < bestScore
8 (s , i ) ← BYPASS(s , i , t , n − l + 1)
Motif Problem
1 else
3 else
4 Score (s , ADN ) > bestScore

if

6 bestMotif ← (s 1, s 2, ..., st )
8 return bestMotif
Con esto el algoritmo es mejorado para algunas instancias, pero no todas,

el peor caso sigue siendo exponencial.

Motivos y Dominios Median String Problem
Introducción
secuencias
Proles
Search Trees
Motif Problem

Se pueden aplicar los mismo metodos que se aplicaron para mejorar el

problema de motivos, pero ahora con respecto a la mediana, el algoritmo
optimizado sería el siguiente.
BRANCHANDBOUNDMEDIANSEARCH( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← ∞
3 i ←0
4 while i > 0
5 if i < l
6 prex ←nucleotide string corresponding to (s 1, s 2, ..., si )

7 optimisticDistance ← TOTALDISTANCE(prex , ADN )
8 if optimisticDistance > bestDistance
9 (s , i ) ← BYPASS(s , i , t , 4)

1 else
2 (s , i ) ←NEXTVERTEX(s , i , t , 4)
3 else
4 word ←nucleotide string corresponding to (s 1, s 2, ...sl )

5 if TOTALDISTANCE( word , ADN ) < bestDistance
6 bestDistance ← TOTALDISTANCE (word , ADN )
7 bestWord ← word
9 return bestWord
Como en el caso anterior, el algoritmo no provee una mejora en el peor de

los casos, pero hace un incremento en general a la aceleración.

Motivo & Dominios PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Motivo & Dominios PDF

Cargado por

Copyright:

Formatos disponibles

Motivos y Dominios

19 de Junio del 2013

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 1 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 2 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 3 / 58

Un aspecto importante de la caracterización de secuencias biológicas

Secuencias conservadas son secuencias biológicas similares o idénticas

Un motivo es un elemento conservado en la secuencia de aminoácidos

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 4 / 58

Un dominio es un término más genérico que designa una región de una

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 5 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 6 / 58

Identicación de motivos y dominios en alineamiento

Los motivos y dominios son construidos a partir de un AMdS

Esto sirve para hallar las regiones conservadas.

Una vez halladas las regiones que se consideran motivos y dominios se

Esto puede ser almacenado de dos formas:Expresiones regulares o

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 7 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 8 / 58

Usando expresiones regulares en las bases de datos

Una expresión regular es una manera concisa de representar una

Cuando los dominios y los motivos son escritos en expresiones

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 9 / 58

Usando expresiones regulares en las bases de datos

Ejemplo E − X (2) − [FHM ] − X (4) − {P } − L.

Existen dos mecanismos para coincidir dos expresiones regulares: Exact

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 10 / 58

Usando expresiones regulares en las bases de datos

En el Exact Matching como su nombre lo indica no permite alguna

En el Fuzzy matches, también llamado approximate matches, las

Ejemplos: PROSITE y Emotif .

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 11 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 12 / 58

Usando modelos estadísticos en las bases de datos

La mayor limitación de las expresiones regulares es que estos métodos

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 13 / 58

Usando modelos estadísticos en las bases de datos

Al contrario de las expresiones regulares, se utilizan PSSMs (Position

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 14 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 15 / 58

Descubrimiento de motivos en secuencias no alineadas

Para un conjunto de secuencias que estén estrechamente relacionadas,

Para detectar estos motivos se necesitan algoritmos más especializados

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 16 / 58

Descubrimiento de motivos en secuencias no alineadas

Puede ser usado para encontrar motivos ocultos. El método primero

Durante cada iteración la secuencia de patrones de los motivos

El problema radica en la convergencia prematura al alcanzar un

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 17 / 58

Descubrimiento de motivos en secuencias no alineadas

Éste método es muy similar al EM. Primero se hace un alineamiento

Éste método es menos susceptible a los mínimos locales.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 18 / 58

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 19 / 58

Motivos reguladores en secuencias de ADN

Las moscas de fruta son susceptibles a infecciones de bacterias y otros

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 20 / 58

Motivos reguladores en secuencias de ADN

Si realizamos un experimento en el cual se contagian las moscas y

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 21 / 58

Motivos reguladores en secuencias de ADN

Tomando en cuenta el experimento anterior va a devolver un conjunto

Por lo cual necesitamos un algoritmo que dado un conjunto de

Identicación de motivos y dominios en alineamiento

Por lo cual es necesario que queremos por motivo . Ya que permitir

Si P (s ) denota la matriz de perles correspondiente a las posiciones