Está en la página 1de 58

Motivos y Dominios

Jesús Fernández C.

Cinvestav-Zacatenco

19 de Junio del 2013

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 1 / 58


1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 2 / 58


Motivos y Dominios Introducción

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 3 / 58


Motivos y Dominios Introducción

Introducción

Un aspecto importante de la caracterización de secuencias biológicas


son los motivos y los dominios, ya que sirven para caracterizar
funciones de proteínas desconocidas.

Secuencias conservadas son secuencias biológicas similares o idénticas


que pueden encontrarse en ácidos nucléicos, proteínas.

Un motivo es un elemento conservado en la secuencia de aminoácidos


o nucleótidos, que habitualmente se asocia con una función concreta.
Los motivos se generan a partir de alineamientos múltiples de
secuencias con elementos funcionales o estructurales conocidos, por lo
que son útiles para predecir la existencia de esos mismos elementos en
otras proteínas de función y estructura desconocida.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 4 / 58


Motivos y Dominios Introducción

Introducción

Un dominio es un término más genérico que designa una región de una


proteína con interés biológico funcional o estructural. También se
llama dominio a una región de la estructura tridimensional de una
proteína con una función concreta, que incluye regiones no
necesariamente contiguas en la secuencia de aminoácidos.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 5 / 58


Identicación de motivos y dominios en alineamiento
Motivos y Dominios múltiple de secuencias

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 6 / 58


Identicación de motivos y dominios en alineamiento
Motivos y Dominios múltiple de secuencias

Identicación de motivos y dominios en alineamiento


múltiple de secuencias

Los motivos y dominios son construidos a partir de un AMdS


(Alineamiento múltiple de Secuencias) en las cuales, las secuencias
está relacionadas entre sí.

Esto sirve para hallar las regiones conservadas.

Una vez halladas las regiones que se consideran motivos y dominios se


prosigue a almacenar la información de consenso en una base de datos
para que así sirvan como base en la identicación de las funciones de
una proteína desconocida que presente los mismos patrones.

Esto puede ser almacenado de dos formas:Expresiones regulares o


Mediante un modelo estadístico.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 7 / 58


Motivos y Dominios Usando expresiones regulares en las bases de datos

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 8 / 58


Motivos y Dominios Usando expresiones regulares en las bases de datos

Usando expresiones regulares en las bases de datos

Una expresión regular es una manera concisa de representar una


familia de secuencias por un string.

Cuando los dominios y los motivos son escritos en expresiones


regulares se deben seguir las siguientes reglas.
Un aminoácido es conservado se debe escribir su código de letra.
Cuando una posición tiene varias alternativas de aminoácidos se
encierra entre corchetes todas las posibilidades.
Si no está especicado se escribe por una X.
Cada posición está ligada por un guión.
Finalmente si se repite un patrón se escribe entre paréntesis cuántas
veces se repite.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 9 / 58


Motivos y Dominios Usando expresiones regulares en las bases de datos

Usando expresiones regulares en las bases de datos

Ejemplo E − X (2) − [FHM ] − X (4) − {P } − L.

Existen dos mecanismos para coincidir dos expresiones regulares: Exact


Matching y Fuzzy Matching.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 10 / 58


Motivos y Dominios Usando expresiones regulares en las bases de datos

Usando expresiones regulares en las bases de datos

En el Exact Matching como su nombre lo indica no permite alguna


variación en la secuencia del query, ésta manera de buscar tiene una
alta probabilidad de perder motivos relevantes que pueden tener
pequeñas variaciones.

En el Fuzzy matches, también llamado approximate matches, las


coincidencias son más exibles entre residuos de propiedades
bioquímicas semejantes, éste método es capaz de incluir una mayor
variedad de formas de un motivo con una función conservada, sin
embargo ésto incrementa el ruido y los falsos positivos.

Ejemplos: PROSITE y Emotif .

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 11 / 58


Motivos y Dominios Usando modelos estadísticos en las bases de datos

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 12 / 58


Motivos y Dominios Usando modelos estadísticos en las bases de datos

Usando modelos estadísticos en las bases de datos

La mayor limitación de las expresiones regulares es que estos métodos


no toman en cuenta la información de la probabilidad. Una expresión
regular tiene menos poder predictivo porque muchas secuencias con el
mismo tipo de motivo no son representadas.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 13 / 58


Motivos y Dominios Usando modelos estadísticos en las bases de datos

Usando modelos estadísticos en las bases de datos

Al contrario de las expresiones regulares, se utilizan PSSMs (Position


specic scoring matrices), perles y HMMs (Hidden Makarov models)
y preservan la información de la secuencia de un AMdS y lo expresan
con modelos probabilísticos. Además, éstos modelos estadísticos tienen
un mayor poder de predicción que los modelos basados en expresiones
regulares, incluso aunque han sido obtenidos de un número reducido
de secuencias. Ésta capacidad puede incrementar la sensibilidad del
descubrimiento de motivos y detectar secuencias divergentes pero que
estén relacionadas.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 14 / 58


Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 15 / 58


Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas

Descubrimiento de motivos en secuencias no alineadas

Para un conjunto de secuencias que estén estrechamente relacionadas,


se pueden encontrar motivos mediante el uso de AMdS, pero no
sucede ésto cuando son distantes pero están relacionadas.

Para detectar estos motivos se necesitan algoritmos más especializados


como: Expectation maximation y Gibbs Motif sampling.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 16 / 58


Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas

Descubrimiento de motivos en secuencias no alineadas

Puede ser usado para encontrar motivos ocultos. El método primero


hace un alineamiento aleatorio de secuencias para generar un PSSM
de prueba. Luego la prueba es usada para comparar cada secuencia
individualmente. Se irán modicando las puntuaciones de la PSSM en
cada iteración para maximizar el alineamiento de la matriz a cada
secuencia.

Durante cada iteración la secuencia de patrones de los motivos


conservados se irá reuniendo en el PSSM.

El problema radica en la convergencia prematura al alcanzar un


óptimo local.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 17 / 58


Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas

Descubrimiento de motivos en secuencias no alineadas

Éste método es muy similar al EM. Primero se hace un alineamiento


sobre todas las secuencias excepto una. Luego un se genera un PSSM
de prueba, luego la matriz se alinea con la secuencia que se dejó fuera.
La matriz de puntuaciones se ajusta para obtener el mejor
alineamiento. Éste se procesó se repite hasta que ya no quede nada
que mejorar.

Éste método es menos susceptible a los mínimos locales.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 18 / 58


Motivos y Dominios Motivos reguladores en secuencias de ADN

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 19 / 58


Motivos y Dominios Motivos reguladores en secuencias de ADN

Motivos reguladores en secuencias de ADN

Las moscas de fruta son susceptibles a infecciones de bacterias y otros


patógenos.Pero no tienen el sistema inmune tan sosticado como
nosotros. Ellos tienen un conjunto de genes inmunes que generalmente
se encuentran dormidos en el genoma de la mosca los cuáles de alguna
manera se despiertan y producen proteínas que destruyen el patógeno
y generalmente curan la infección.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 20 / 58


Motivos y Dominios Motivos reguladores en secuencias de ADN

Motivos reguladores en secuencias de ADN

Si realizamos un experimento en el cual se contagian las moscas y


medimos cuales genes se despiertan como una respuesta inmune. De
este conjunto de genes nos gustaría determinar que activa ese proceso.
Éste proceso nos va a mostrar que los residuos TCGGGGATTTCC son
los culpables de ésta activación. Éstas cadenas cortas llamadas NF-kB
binding sites, son importantes ejemplos de los motivos reguladores.
Proteínas tales como los factores de transcripción están ligados a estos
motivos, Haciendo que el ARN polimerasa transcriba los genes
previamente dichos. Uno de los problemas es descubrir tales motivos
sin un conocimiento de como podrían verse.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 21 / 58


Motivos y Dominios Motivos reguladores en secuencias de ADN

Motivos reguladores en secuencias de ADN

Tomando en cuenta el experimento anterior va a devolver un conjunto


de regiones de los genes en el genoma, cada región contiene al menos
un NF-kB binding sites. Supongamos que no sabemos cual es el
patrón de NF-kB y tampoco sabes en que parte se encuentra
localizado en la muestra.

Por lo cual necesitamos un algoritmo que dado un conjunto de


secuencias de un genoma, pueda encontrar subcadenas cortas que
parezcan ocurrir seguido.

A pesar de que el DNA es complicado de descifrar, éste método es


usado popularmente para encontrar motivos bajo la idea de que
palabras mas frecuentes o mas rara corresponden a los motivos
reguladores en el ADN.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 22 / 58


Motivos y Dominios Motivos reguladores en secuencias de ADN

Motivos reguladores en secuencias de ADN

Figura: Texto encriptado

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 23 / 58


Motivos y Dominios Motivos reguladores en secuencias de ADN

Motivos reguladores en secuencias de ADN

Figura: Texto parcialmente desencriptado

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 24 / 58


Motivos y Dominios Proles

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 25 / 58


Motivos y Dominios Proles

Proles

Supongamos que se presentan 7 nucleótidos de tamaño 32 generados


aleatoriamente. También se da otro conjunto pero con el patrón
secreto p = ATGCAATCT y de tamaño l =8 implantado en una
posición aleatoria. Supongamos que tampoco conocemos el patrón P
o donde la secuencia es implantada. La tarea es hallar P analizando la
secuencia de ADN.

Una de las maneras de hacer esto es buscar todas las cadenas de


longitud l que aparezcan en el conjunto, seria muy raro hallar ese tipo
de cadenas dado el azar(7 veces o mas) por lo cual podemos concluir
que es el patrón p que estamos buscando.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 26 / 58


Motivos y Dominios Proles

Proles

Figura: Ejemplos de secuencias

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 27 / 58


Motivos y Dominios Proles

Proles

Para hacer mas difícil el problema podemos hacer que ADN mute en
cierto nucleótidos, como por ejemplo tomando los NF-kB binding sites
TCGGGGATTTCC , y se da un conjunto donde cada cadena cambia
muy poco.

Esto se complica ya que la búsqueda de la cadena de tamaño 8 no


revela ninguna patrón y la cadena ATGCAACT no aparece ni una sola
vez.

Por lo cual es necesario que queremos por motivo . Ya que permitir


que un solo string represente un motivo generalmente falla al
representar las variaciones de los patrones en la vida real sin embargo
una representación de un motivo puede ser hecho por una matriz de
perles.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 28 / 58


Motivos y Dominios Proles

Proles

Figura: Nucleótidos mutados y la obtención del Patrón

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 29 / 58


Motivos y Dominios Proles

Proles

Figura: Secuencia con mutaciones

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 30 / 58


Motivos y Dominios Proles

Proles

Lo que se realiza es lo siguiente, consideremos que un conjunto de t


secuencias de ADN, cada una tiene n nucleótidos. Selecciona una
posición de esas t secuencias,y así formar un array s = (s1 , s2 , ..., st ,
con 1 <= si <= n − l + 1. Éstas cadenas de tamaño l pueden ser
agrupadas en una matriz, la cual será la matriz de perles y después
de un consenso se halla que el string de consenso es ATGCAACT que
es el patrón P.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 31 / 58


Motivos y Dominios Proles

Proles

Figura: Selección del consenso

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 32 / 58


Motivos y Dominios El problema de hallar motivos.

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 33 / 58


Motivos y Dominios El problema de hallar motivos.

El problema de hallar motivos.

Si P (s ) denota la matriz de perles correspondiente a las posiciones


de inicio s, entonces podemos usar Mps (j ) para denotar como el
mayor número en la columna j de P (s ).

Mientras que la puntuación de consenso está dada por la suma de


todos los Mps (j ), éste score puede se usado como una medida de que
tan fuerte es un perl correspondiendo las posiciones de inicio de s.

Un consenso de la puntuación lt corresponde al mejor alineamiento


posible, en el cual cada la de una columna tiene la misma letra. Sin
embargo un consenso de lt /4 corresponde al peor alineamiento posible.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 34 / 58


Motivos y Dominios El problema de hallar motivos.

El problema de hallar motivos.

En la forma más sencilla el problema de hallar el motivo se formula


como la selección de las posiciones iniciales de s.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 35 / 58


Motivos y Dominios Motif Finding Problem.

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 36 / 58


Motivos y Dominios Motif Finding Problem.

Motif Finding Problem.

Dado un conjunto de secuencias encontrar el conjunto de l-mers. uno


por cada secuencia, que maxímice las puntuaciones.
Input: Una matriz t ×n de ADN.
Output: Un arreglo de t que contienen posiciones iniciales
s = (s 1, s 2, ..., st ) que maxímize Score (s , DNA).

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 37 / 58


Motivos y Dominios Motif Finding Problem.

Motif Finding Problem.

Otra forma de ver el problema es en formular el problema como si


fuera un problema de hallar un String mediano. Dado dos l-mers v y
w, podemos computar la distancia de Hamming entre ellos, como el
número de posiciones que dieren en los dos string.

Forzando la notación podemos calcular la distancia de hamming total


entre v y s , dH (v , s ), para hallar la distancia mínima de hamming
entre un string v y cualquier set es un problema sencillo.

Primero uno tiene que encontrar la mejor coincidencia para v en la


primer secuencia de ADN, luego la segunda y así sucesivamente.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 38 / 58


Motivos y Dominios Median String Problem.

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 39 / 58


Motivos y Dominios Median String Problem.

Median String Problem.

Dado un conjunto desecuencias de ADN, encontrar el string mediano.


Input: Una matriz At × n de ADN, y l la longitud del patrón.
Output: Un string v de l nucleótidos que minimize la distancia total
entre v ,ADN, sobre todos los strings de esa longitud.

Una vez calculado el string medio del ADN puede ser usado para
generar un prole que resuelva el problema de busqueda de motivos.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 40 / 58


Motivos y Dominios Search Trees

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 41 / 58


Motivos y Dominios Search Trees

Search Trees

Como hemos visto hasta ahora para resolver los problemas de hallar el
motivo y encontrar la cadena mediana, es necesario manejar una gran
cantidad de información (( n − l + 1)t y k l )

En general puede ser visto como un todos los kL L-mers, la siguiente


subrutina NextLeaf muestra como saltar de un L-mer a otro através de
una progresión.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 42 / 58


Motivos y Dominios Search Trees

Search Trees

Figura: Espacio de busqueda para hallar los mejores s

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 43 / 58


Motivos y Dominios Search Trees

Search Trees

Figura: Espacio de busqueda para hallar la cadena mediana

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 44 / 58


Motivos y Dominios Search Trees

Search Trees

NEXTLEAF( a, L, k )
1 for i ← L to 1

2 if ai < k

3 ai ← ai + 1
4 return a

5 ai ← 1
6 return a

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 45 / 58


Motivos y Dominios Search Trees

Search Trees

Utilizando este algoritmo podemos producir todas las hojas de un L-mer


con el algoritmo a continuación.
ALL LEAVES( L, k )
1 a ← (1, ..., 1)
2 while forever

3 output a

4 a ←NEXTLEAF(a, L, k )
5 if a = (1, 1, ..., 1)

6 return

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 46 / 58


Motivos y Dominios Search Trees

Search Trees

Estas hojas pueden ser utilizadas para construir un árbol como el siguiente.

Figura: Arbol con k = 2 y l = 4

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 47 / 58


Motivos y Dominios Search Trees

Search Trees

PREORDER( v)
1 output v
2 if v has children

3 PREORDER ( left child of v )

4 PREORDER ( rigth child of v )

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 48 / 58


Motivos y Dominios Search Trees

Search Trees
Una manera iterativa de hacer esto es la siguiente.
NEXTVERTEX( a, i , L, k )
1 if i <L
2 ai +1 ← 1
3 return (a, i + 1)

4 else

5 j ← L to 1
for

6 if aj < k

7 aj ← aj + 1
8 return (a, j )

9 return (a, 0)

Cuando i > L, nos movemos hacia abajo en el árbol. Si i =L y j <k nos


movemos a los lados del árbol, pero k =j nos movemos hacia atrás, el
proceso acaba cuando todo el árbol es explorado.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 49 / 58


Motivos y Dominios Motif Problem

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 50 / 58


Motivos y Dominios Motif Problem

Motif Problem

El algoritmo de fuerza bruta quedaría como el siguiente.


BRUTEFORCEMOTIFSEARCH( ADN , t , n, l )
1 bestScore ← 0
2 for each (s 1, ..., st ) from (1, ..., 1) to (n − l + 1, ..., n − l + 1)
3 if Score (s , ADN ) > bestScore

4 bestScore ← Score (s , ADN )


5 bestMotif ← (s 1, s 2, ..., st )
6 return bestMotif

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 51 / 58


Motivos y Dominios Motif Problem

Motif Problem

Para encontrar un mejor método podemos utilizar el método de selección


para encontrar todos los posiblesL-mer.
BRUTEFORCEMOTIFSEARCHAGAIN( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← Score (s , ADN )
3 while forever

4 s ← NEXTLEAF(s , t , n − l + 1)
5 if Score (s , ADN ) > bestScore

6 bestScore ← Score (s , ADN )


7 bestMotif ← (s 1, s 2, ..., st )
8 if s = (1, 1, ..., 1)

9 return bestMotif

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 52 / 58


Motivos y Dominios Motif Problem

Motif Problem
O en su defecto podemos utilizar el algoritmo de NextVertex para generar
un árbol.
SIMPLEMOTIFSEARCH( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← 0
3 i ←0
4 while i > 0
5 if i < t
6 (s , i ) ←NEXTVERTEX(s , i , t , n − l + 1)
7 else
8 Score (s , ADN ) > bestScore
if
9 bestScore ← Score (s , ADN )
10 bestMotif ← (s 1, s 2, ..., st )
11 (s , i ) ←NEXTVERTEX(s , i , t , n − l + 1)
12 return bestMotif
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 53 / 58
Motivos y Dominios Motif Problem

Motif Problem
Podemos observar de los resultados para hallar la mejor puntuacion. Por
ejemplo si al primeras i posiciones de inicio t son un perl débil, puede que
no sea necesario seguir analizando esa rama, ya que lo más probable es que
los perles que se puedan generar no sean mejores que los perles que
generen las otras ramas.
BRANCHANDBOUNDMOTIFSEARCH( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← 0
3 i ←0
4 while i > 0

5 if i < t

6 optimisticScore ← Score (s , i , ADN ) + (t − i )l


7 if optimisticScore < bestScore

8 (s , i ) ← BYPASS(s , i , t , n − l + 1)
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 54 / 58
Motivos y Dominios Motif Problem

Motif Problem

1 else

2 (s , i ) ←NEXTVERTEX(s , i , t , n − l + 1)
3 else

4 Score (s , ADN ) > bestScore


if

5 bestScore ← Score (s , ADN )


6 bestMotif ← (s 1, s 2, ..., st )
7 (s , i ) ←NEXTVERTEX(s , i , t , n − l + 1)
8 return bestMotif

Con esto el algoritmo es mejorado para algunas instancias, pero no todas,


el peor caso sigue siendo exponencial.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 55 / 58


Motivos y Dominios Median String Problem

1 Motivos y Dominios
Introducción
Identicación de motivos y dominios en alineamiento múltiple de
secuencias
Usando expresiones regulares en las bases de datos
Usando modelos estadísticos en las bases de datos
Descubrimiento de motivos en secuencias no alineadas
Motivos reguladores en secuencias de ADN
Proles
El problema de hallar motivos.
Motif Finding Problem.
Median String Problem.
Search Trees
Motif Problem
Median String Problem

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 56 / 58


Motivos y Dominios Median String Problem

Median String Problem

Se pueden aplicar los mismo metodos que se aplicaron para mejorar el


problema de motivos, pero ahora con respecto a la mediana, el algoritmo
optimizado sería el siguiente.
BRANCHANDBOUNDMEDIANSEARCH( ADN , t , n, l )
1 s ← (1, 1, ..., 1)
2 bestScore ← ∞
3 i ←0
4 while i > 0

5 if i < l

6 prex ←nucleotide string corresponding to (s 1, s 2, ..., si )


7 optimisticDistance ← TOTALDISTANCE(prex , ADN )
8 if optimisticDistance > bestDistance

9 (s , i ) ← BYPASS(s , i , t , 4)

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 57 / 58


Motivos y Dominios Median String Problem

Median String Problem

1 else

2 (s , i ) ←NEXTVERTEX(s , i , t , 4)
3 else

4 word ←nucleotide string corresponding to (s 1, s 2, ...sl )


5 if TOTALDISTANCE( word , ADN ) < bestDistance
6 bestDistance ← TOTALDISTANCE (word , ADN )
7 bestWord ← word
8 (s , i ) ←NEXTVERTEX(s , i , t , n − l + 1)
9 return bestWord

Como en el caso anterior, el algoritmo no provee una mejora en el peor de


los casos, pero hace un incremento en general a la aceleración.

Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 58 / 58

También podría gustarte