Documentos de Académico
Documentos de Profesional
Documentos de Cultura
anlisis de secuencias
biolgicas
Ing. Informtico Mitchell Blancas
Secuencias y estructuras
Los algoritmos de anlisis de secuencias tratan al
DNA, RNA y a las protenas como strings de
nucletidos o aminocidos
La mayora de estos algoritmos asume strings de
elementos sin relacin, donde el valor de un
residuo en una posicin no tiene efecto sobre el
valor de otro residuo (La suposicin anterior se
rompe dramticamente para el RNA).
Facultad de CC.FF. - Escuela de Informtica
La
estructura
secundaria
del
RNA
pone
constrains sobre
la secuencia del
RNA.
RNA en accin
GRAMATICAS
Facultad de CC.FF. - Escuela de Informtica
Gramticas transformacionales
Una gramtica caracteriza un lenguaje
Una gramtica consiste de:
N: Un conjunto de smbolos no terminales
V: Un conjunto de smbolos terminales
(son los que realmente aparecen en el
string)
S: Un smbolo no terminal de start S
P: Un conjunto de producciones
Gramticas probabilsticas
Jerarqua de Chomsky
10
Gramaticas y parsers
Gramtica
Automata de parsing
Gramtica Regular
Automata de pila
Gramtica sensitiva al
contexto
Gramtica irrestricta
Mquina de Turing
11
De gramticas regulares a
gramticas libres de
contexto
12
RNA: palindromos
complementarios
13
14
Extensin
Para cubrir estas interacciones a larga
distancia
necesitamos
hacer
una
extensin a nuestras reglas de escritura:
Gramticas regulares (GR)
{NoTerminal} {Terminal}{NoTerminal} {Terminal}
15
(Libre de contexto)
(Regular)
16
17
De gramticas libres de
contexto a gramticas
sensitivas al contexto
18
Pseudoknots
19
Problema
No se conocen algoritmos generales
en tiempo polinomial para parsear
gramticas sensitivas al contexto.
20
21
22
El algoritmo Inside
23
El algoritmo Inside
Inicializacin: (i,i,v) = ev (xi )
Iteracin
24
25
Algoritmo CYK
Dada una secuencia X encontrar el parsing
mas probable.
A la probabilidad del parsing mas probable
del substring Xi...Xj con raiz en V la llamamos
(i,j,V).
Empezamos con (i,i,V) = log P(VXi)
Para todo (j > i), buscamos todas las
producciones VYZ y nos quedamos con la
de mxima probabilidad.
Facultad de CC.FF. - Escuela de Informtica
26
Algoritmo CYK
(i,i,V) = log P(VXi), no terminal V, 1iN
for i=1 to N-1
for j=i+1 to N
no terminal V
(i,j,V) = maxx maxy maxikj [log P(VXY)
+ (i,k,X) + (k+1,j,Y)];
end
endfor
endfor
return (1,N,S)
Facultad de CC.FF. - Escuela de Informtica
27
28
Algoritmo Nussinov
Dada: Una secuencia RNA
Objetivo: Encontrar la estructura secundaria que maximice
el numero de apareamiento de bases
Algoritmo recursivo: Encuentra la mejor estructura para
los inputs i...j intentando una de las siguientes 4
posibilidades:
29
Casos en Nussinov
30
Algoritmo Nussinov
La secuencia a analizar tiene longitud L.
Es un algoritmo de programacin dinmica que llena
una matriz de L x L, con la informacin del mximo
apareamiento de las bases.
Hacemos la funcin (xi, xj) = 1, si xi y xj se
aparearan entre si, y (xi, xj) = 0, en caso contrario.
31
Algoritmo Nussinov
Inicializacin:
(i, i-1) = 0,
i= 2...L
(i, i) = 0,
i= 1...L
Recursin: for i=1...L-1, j=i+1...L
32
Nussinov traceback
33
Ejemplo
34
35
Referencias
1. Biological sequence analysis (Capitulos 9 y 10). Durbin, R., Eddy,
S., Krogh, A., Mitchison, G., Cambridge University Press, 1998.
2. Bioinformatics, The Machine Learning Approach, 2da. Edicion
(Capitulo 11). Baldi, P. & Brunak, S., MIT press, 2001.
3. Bioinformatics: sequence and genome analysis (Capitulo 5). Mount,
D., Cold Spring Harbor Laboratory Press, 2001.
4. The language of RNA: a formal grammar that includes pseudoknots.
Rivas E., Eddy, S.R., Bioinformatics. 2000 Apr;16(4):334-40.
1.
36