ModelosOcultosDeMarkov Introduccion

'
&
$
%
Introducci on a los Modelos de Markov ocultos
Alex Sanchez
Departament dEstadstica U.B.
Estadstica i Bioinform` atica
Introduccion a los MMO Alex S anchez
'
&
$
%
Esquema de la exposici on
Introducci on a los MMO
Tipos de problemas que podemos resolver
Aplicaciones de los MMO en biocomputaci on
Ventajas y inconvenientes del uso de los MMO
Departament dEstadstica U.B. 1
'
&
$
%
1. Modelos Ocultos de Markov
Los modelos de Markov ocultos o Hidden Markov Models son
modelos estadsticos que por su exibilidad,
han resultado ser muy utiles en el an alisis de secuencias de
eventos discretos, ya sean
Reconocimiento del habla (speech recognition),
Identicaci on de genes,
Clasicaci on y b usqueda en bases de datos de protenas,
Otras (Crisis internacionales, Expresi on facial)
'
&
$
%
Los modelos de cadenas de Markov suponen que todos los
datos poseen propiedades estadsticas similares, pero esto no es
siempre as.
A menudo podemos dividir una secuencia de sucesos en bloques
homogeneos distintos entre si. Por ejemplo en una secuencia de
ADN podemos distinguir
Islas CpG / Oceanos
Fragmentos codicantes / Fragmentos No codicantes,
Exones/Intrones,...
Los Modelos Ocultos de Markov resultan adecuados para
modelizar tales situacionespues permiten tratar por separado la
idea de bloque de la secuencia de sucesos observados.
'
&
$
%
Ejemplo 1: El jugador ocasionalmente tramposo
Un jugador un poco tramposo tira repetidamente una de dos
monedas. La primera moneda es justa, con
P(H) = P(T) = 0, 5. La segunda est a cargada, con P(T) = 0,7.
La segunda est a equilibrada.
Despues de cada tirada, el jugador puede cambiar de moneda,
con probabilidad 0.1, si ha tirado la 1
a
moneda y 0.4, si ha
tirado la segunda.
En un momento dado podemos ver los resultados de las tiradas
pero no sabemos de que moneda vienen
O = TTTHHTHT
. .
justa?
TTTTH
. .
Cargada?
'
&
$
%
Un modelo para el juego del jugador un poco tramposo
El sistema puede encontrarse en dos estados
Estado S
1
: Se tira la 1
a
moneda (cargada)
Sale cruz (T) con probabilidad P(T|S
1
)
Sale cara (H) con probabilidad P(H|S
1
)
Estado S
2
: Se tira la 2
a
moneda (justa)
Sale cruz (T) con probabilidad P(T|S
2
)
Sale cara (H) con probabilidad P(H|S
2
)
Para la siguiente tirada:
Si el estado actual es S
1
el jugador seguira en el con
probabilidad 0.9 ( pasa a S
2
con prob. 0.1)
Si el estado actual es S
2
el jugador seguir a en el con
probabilidad 0.6 ( pasa a S
1
con prob. 0.4)
'
&
$
%
Figura 1: El modelo del jugador tramposo
'
&
$
%
1.1. Elementos de un MMO general (1)
Un modelo oculto de Markov (MMO) es un modelo probabilstico,
M formado por tres componentes: M = (, Q, ) donde:
es un alfabeto de smbolos
Q = {1, 2, ..., M} es un conjunto nito de estados, capaz de
emitir smbolos del alfabeto
es un conjunto de probabilidades formado por:
Probabilidades de transici on entre estados, a
kl
, k, l Q
Probabilidades de emisi on de los smbolos en cada estado
e
k
(b), k Q, b
Probabilidades iniciales (
1
, ...,
k
).
'
&
$
%
1.2. Elementos de un MMO general (2)
Un camino (path) = p
1
, ..., p
L
en el modelo M es una
sucesi on de estados. Podemos redenir los terminos anteriores,
dada una secuencia de observaciones O = (o
1
, ..., o
l
)
como:
a
kl
= P (p
i
= l|p
i1
= k)
e
k
(b) = P (o
i
= b|p
i
= k)
La probabilidad de que una secuencia O sea generada por el
modelo M dado el camino ser a:
P(O|) = (a
p
0
,p
1
)
L
i=1
_
e
p
i
(o
i
) a
p
i
,p
i+1
_
'
&
$
%
1.3. Un MMO para el jugador tramposo
En el modelo del jugador tramposo descrito tenemos:
Estados: Q = {C, E}, donde: C signica cargada y E
equilibrada.
El alfabeto es = {H, T} donde H signica cara y T
signica cruz.
Las probabilidades de moverse entre los estados son:
a
CC
= 0,9, a
CE
= 0,1, a
EC
= 0,4, a
EE
= 0,6
y las probabilidades de emisi on de smbolos:
e
C
(H) = 0,25, e
C
(T) = 0,75, e
E
(H) = 0,5, e
E
(T) = 0,5
'
&
$
%
1.4. Localizaci on de islas CpG
Dado un fragmento de un genoma se desea localizar islas CpG
en el, si contiene alguna.
Opci on 1: Utilizar dos modelos de markov, uno para islas CpG
(+) y otro para oceanos (-)
Se extrae una subsecuencia con una ventana deslizante,
O
k
= o
k+1
...o
k
+ l, (l << L, 1 < k L l),
Se puntua cada subsecuencia con el logaritmo de la raz on de
verosimilitudes, S(O
k
):
Las puntuaciones altas indican islas CpG potenciales.
Pero... que tama no de ventana hay que usar? problema
Recurriendo a un MMO se puede obtener una soluci on mejor
'
&
$
%
1.5. Un MMO para las islas CpG
Usando un MMO podemos incluir islas y oceanos en el mismo
modelo.
Estados: Q = {A
+
, C
+
, G
+
, T
+
. .
Islas CpG
, A
, C
, G
, T
. .
Oceanos
}.
El alfabeto es = {X} = {A, C, G, T} donde cada letra, X,
puede ser emitida desde el estado X
+
o X
.
Las probabilidades de transici on...
entre los estados de cada tipo (+ o ) seran similares a
las de los correspondientes modelos de Markov.
entre cualquier estado + o seran peque nas pero = 0
Las probabilidades de emisi on de smbolos valen 1 pues cada
estado X
+
o X
emite un unico smbolo X.

'
&
$
%
Figura 2: El MMO para las islas CpG. Un s olo modelo con 8 estados
y 64 transiciones posibles (no se muestran todas)
'
&
$
%
Figura 3: El MMO para las islas CpG, con todas las transiciones
'
&
$
%
1.6. Tratamiento de los MMO
Mediante un MMO se suelen abordar tres tipos de cuestiones
distintas:
1. Decodicaci on (Decoding): Dada una secuencia de
observaciones O = o
1
, ..., o
L
y un modelo, M = (, Q, ),
cual es la sucesi on de estados m as probable que ha
producido la secuencia?
2. Evaluaci on (Scoring): Dada una secuencia de observaciones
O = o
1
, ..., o
L
y un modelo, M = (, Q, ), cual es la
probabilidad, P(O|M) que la secuencia haya sido generada
por este?
3. Estimaci on (Training): Dada una secuencia de
observaciones O = o
1
, ..., o
L
que modelo encaja mejor con
esta?, es decir, hallar el modelo que maximice P(O|M)
'
&
$
%
Aplicaciones de los distintos problemas
1. Decodicaci on: Queremos identicar una region codicante
en una secuencia de ADN. Si el camino m as probable pasa
por una subsecuencia de estados perteneciente a dicho tipo
podemos considerar (que lo m as probable) es que la region
codicante se encuentre en dicha subsecuencia.
2. Evaluaci on: Si queremos clasicar una nueva proteina
podemos construir un MMO para cada familia conocida de
proteinas y utilizarlo para calcular la probabilidad de la nueva
secuencia. Asignaremos la proteina a la familia en cuyo modelo
obtenga mayor probabilidad.
3. Estimaci on: En cualquier caso antes de utilizar el modelo es
preciso denir su arquitectura y estimar sus par ametros
'
&
$
%
2. El problema de la decodicaci on
Dada una secuencia de observaciones O y un modelo,
M = (, Q, ), queremos calcular la secuencia de estados m as
probable que producir a la secuencia observada. Podemos
1. Escoger la secuencia de estados que maximice la
probabilidad de observarla
2. Escoger el camino m as probable: Algoritmo de Viterbi
=arg m ax
P(O, ).
La segunda opci on es la m as utilizada
'
&
$
%
El algoritmo de Viterbi (1)
Dada una secuencia O sea v
k
(i) la probabilidad del camino
m as probable del sujo (primeros i caracteres de la secuencia)
o
1
o
2
...o
i
que acaba en el estado k (k Q; 1 i L)
Supongamos que conocemos las probabilidades, v
j
(i), j Q
de acabar en cualquier estado en la observaci on i.
La probabilidad de que, en la observaci on i + 1, el camino m as
probable se sit ue en el estado l ser a:
v
l
(i + 1) = e
l
(o
i+1
) m ax
kQ
[v
k
(i)a
kl
]
Para obtener el camino optimo se calculan incrementalmente
las probabilidades v
k
(i), i = 0, 1, ... guardando, en cada paso, el
valor k (el estado) en donde la probabilidad ha sido mayor.
'
&
$
%
El algoritmo de Viterbi (2)
1. Inicializaci on: asignando probabilidades al estado inicial
v
inicio
(0) = 1; v
k
(0) = 0, k = inicio
2. Recursi on: Para cada longitud i = 1, 2, ..., L 1 y cada estado
l Q calcular recursivamente
v
l
(i + 1) = e
l
(o
i
) m ax
kQ
[v
k
(i 1)a
kl
] , guardando en cada paso
ptr
i
(l) = arg m ax
k
[v
k
(i 1)a
kl
]
3. Finalizaci on: Se reconstruye recursivamente el camino optimo
L
= arg m ax
kQ
[v
k
(L)a
k,n
] ,
i1
= ptr
i
(
i
)
'
&
$
%
Ejemplo: Localizaci on de islas CpG
La localizaci on de islas CpG en un fragmento de un genoma
puede hacerse utilizando el MMO construido para las islas CpG
Dado un fragmento de genoma aplicaremos el algoritmo de
Viterbi para hallar el la sucesi on de estados m as probable de
haberlo generado
Previsiblemente el camino optimo recorrer a etapas entre los
estados + y etapas entre los . Las etapas recorridas entre los
estados + se corresponderan con las islas CpG
La gura siguiente muestra el resultado de aplicar el algoritmo
de Viterbi a una secuencia CGCG. El camino m as probable
se muestra en negrita y, dado que transcurre entre estados +,
se postula como isla CpG.
'
&
$
%
Figura 4: Camino optimo para una secuencia CGCG
'
&
$
%
3. El problema de la evaluaci on
Dada una secuencia de observaciones O y un MMO,
M = (, Q, ), queremos calcular la probabilidad de que el
modelo haya generado la secuencia observada
Podemos indicar esta probabilidad como:
P(O|M) =
P(O, ),
: Todos los caminos que pueden generar O
El n umero de caminos crece exponencialmente con la longitud
de la secuencia por lo que el c alculo es muy costoso
El algoritmo recursivo forward permite realizar el c alculo de
forma r apida y ecaz
'
&
$
%
Figura 5: El c alculo directo de la probabilidad de una secuencia es
muy costoso. En el ejemplo se muestran los c alculos de la probabili-
dad de la secuencia ATC
'
&
$
%
El algoritmo forward
Denimos f
t
(i) = P(o
1
o
2
, ..., o
t
; s
t
= i|M) la probabilidad de la
secuencia observada hasta el instante t y que nos encontremos
en el estado i.
Conocida f
t
(i) la probabilidad de encontrarse en el estado j en
el instante siguiente se puede expresar como:
f
t+1
(j) =
_
M
i=1
f
t
(i) a
ij
_
e
j
(o
t+1
)
Podemos calcular los valores de f
t+1
(j) iterativamente con lo
que, nalmente, la probabilidad de observar la secuencia O
ser a:
P(O|M) =
M
i=1
f
L
(i).
'
&
$
%
Resumiendo, los pasos del algoritmo forward:
1. Inicializaci on
f
1
(i) = (i) e
i
(o
1
)
2. Recursi on: Para t = 1, 2, ..., L 1, 1 j M calcular:
f
t+1
(j) =
_
M
i=1
f
t
(i) a
ij
_
e
j
(o
t+1
)
3. Evaluaci on
P(O|M) =
M
i=1
f
L
(i).
En el algoritmo forward hemos utilizado probabilidades
iniciales
i
y en el de viterbi un estado inicial, 0. Obviamente
ambas opciones son intercambiables
'
&
$
%
4. El problema de la estimaci on
Para poder estimar los par ametros de un MMO necesitamos
1. La topologia del MMO (lista de todos los nodos y
transiciones)
2. Datos (cuantos m as, mejor)
El algoritmo de estimaci on m as popular se conoce como
algoritmo de BaumWelch y es un caso especial de un potente
algoritmo de estimaci on conocido como algoritmo EM.
Tambien suelen utilizarse aproximaciones bayesianas del tipo
Maximizaci on a posterior interesantes en tanto que permiten
describir las suposiciones iniciales sobre el modelo con una
distribuci on prior adecuada.
'
&
$
%
4.1. Estimaci on con la sucesi on de estados
conocida
A veces, como en el ejemplo de las islas CpG, puede conocerse
desde que estado se ha generado cada observaci on de una
secuencia.
En estos casos la estimaci on puede basarse en el contaje directo
de las transiciones A
kl
y las emisiones E
k
(b), y los estimadores
de m axima verosmilitud:
a
kl
=
A
kl
A
kl
, e
k
(b) =
E
k
(b)
E
k
(b
)
.
Pueden a nadirse pseudocontajes a las transiciones para evitar
problemas de sobreajuste y reejar informaciones a priori sobre
los valores de las probabilidades.
'
&
$
%
5. Ventajas e inconvenientes
5.1. Ventajas de los MMO
Fundamentaci on estadstica
1. Teora subyacente familiar para los estadsticos
2. Podemos actuar sobre los procesos de estimacion y
vericaci on
3. Puede realizarse un an alisis te orico de modelos y resultados
4. Son potentes herramienta de modelizaci on, m as potentes
que muchas herramientas tradicionales
Modularidad
1. Los estados de un MMO pueden ser a su vez MMO
2. Permite la modelizaci on por modulos separados que se
integran en modelos de orden superior
'
&
$
%
5.2. Ventajas de los MMO (y 2)
Transparencia del modelo
Suponiendo que la arquitectura del modelo est a bien
dise nada
Los usuarios pueden usarlo de forma inteligible
El modelo mismo puede contribuir a una mejor comprensi on
de los procesos
Admiten la incorporaci on de conocimiento previo
Es posible incorporar informaci on previa a la arquitectura
del modelo
Puede inicializarse cerca de los valores que se consideran
adecuados
Puede utilizarse la informaci on previa para restringir el
dominio de b usqueda en el proceso de estimaci on
'
&
$
%
5.3. Desventajas que presentan los MMO
Suposici on de independencia de los estados de la CM:
No suele ser del todo cierta
Problemas tpicos del aprendizaje automatico
1. Hay que vigilar los m aximos locales que pueden hacer que el
modelo no converja
2. Hay que evitar el sobreajuste
Velocidad. La mayora de los procesos que se realizan con
MMO requieren realizar enumeraciones. A un si se utilizan
metodos ecientes resultan lentos en comparaci on con otros
metodos
'
&
$
%
6. Campos de aplicaci on de los MOM
Biologa
Alineamiento de secuencias (SAM)
Classicaci on de protenas
Predicci on de estructura secundaria
El m as popular: Reconocimiento del habla
Otros
Estudio de los gestos faciales
Previsi on de crisis internacionales
'
&
$
%
7. Bibliografa y enlaces
Durbin Richard et al. (1998) Biological sequence analysis.
Cambridge University Press
Koski, Timo. (2002) Hidden Markov Models in Bioinformatics.
Kluwer
Rabiner, L.R. (1989) A tutorial on hidden markov models and
selected applications in speech recognition.Proceedings of the
IEEE 77:257-286
Un enlace a materiales y enlaces sobre MMO
http://www.ub.edu/stat/personal/alexsanchez/
personal/materials/HMM_Links.htm
'
&
$
%

ModelosOcultosDeMarkov Introduccion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ModelosOcultosDeMarkov Introduccion

Cargado por

Copyright:

Formatos disponibles

'

emite un unico smbolo X.

También podría gustarte