Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
Ejemplo:
Sea W el resultado de sealar al azar un texto
Sea wi la i-esima palabra del espaol (word type)
Sea wiel nmero de veces que wi aparece (word tokens)
Probabilidad
wi
P(W = wi) =
j=1 wj
P(W2 = wj W1 = wi ) =
W1 = wi, W2, = wj
W1 = wi
El Teorema de Bayes
P(A B)
P(AB) =
A
P(B)
P(A B)
P(BA) =
P(A)
P(AB) P(B) = P(A) P(BA)
P(A) P(BA)
P(AB) =
P(B)
El Teorema de Bayes
P(A) P(BA)
P(AB) =
P(B)
El Teorema de Bayes
Si se require P(B), la probabilidad de la calentura, es necesario
considerar todas las enfermedades que tienen calentura como
sntoma
La probabilidad de la calentura se puede obtener su se observa
calentura dado que se tiene la enfermeda i, para toda i
P(B = b) =
a V(A)
P(w, x) P(y, z w, x )
P(w, xy, z) =
P(y, z)
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
Modelos estadsticos
Propsito: Aprender un lenguaje en base a las regularidades
estadsticas observadas en un corpus
Muchas regularidades irrelevantes
Agredar conocimiento del lenguaje para obtener regularidades relevantes
P(W1,n = w1, n)
Para todas las secuencias w1,n donde W1,n es una secuencia de n variables
random, W1, W2, ..., Wn cada una de las cuales toma una palabra del
lenguaje
Modelos estadsticos
La gente puede asignar probabilidades a secuencias de palabras:
P(w1,n) = P(w1) P(w2w1) P(w3w1,2) ... P(wnw1,n-1)
Hay experimentos que indican que la gente es ms exacta que los
mtodos estadsticos ms sofisticados!
El mtodo no depende slo de las palabras precedentes
Ejemplo: el (rbol cielo) azul
P(el rbol azul) = P(el) P(rbolel) P(azul el rbol)
P(el cielo azul) = P(el) P(cieloel) P(azul el cielo)
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
Reconocimiento de voz
P(W) P(AW)
P(WA) =
P(A)
P(W): Modelo del lenguaje (probabilidad de que se diga W)
P(A): probabilidad el sonido sea voz
P(AW): Modelo acstico (probabilidad la evidencia acstica
dado que se pronunci W)
P(WA): Probabilidad de que se reconozca W dada la evidencia
acstica.
Wmax = max P(WA) = P(W) P(AW)
habla
procesador
de
seales
comparador
i
prototipos
acsticos
ai
mente
generador
del habla
habla
procesador
acstico
decodificador
lingustico
Reconocedor
Hablante
canal acstico
Wmax
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
Entropa
Se define una figura de mrito para comparar modelos
estadsticos: entropa entre lenguajes (cross entropy)
Teora de codificacin:
cunto cuesta mandar un mensaje de un lenguaje dada una notacin
explcita (binario, decimal, ect.)?
Problema: mandar un mensaje cada 5 minutos para informar de los
ocupantes de una casa (una pareja!) de acuerdo al siguiente cdigo
Andan de vagos: 00
El hombre est en casa: 01
La mujer est en casa: 10
Los dos estn en casa: 11
Entropa
Supongamos las siguientes probabilidades
Andan de vagos: .5
El hombre est en casa (slo): .125
La mujer est en casa (sol): .125
Los dos estn en casa: .25
Situacin
Andan de vagos:
Slo el hombre:
Slo la mujer
Los dos
Probabilidad
.5
.125
.125
: .25
Cdigo
0
110
111
10
Entropa
Pero hay que decodificar los mensajes (cuando empizan y
cuando terminan!
Decodificador
pos. 0
0 (nadie)
pos. 1
10 (los dos)
110 (el hombre)
0
pos. 2
Ejemplo:
H(W) = (1/2 * log 1/2 + 1/4 * log 1/4 + 1/8 * log 1/8 + 1/8 * log 1/8)
= (1/2 * ( 1) + 1/4 * ( 2) + 1/8 * ( 3) + 1/8 * ( 3) )
= 1.75
w V(W)
Abreviando:
= 8 * ( 1/8 * (- 3))
=3
Fuente ergdica:
Entropa por palabra, cuando la longitud del mensaje tiende a infinito
H(L) = nlim
1/n P(w1,n) log2 P(w1,n)
w1,n
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
Cadenas de Markov
Autmatas finitos probabilisticos
Como generadores: se generan cadenas con cierta probabilidad
Como aceptores: asignan una probabilidad a las cadenas aceptadas
Las probabilidades de salida de cada nodo suman uno
0.5 aqu
0.5 el
0.5 un
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
0.5 aqu
0.5 el
0.5 un
0.5 perro
0.5 comi
0.5 gato
0.5 durmi
0.5 all
Son 16 mensajes de longitud 4:
1,n
0.5 un
0.5 perro
0.5 comi
0.5 gato
0.5 durmi
0.5 all
con respecto al lenguaje random (PM (w1,n) = 1/8)?
= 16 * ( 1/24 * log2(1/8))
= 16 * ( 1/16 * (- 3)) = 3
Cross-entropa
0.5 aqu
0.5 un
0.5 perro
0.5 comi
0.5 gato
0.5 durmi
0.5 all
con respecto al modelo incorrecto?
0.75 aqu
0.75 el
0.25 un
Cross-entropa
1/n H(W1,n , PM) = 1/n P(w1,n) log2 PM(w1,n)
w
1,n
Contenido
Teora de la probabilidad
Modelos estadsticos
Reconocimiento de voz
Entropa (de un lenguaje)
Cadenas de Markov
Entropa entre lenguajes (EEL)
EEL y evaluacin de modelos
1,n
1,n
Reportajes de prensa
Editoriales
Reviews de prensa
Religin
Habilidades y pasatiempos
Atractivos populares
Literatura
Micelaneos
Escritos eruditos
44
27
17
17
36
48
75
30
80
FIN