Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mariño Acebal
Introducción al
reconocimiento de voz
José B. Mariño Acebal
Indice
1
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Perspectiva histórica
!Ambiente/canal
!Conjunto de usuarios
Factores de dificultad !Modo de elocución
!Vocabulario
!Complejidad de la tarea
Perspectiva histórica
2
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Perspectiva histórica
Reconocimiento de
palabras aisladas
Sésamo
3
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Reconocimiento de
palabras aisladas
Hz Modelos
o patrones
Reconocimiento de
palabras aisladas
Modelos
o patrones
4
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Modelos de Markov
1 2 3 4
Modelos de Markov
a22
a13 a33
a11 a12 a23
1 2 3
a21 a32
5
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Modelos de Markov
Modelos de Markov
6
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Modelos de Markov
Modelos de Markov
!Cálculo de P(O/λ)
Coste computacional
(2T-1) NT
7
Curso sobre Tecnologías del Habla José B. Mariño Acebal
i=1
SN
t N2 T t+1
N
αt(i) αt+1(j) Final: P(O / λ ) = ∑ α T (i )
i =1
8
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Algoritmo de Baum-Welch
Algoritmo de Baum-Welch
9
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Algoritmo de Baum-Welch
• Determinación de Cálculo α y β
un modelo inicial
• Escalado de las Estimación HMM
probabilidades
NO SI
? hmm
Algoritmo de Viterbi
Estado
3
2
1
1 2 T trama
10
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Algoritmo de Viterbi
Estado
3
aij δ (j)
t
2
1
1 2 δt-1(i) T trama
Algoritmo de Viterbi
Estado
3
2
1
1 2 T trama
Secuencia P* = max [δT(i)]
1≤i≤N
11
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Algoritmo de Viterbi
Algoritmo de Viterbi
Segmentación
Estimación HMM
NO hmm
?
SI
12
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Tipos de modelos
Entrenamiento discriminativo
!Motivación
'El entrenamiento que optimiza la verosimilitud
no está orientado directamente a realizar la
mejor clasificación.
'Interesa un entrenamiento que minimice los
errores de reconocimiento.
13
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Entrenamiento discriminativo
!Entrenamiento correctivo
wj
On Palabras wk
aisladas p(On/wk) > max p(On/wi)
i≠k
• Se produce un error si k ≠ j
Corrección:
• En este caso
p(Osen/w
corrigen
j,Θj
n+1) =las
p(Oprobabilidades
n/w ,Θ n) + ∆
j j
de
emisión dep(O
n /wk,Θk ) = p(O /wk,Θk ) - ∆
símbolo
n+1 n n
Entrenamiento discriminativo
!Entrenamiento correctivo
14
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Entrenamiento discriminativo
!Entrenamiento correctivo
'Su eficacia depende de la medida en que el
entrenamiento sea significativo del test.
'No está garantizada la convergencia.
'Dado de que aprende de los errores de
reconocimiento, requiere mayores bases de
datos que el entrenamiento que optimiza la
verosimilitud.
Entrenamiento discriminativo
• Se minimiza
U =laΣΣfunción
e (On) que
1(Oda
n ∈cuenta
wk) de los
n k k
errores de clasificación. n
0 si p(O /wk) > max p(On/wi)
ek(O ) =
n i≠k
1 en otro caso
15
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Entrenamiento discriminativo
Verificación
16
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Verificación
!Medidas de confianza
'probabilidad
Pd del reconocimiento
“word spotting”
'probabilidad a Probabilidad
posteriori
a posteriori
voz p(w,O)
Reconocedor
voz p(w,O) p(w/O)
Reconocedor
O /
Probabilidad
Alternativa: del reconocimientop(w/O)
O /
red de fonemas p(O)
Alternativa:
red de fonemas p(O) fa
Verificación
!Medidas de confianza
'Verosimilitud: H0 es representada por el reconocedor
H1 es representada por antimodelos
17
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Verificación
!Medidas de confianza
'Fiabilidad del entrenamiento
'Coincidencia entre el reconocedor y la
alternativa
'La persistencia en las N mejores hipótesis
'La probabilidad del modelo del lenguaje
'Composición de medidas sencillas
Verificación
!Aplicación de la verificación
'postprocesado de la salida de un reconocedor
de palabras aisladas o del “word spotting” para
eliminar falsas alarmas.
'en sistemas de comprensión del habla (para
diálogo, por ejemplo) para basar la
interpretación en aquellas palabras cuyo
reconocimiento sea más fiable o solicitar
confirmación.
18
Curso sobre Tecnologías del Habla José B. Mariño Acebal
Lecturas
19