Está en la página 1de 18

Reconocimiento

de voz
Introduccin
Reconocimiento de voz:
Identificar las palabras pronunciadas.

Ventajas:

Comunicacin rpida y agradable.
Libera otros recursos (manos, vista, )
Permite movilidad (no es necesario teclado, )
Facilita la reduccin de los interfaces de control
Mejora la interaccin a minusvlidos
Problemtica
Problema mucho ms complejo que la sntesis de voz

Factores que determinan la complejidad:
Variabilidad locutor: Intralocutor e interlocutor.

Forma de hablar: Habla continua
Coarticulacin: Los sonidos (silabas, fonemas, )
pronunciados en una palabra o de forma aislada tienen
espectros distintos
Segmentacin: es difcil separar silabas, fonemas,

Vocabulario: cuanto menor sea mejor funcionar el
reconocedor. (palabras parecidas, mayor proceso, )

El entorno: ruido de fondo.
Clasificacin
Segn el objetivo del reconocedor:
Palabras aisladas
Habla conectada
Habla continua

Segn el locutor:
Dependiente del locutor
Multilocutor
Independiente del locutor

Clasificacin
Segn el vocabulario:
Pequeo (Menos de 100 palabras)
Mediano/Intermedio (Entre 100 y 1000 palabras)
Grande (Ms de 1000 palabras)

Segn el medio:
Telefnico
Microfnico

Esquema de trabajo
Un reconocedor tiene dos fases:

Entrenamiento:
Se ensea al reconocedor los modelos o patrones
del vocabulario

Reconocimiento:
El reconocedor analiza el sonido recibido y lo
clasifica asignndole (si es el caso) una palabra del
vocabulario
Esquema de trabajo
Diagrama de bloques genrico:
Voz
Segmentacin
Extraccin
caractersticas
Clasificacin
Vocabulario
Preprocesado
Resultado
Esquema de trabajo
Preprocesado:
Normalizar
Ecualizar
Eliminar ruido (sustraccin espectral)

Segmentacin:
Dividir la seal en bloques (10-20ms)

Extraccin de caractersticas:
Transformar la informacin de un bloque en un
conjunto reducido de parmetros (no es necesario
recuperar luego la seal)
Vectores de caractersticas (feature vectors)
Esquema de trabajo
Extraccin de caractersticas:
En general se puede emplear todas las tcnicas
vistas en la parametrizacin de la seal de voz.

Tcnicas de extraccin de caractersticas:
Banco de filtros
Transformadas (FFT, DCT, )
Prediccin lineal (LPC)
MFCC: Mel Frequency Cepstral Coefficients
Esquema de trabajo
Diagrama de bloques genrico:
Voz
Segmentacin
Extraccin
caractersticas
Clasificacin
Vocabulario
Preprocesado
Resultado
Tcnicas de reconocimiento
Ajuste de plantillas o patrones:
Alineamiento temporal ptimo
DTW: Dynamic Time Warping

Redes Neuronales
NN: Neural Networks

Modelos Ocultos de Markov
HMM: Hidden Markov Models
Ajuste de plantillas
Ajuste de plantillas:
Comparar los vectores de caractersticas obtenidos
con las plantillas (vectores caractersticos de las palabras del
vocabulario)
El que menor distancia obtiene es la palabra elegida

Problema:
Las palabras no duran siempre lo mismo
Ej: se puede hablar ms despacio o ms deprisa

Solucin: DTW
Ajuste de plantillas
DTW:
Para cada plantilla del vocabulario intenta encontrar
el mejor alineamiento entre los dos patrones a
comparar

Distancia entre dos patrones:
Distancia menor de todos los caminos posibles

Distancia de un camino:
Suma de las distancias parciales a lo largo de
dicho camino
Ajuste de plantillas
Coste computacional:

El coste es cuadrtico con el nmero de segmentos
de la palabra

Adems hay que calcular la distancia con todas las
palabras del vocabulario: coste cbico

Vlido para vocabularios pequeos
Ajuste de plantillas
Ventajas:
Algoritmo sencillo de implementar

Inconvenientes:
Funciona con palabras aisladas
Dependiente del locutor
Vocabularios reducidos
De cada palabra debe haber varias realizaciones
para paliar la variabilidad intralocutor

Arquitectura de un sistema de traduccin
voz a texto
La traduccin voz a texto es un interesante campo en el que
muchas empresas e instituciones estn dedicando esfuerzos para
lograr avances en la aplicabilidad de la tcnica en los distintos
dominios mencionados en la seccin anterior.

Reconocimiento automtico del habla (ASR: Automatic Speech
Recognition).

Entrada de un SST es la voz del locutor que se desea traducir. El
sistema de ASR convierte la voz origen en texto usando tcnicas
estadsticas de modelado acstico y decodificacin