Reconocimiento de Voz Resumen

DEFINICIN DEL PROBLEMA
El Reconocimiento del Habla parece tan natural y sencillo para las personas
que se pens que podra ser fcilmente realizado por las mquinas. Sin
embargo, cuando se empez a profundizar en el tema, se comprob que esto
no es as. De hecho, es un tema que se ha revelado ms complicado que la
produccin automtica de voz.
Ya la historia lo ha demostrado: las primeras y rudimentarias mquinas
parlantes aparecieron en la segunda mitad del siglo XVIII, mientras que los
primeros intentos en mquinas capaces de reconocer la voz no aparecieron
hasta principios del siglo XX, con la mquina de Flower, capaz de escribir el
alfabeto fonogrfico pronunciado por una persona.
Factores que determinan la complejidad del Reconocimiento del Habla:

A. El Locutor
Es quizs el aspecto que introduce mayor variabilidad en la forma de onda entrante, y por tanto requiere que
el sistema de reconocimiento sea altamente robusto. Una persona no pronuncia siempre de la misma forma,
debido a distintas situaciones fsicas y psicolgicas (es la llamada variabilidad intra-locutor). Existe adems
gran variedad entre distintos locutores (hombres, mujeres, nios), diferencias segn la edad o la regin de
origen (variabilidad interlocutor). Es mucho ms sencillo que un sistema funcione para un determinado
locutor y que este lo haya entrenado previamente (se dice que el sistema es dependiente del locutor), a que un
sistema funcione para cualquier locutor (sistema independiente del locutor).
B. La forma de hablar
Es el segundo factor que determina la complejidad de un reconocedor de habla. El hombre pronuncia las
palabras de una forma continua, y debido a la inercia de los rganos articulatorios, que no pueden moverse
instantneamente, se producen efectos coarticulatorios. Ello, unido a las variaciones introducidas por la
prosodia, hace que unadice en medio, o que sea diferente dependiendo de que es lo que le procede o le sigue.
Un reconocedor es relativamente sencillo si slo tiene que reconocer una palabra dicha de forma aislada
(reconocedor de palabras aisladas) y es ms complejo si debe reconocer las palabras de una frase, pero
introduciendo una pausa entre cada dos de ellas (habla conectada). El sistema ms complicado es aquel que
debe funcionar reconociendo habla continua, que es la forma natural de hablar.
C. El Vocabulario
Se conoce por tal el nmero de palabras diferentes que debe reconocer el sistema. Mientras mayor es el
nmero de palabras ms difcil es el reconocedor, por dos motivos. El primero porque al aumentar el nmero
de palabras es ms fcil que aparezcan palabras parecidas entre s, y el segundo porque el tiempo de
tratamiento aumenta al aumentar el nmero de palabras con las que comparar. Una solucin posible a este
problema sera el utilizar unidades lingsticas inferiores a la palabra (alfonos, slabas,etc.) que en principio
tienen un nmero limitado, e inferior al de posibles palabras. Sin embargo, la dificultad de reconocer estas
unidades es aun mayor debido a que su duracin es muy corta, la frontera entre dos unidades sucesivas es
muy difcil de establecer y los efectos coarticulatorios son mucho ms fuertes que entre palabras.
D. La Gramtica
Es el conjunto de reglas que limita el nmero de combinaciones permitidas de las palabras del vocabulario.
En general la existencia de una gramtica en un reconocedor ayuda a mejorar la tasa de reconocimiento, al
eliminar ambigedades y puede ayudar a disminuir la necesidad de clculo, al limitar el nmero de palabras
en una determinada fase del reconocimiento ("perplejidad" de la gramtica). En sistemas de palabras aisladas
en los que no existe una gramtica en el sentido estricto del trmino, se puede entender por tal el nmero de
palabras a reconocer. Si, por ejemplo, el sistema debe reconocer un nmero telefnico urbano, la gramtica de
este sistema dice que el vocabulario son los diez dgitos, y debe reconocer un conjunto de siete dgitos, de
forma que si el sistema reconoce ms o menos, es que hay algn error.
E. El Entorno fsico
Es una parte tan importante como las anteriores para definir el reconocedor. No es lo mismo un sistema que
funciona en un ambiente poco ruidoso, como puede ser el despacho de un medico, o el que tiene que
funcionar en un coche o en una fabrica. 0 por ejemplo, el que debe de funcionar a travs de la lnea telefnica,
con la consiguiente reduccin de banda o el que recibe la voz a travs de un micrfono, que tiene mayor
ancho de banda que la lnea telefnica.
Principales reas de trabajo que intervienen en el diseo y especificacin de sistemas de Reconocimiento del
Habla actuales. Estas reas seran las siguientes:
Proceso de la seal de voz.

Tcnicas de reconocimiento de patrones.
Diferentes estilos de habla.
Dependencia del locutor.
Vocabulario de reconocimiento.
Tarea de reconocimiento.
Bases de datos para entrenamiento y reconocimiento.
TCNICAS DE DISEO
Se van a estudiar a continuacin cuatro tcnicas distintas que se utilizan o se han utilizado para el diseo de
reconocedores de habla. De ahora en adelante se llamara "palabra" a la unidad bsica en la que se base el
reconocedor (en la realidad pueden ser slabas, demisilabas, fenones, morfemas, palabras, conjuntos de
palabras etc.). Las tcnicas son:
Tcnicas topolgicas: Dynamic Time Warping (DTW), basado en el clculo y comparacin de

distancias.
Tcnicas probabilsticas: Modelos ocultos de Markov (HMM), que son modelos generativos de las
palabras del vocabulario.
Redes neuronales.
Sistemas basados en el conocimiento: reconocedores por reglas o sistemas expertos.
En los cuatro casos se puede hablar de una fase de "entrenamiento" (clculo de los patrones de referencia,
clculo de los parmetros de los modelos de Markov, entrenamiento de las redes neuronales o creacin de
estructuras de datos para los sistemas expertos) y de otra fase de "reconocimiento" propiamente dicho. Y
tambin en los cuatro casos el primer proceso necesario es la "parametrizacin" o transformacin de la forma
de onda de la seal entrante en un conjunto de parmetros o caractersticas adecuadas a cada reconocedor.
Redes neuronales
Los sistemas de reconocimiento basados en redes neuronales pretenden,
interconectando un conjunto de unidades de proceso (o neuronas) en paralelo (de
forma similar que en la mente humana), obtener prestaciones de reconocimiento
similares a las humanas, tanto en tiempo de respuesta como en tasa de error. Esa
forma de interconexin de las unidades de proceso es especialmente til en
aplicaciones que requieren una gran potencia de clculo para evaluar varias hiptesis
en paralelo, como sucede en los problemas de reconocimiento de voz.
Las unidades de proceso pueden ser de varios tipos; las ms simples (y utilizadas) disponen de varias
entradas, y la salida es el resultado de aplicar alguna transformacin no lineal a la combinacin lineal de todas
las entradas. Otro tipo de neuronas un poco ms elaborado se caracteriza por disponer de memoria; en ellas la
salida en cada momento depende de entradas anteriores en el tiempo.
La forma en que las neuronas se conectan entre si define la topologa de la red, y se puede decir que el tipo de
problemas que una red neuronal particular soluciona de forma eficiente, depende de la topologa de la red, del
tipo de neuronas que la forman, y la forma concreta en que se entrena la red.
Igual que se dijo para las tcnicas anteriores, una red neural debe ser entrenada para
resolver un tipo determinado de problemas.
Historia
Los inicios: aos 50s

Bell Labs. Reconocimiento de dgitos aislados monolocutor.
RCA Labs. Reconocimiento de 10 slabas monolocutor.
University College in England. Reconocedor fontico.
MIT Lincoln Lab. Reconocedor de vocales independiente del hablante.
Los fundamentos: aos 60s Comienzo en Japn (NEC labs)
Dynamic Time Warping (DTW Alineacin Dinmica en Tiempo -). Vintsyuk
(Soviet Union).
CMU (Carnegie Mellon University). Reconocimiento del Habla Continua. HAL
9000.
Las primeras soluciones: aos 70s - El mundo probabilstico.
Reconocimiento de palabras aisladas.
IBM: desarrollo de proyectos de reconocimiento de grandes vocabularios.
Gran inversin en los EE. UU.: proyectos DARPA.
Sistema HARPY (CMU), primer sistema con xito.
Reconocimiento del Habla Continua: aos 80s - Expansin, algoritmos para el
habla continua y grandes vocabularios
Explosin de los mtodos estadsticos: Modelos Ocultos de Markov.
Introduccin de las redes neuronales en el reconocimiento de voz.
Sistema SPHINX.
Empieza el negocio: aos 90s - Primeras aplicaciones: ordenadores y
procesadores baratos y rpidos.
Sistemas de dictado.
Integracin entre reconocimiento de voz y procesamiento del lenguaje
natural.
Una realidad : aos 00s - Integracin en el Sistema Operativo
Integracin de aplicaciones por telfono y sitios de Internet dedicados a la
gestin de reconocimiento de voz (Voice Web Browsers).
Aparece el estndar VoiceXML.
2.3 Extraccin de parmetros
Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en escala

de
frecuencias Mel) son coeficientes para la representacin del habla basados
en la
percepcin auditiva humana. Se derivan de la Transformada de Fourier (FT)
y de la
Transformada discreta del coseno (DCT). La diferencia bsica entre FT y
MFCC es que en MFCC las bandas de frecuencia estn espaciadas
logartmicamente (segn la escala Mel) para modelar la respuesta auditiva
humana ms apropiadamente que las bandas espaciadas linealmente de la
FT. Esto permite un procesado de datos ms eficiente, por ejemplo, en
compresin de audio.
MFCCs se calculan comunmente de la siguiente forma:1
1. Se toma la transformada de Fourier de (un estracto de la ventana de) una seal.
2. Mapear la energia del espectro obtenido de la escala mel, usando una funcin ventana
triangular.
3. Calcular el logaritmo de la energia de cada frecuencia mel.
4. Tomar la transformada de coseno discreta de la lista de mel log powers, como si fuera una
seal.
5. Los MFCCs son las amplitudes del espectro resultante.
El clculo de los coeficientes mels utiliza dos de las herramientas ms conocidas
en el anlisis de seales:
* La transformada de Fourier para la representacin del contenido espectral de
una seal.
* El diseo de un banco de filtros para permitir la seleccin de bandas de frecuencia de la seal bajo anlisis.
Con la transformada de Fourier se conoce el contenido en frecuencia (espectro) de la seal y con los filtros
diseados (sintetizados), se logra obtener las componentes de frecuencia que a cada banda les aporta la seal
analizada.
El principio de ponderar la energa que aporta a cada banda de frecuencias la seal bajo anlisis y luego
calcular en trminos de un coeficiente para cada valor de energa en banda de frecuencia, es a lo que
llamamos coeficientes cepstral.

Reconocimiento de Voz Resumen

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reconocimiento de Voz Resumen

Cargado por

Copyright:

Formatos disponibles

DEFINICIN DEL PROBLEMA

Factores que determinan la complejidad del Reconocimiento del Habla:

Proceso de la seal de voz.

Tcnicas topolgicas: Dynamic Time Warping (DTW), basado en el clculo y comparacin de

Los inicios: aos 50s

2.3 Extraccin de parmetros

Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en escala

También podría gustarte