Está en la página 1de 2

Reconocimiento de voz usando Modelos ocultos de Markov

Los MOM (modelos ocultos de Markov) se han convertido recientemente en la técnica


predominante para sistemas de reconocimiento de voz. Este método ha permitido
modelar adecuadamente la gran variabilidad de la señal de voz en el tiempo.

Esta técnica fue descrita por primera vez por Baum Welch , poco después
CMU(universidad Carnagie Mellon) la utilizó en el año 2000 para crear un grupo de
sistemas de reconocimiento de voz llamado Sphinx ,el cual es una aplicación de gran
vocabulario, hablador independiente ,y con la capacidad de supresión de las palabras mal
reconocidas.

Actualmente la mayoría de la gente teclea unas 60 palabras/min, cuando podrían llegar a


pronunciar 200 en el mismo lazo de tiempo.

Para entender cómo se aplican los MOM al RAH, imaginemos que para cada una de las
posibles emisiones podemos encontrar un modelo con un texto asociado capaz de imitar
al sistema activado por el locutor, es decir un modelo que sea capaz de generar la misma
emisión que género´ el locutor y Al encontrar el modelo que genera el sonido más
parecido a la emisión del locutor(es decir la probabilidad más alta), entonces también
habremos encontrado el texto ya que todos los modelos están asociados a un
determinado texto.

Cabe de resaltar que el número de modelos es finito porque es imposible abarcar toda la
diversidad del habla y que los modelos no son independientes entre sí debido a la
organización estructural del habla, donde pequeños fonemas se unen para formar otros
de mayor complejidad ,ejem : fonemas , palabras, frases.

Hasta ahora hemos hablado de modelos en términos generales, ¿Pero que constituye un
modelo? un modelo es un conjunto de estados que solo tendrá una entrada fija (el texto) y
múltiples salidas (ver fig.1).Existen varios tipos de Modelos entre ellos están: discreto,
continuo, Semi-continuo, el cual es una combinación de los anteriores, este mejora la
complejidad computacional, proporciona mas robustez y de esta manera reduce la tasa de
error.

¿Cálculo de parámetros del modelo y secuencia más probable?

Para encontrar la secuencia más probable se utiliza el algoritmo de Viterbi, el cual calcula
de todas las posibles secuencias observables en el MOM la de mayor probabilidad.

En la estimación de los parámetros del modelo, es decir las probabilidades de transición


y observación máximas, se utiliza el algoritmo de reestimación de Baum-welch.

Para los parámetros de entrada es decir el Modelado acústico de la voz (pre-


procesamiento se la señal de voz), se divide la emisión de voz en tramos (discretización),
posteriormente se realiza un análisis en frecuencia para luego representar cada tramo por
un símbolo con que trabaja el MOM (cuantización vectorial).

Los Factores claves para un MOM con éxito son:


 Datos abundantes de información y un buen algoritmo de entrenamiento (Baum
-welch).
 Modelos detallados del habla (pre-procesamiento de la señal de voz).

Fig.1 Modelo oculto de Markov probabilístico discreto.

También podría gustarte