Está en la página 1de 14

Ao de la diversificacin productiva y del fortalecimiento de la educacin

UNIVERSIDAD NACIONAL DE PIURA


FACULTAD DE INGENIERA INDUSTRIAL
ESCUELA PROFESIONAL DE INGENIERA MECATRNICA

RECONOCIMIENTO DE VOZ

PRESENTADA POR:
SANCHEZ GALECIO ANDY MANUEL
PONGAN SUS NOMBRES

PROFESOR:
ING. MSC. FERNANDO MADRID GUEVARA

Piura, Per
2015

INTRODUCCIN

Cada da nos encontramos ms, con infinidad de aplicaciones de los sistemas de


cmputo, con capacidad de interactuar con los usuarios mediante el reconocimiento
y sntesis de voz. Estos van desde aplicaciones simples en el reconocimiento de
comandos (palabras) aislados, hasta el reconocimiento de frases para ejecutar
acciones a manos libres: telfonos celulares, control por voz de instrumental
diverso, acceso a servicios, entre otros; la bsqueda en Internet es una de las
muestras ms impactantes de estas aplicaciones.
EL Reconocimiento de voz en la actualidad es uno de los temas de investigacin
ms relevantes el cual se le puede aplicar una serie de tcnicas y modelos.
Para el Sistema de Reconocimiento de Voz se empleara un software el cual
permitir que el usuario grabe una palabra por medio de un micrfono y sta sea
reconocida en la base de datos existente en ese momento.
En la computadora es donde la seal de voz es ingresada y procesada por los
algoritmos del programa que modifican la seal, obteniendo los parmetros
significativos de la seal de voz, para luego ser almacenados.

OBJETIVOS

Desarrollar un sistema de Reconocimiento de Voz con MATLAB, para la


interaccin Hombre-Mquina.

Conocer las operaciones de Procesamiento de Seal que se aplican a la


seal de la voz.

Seleccionar algoritmos y mtodos adecuados para el mejor procesamiento


digital de voz.

SISTEMA DE RECONOCIMIENTO DE VOZ

El reconocimiento de voz generalmente es utilizado como una interfaz entre el ser


humano y la computadora a travs del algn software.
Debe cumplir con las siguientes tareas:
Pre-procesamiento: convierte la entrada de voz a una forma que el
reconocedor pueda procesar.
Reconocimiento: identifica lo que se dijo (traduccin de seal a texto).
Comunicacin: enva lo reconocido al sistema (software/hardware) que lo
requiere.
Componentes en una aplicacin

Existe una comunicacin bilateral en aplicaciones, en las que la interfaz de voz est
ntimamente relacionada al resto de la aplicacin. Estas pueden guiar al
reconocedor especificando las palabras o estructuras que el sistema puede utilizar.
Otros sistemas slo tienen una comunicacin unilateral.
Los procesos de pre-procesamiento, reconocimiento y comunicacin deberan ser
invisibles al usuario de la interfaz. El usuario lo nota de manera indirecta como:
certeza en el reconocimiento y velocidad. Estas caractersticas las utiliza para
evaluar una interfaz de reconocimiento de voz.

1. Microfono
Es un transductor electroacstico, que tiene como funcin transformar o traducir
la presin acstica ejercida sobre su capsula por las ondas sonoras en energa
elctrica.
Caractersticas:
Sensibilidad: es la eficiencia del micrfono, la relacin entre la presin sonora
que incide (expresada en Pascales) y la tensin elctrica de salida (expresada
en voltios). La sensibilidad puede ser representada en un voltmetro de la
siguiente manera: a mayor voltaje, mayor sensibilidad.
Fidelidad: indica la variacin de sensibilidad con respecto a la frecuencia.
Adems, la fidelidad, viene definida como la respuesta en frecuencia del
micrfono, cuanto mas lineal sea la respuesta en frecuencia mayor fidelidad
tendr el micrfono. La fidelidad se expresa en dB.
Ruido de fondo: es la tensin que entrega el micrfono sin que exista ningn
sonido incidiendo sobre l. Este ruido se produce por el movimiento trmico de
los electrones en la carcasa que no tiene masa.

2. Matlab
MATLAB es el nombre abreviado de MATrix LABoratory. Es un lenguaje de alto
nivel y de ambiente interactivo que permite realizar tareas intensas y con una
mayor velocidad que los lenguajes de programacin comnmente usados.
MATLAB se especializa en clculos numricos con vectores y matrices, como
casos particulares puede trabajar tambin con otras estructuras de informacin.
Aunque cada objeto es considerado como un arreglo.
El lenguaje est construido por cdigo llamado M-code que puede ser fcilmente
ejecutado en la ventana de comandos. Con lo cual se pueden crear funciones,
etc. Pero la razn principal para la eleccin de este lenguaje de programacin
son las herramientas que proporciona para el procesamiento de seales, y el
conjunto de funciones para el procesamiento digital.

3. Seal de voz
Un reconocedor no puede analizar los movimientos en la boca. En su lugar, la
fuente de informacin es la seal de voz misma. El Habla es una seal analgica,
es decir, un flujo continuo de ondas sonoras y silencios.

El conocimiento de la ciencia de la acstica se utiliza para identificar y describir


los atributos del habla que son necesarios para un reconocimiento de voz
efectivo.
Cuatro caractersticas importantes del anlisis acstico son:
a) Frecuencia y amplitud
Los sonidos ms simples son los sonidos puros (pure tones) Se pueden
representar grficamente por una onda senoidal.
Es un patrn simple y cclico. La amplitud de una onda sonora fisiolgicamente
representa (corresponde) al movimiento del tmpano de odo.
La Frecuencia es el nmero de vibraciones del tono por segundo. El volumen de
un sonido refleja la cantidad de aire que es forzada a moverse. Se describe y
representa como amplitud de la onda y se mide en decibeles DB.
b) Resonancia
La mayora de los sonidos incluyendo del habla tienen una frecuencia dominante
llamada frecuencia fundamental. La percibimos como el pitch (tono) combinado
con frecuencias secundarias. En el habla, la frecuencia fundamental es la
velocidad a la que vibran las cuerdas vocales al producir un fonema sonoro.
Sumadas a la frecuencia fundamental hay otras frecuencias que contribuyen al
timbre del sonido (Son las que nos permiten distinguir una trompeta de un violn,
etc. o las voces de diferentes personas). Algunas bandas de la frecuencia
secundarias juegan un rol importante en la distincin de un fonema de otro. Se
les llama formantes y son producidas por la resonancia.
Por otro lado, la resonancia se define como la habilidad que tiene una fuente
vibrante de sonido de causar que otro objeto vibre (por ejemplo en una fbrica,
una mquina hace que vibre el piso). Las cmaras de resonancia en
instrumentos de msica responden a frecuencias especficas o anchos de banda
especficos. Al ser estas cajas o cmaras de resonancia ms grandes que la
fuente del sonido amplifican las frecuencias a las que responden.
La garganta, boca y nariz son cmaras de resonancia que amplifican las bandas
o frecuencias formantes contenidas en el sonido generado por las cuerdas
vocales. Estas formantes amplificadas dependen del tamao y forma de la boca
y si el aire pasa o no por la nariz. Los patrones de las formantes son ms fuertes
(distinguibles) para vocales que para las consonantes no sonoras.
c) Estructura Armnica y Ruido
El habla no es un tono puro es continuacin de mltiples frecuencias y se
representa como una onda compleja. Vocales se componen de 2 o ms ondas
simples son ricos en frecuencias secundarias y contienen estructuras internas

que incluyen ondas cclicas y aciclicas. Las ondas acclicas no tienen patrones
repetitivos generalmente llamados ruido forman parte de todos los fonemas
sonoros, consonantes y semivocales. Las frecuencias y caractersticas de los
patrones acclicos proveen informacin importante sobre la identidad de los
fonemas. La identidad de las consonantes tambin se revela por el cambio en
las formantes que resultan cuando los articuladores se mueven de un fonema
anterior a la consonante y de ella al siguiente fonema llamadas transiciones de
formantes. Estas se analizan utilizando tcnicas como la transformada rpida de
Fourier (FFT) generando espectrogramas. La complejidad de las formas de onda
de los fonemas y las constantes transiciones de un patrn a otro dificultan el
anlisis de los patrones utilizando las representaciones complejas de las ondas.
Los patrones armnicos y de ruido se muestran con ms claridad utilizando los
espectrogramas de banda ancha. La localizacin (la distancia entre ellas) y
cambio en las formantes ayudan a identificar fonemas y palabras.

PROCESAMIENTO Y RECONOCIMIENTO

El Procesado de voz es el estudio de las seales de voz y las tcnicas de


procesado de estas seales. Las seales se digitalizan con el propsito de
manipular su informacin, lo cual es llamado procesamiento digital de voz.
Modelado de la voz
Las ecuaciones fundamentales que se aplican en acstica son lineales, por lo
que se pueden utilizar sistemas lineales en el modelado de la voz para conseguir
una precisin aceptable. Estos modelos lineales son aproximaciones de gran
utilidad ya que utilizar modelos no lineales resulta demasiado complejo.
En resumen, el habla es producida por la modulacin del flujo de aire a travs
del tracto vocal. Por un lado, la tensin de las cuerdas vocales se gobierna por
la musculatura, que funciona como un control de entrada.
El tracto vocal es modelado como la concatenacin de tubos acsticos de
distinto dimetro, con o sin prdidas. Se puede decir entonces que, el tracto
vocal acta como una cavidad resonante formando regiones donde el sonido
producido es filtrado.

Modelado Acstico del tracto vocal

Muestreo y cuantificacin
Muestreo: consiste en el proceso de conversin de seales continuas a seales
discretas en el tiempo, es un paso para digitalizar una seal analgica. Este
proceso se realiza midiendo la seal en momentos peridicos del tiempo, para
esto usamos el Teorema de Nyquist.
Si x[n] es una secuencia de muestras obtenida a partir de una seal continua en
el tiempo x(t), por medio de la relacin
x[n] = x(nT), para n
donde T es el perodo de muestreo, y su reciproco es la frecuencia de muestreo,
en muestras por segundo. Tambin podemos expresar la frecuencia de
muestreo como = 2 / en radianes por segundo.
Entonces el teorema de muestreo de nyquist esta definido como: sea x(t) una
seal limitada en banda por:
X ( j) 0 para N
Entonces x(t) esta nicamente determinada por sus muestras
x[n] = x(nT), n = 0, 1, 2, si = 2 / 2 .
La frecuencia es comnmente referida como la frecuencia de Nyquist, y la
frecuencia 2 que tiene que ser excedida por la frecuencia de muestreo es
llamada la razn de Nyquist.

Cuantificacin: En la cuantificacin el valor de cada muestra de la seal se


representa como un valor elegido de entre un conjunto finito de posibles valores.
Se conoce como error de cuantificacin (o ruido), a la diferencia entre la seal
de entrada (sin cuantificar) y la seal de salida (ya cuantificada), interesa que el
ruido sea lo ms bajo posible. Para conseguir esto y segn sea la aplicacin a
desarrollar, se pueden usar distintas tcnicas de cuantificacin:
Cuantificacin uniforme.
Cuantificacin logartmica.
Cuantificacin no uniforme.
Cuantificacin vectorial.

Eliminacin del ruido


La seal digitalizada es escaneada y las zonas de silencio son removidas por
medio del clculo de energa en corto tiempo. Se deben de escoger segmentos
de ms adecuados para este propsito. En un segmento la energa promedio es
menor que un valor umbral proporcional a la energa promedio de la seal entera
es descartado.

Filtro de Pre-nfasis
Se aplica un filtro digital pasa altas de primer orden a la seal, para enfatizar las
frecuencias altas de los formantes por dos razones, primero para que no se
pierda informacin durante la segmentacin, ya que la mayora de la informacin
est contenida en las frecuencias bajas, en segundo remueve la componente
DC de la seal, aplanando espectralmente la seal.

Segmentacin
La segmentacin consiste en cortar la seal en segmentos de anlisis. La seal
de voz es asumida como estacionaria en estos segmentos. Durante la
segmentacin los segmentos son guardados cada uno como la columna de una
matriz, para el posterior procesamiento de la seal de voz.
Para el proceso una ventana de Hamming de 30ms es aplicada a la seal de
voz, enfatizada previamente con el filtro de pre-nfasis. Con un desplazamiento
tpico 10ms entre cada ventaneo.

Extraccin de caractersticas
En el reconocimiento del habla, la seal de voz pre-procesada se ingresa a un
nuevo procesamiento para producir una representacin de la voz en forma de
secuencia de vectores o agrupaciones de valores que se denominan
parmetros, que deben representar la informacin contenida en la envolvente
del espectro.
Existen distintos mtodos de anlisis para la extraccin de caractersticas, y se
concentran en diferentes aspectos representativos. En este caso analizaremos
los dos de mayor importancia para el anlisis de la voz:
Anlisis de prediccin lineal (LPC)
Se trata de una de las tcnicas ms potentes de anlisis de voz, y uno de los
mtodos ms tiles para codificar voz con buena calidad.

Su funcin es representar la envolvente espectral de una seal digital de voz


en una forma comprimida, utilizando la informacin de un modelo lineal, con
lo cual se proporcionan unas aproximaciones a los parmetros de la voz muy
precisas.
Se fundamenta en establecer un modelo de filtro de tipo todo polo, para la
fuente de sonido. La principal motivacin del modelo todo polo viene dada
porque permite describir la funcin de transferencia de un tubo, que sin
perdidas est formado por diferentes secciones.

Modelado de produccin de voz basado en LPC

Cepstrum
Como se sabe los sonidos de la voz se pueden representar mediante un
espectrograma, que indica las componentes frecuenciales de la seal de voz.
Es as entonces como el espectro nos proporciona informacin acerca de los
parmetros del modelo de produccin de voz, tanto de la excitacin como del
filtro que representa el tracto vocal.
Desde el principio de la dcada de los 70 los sistemas homo mrficos han
tenido una gran importancia en los sistemas de reconocimiento de voz. Estos
sistemas homo mrficos son una clase de sistemas no lineales que obedecen
a un principio de superposicin. De estos los sistemas lineales son un caso
especial.

Modelo Coeficientes Cesptrales

DIAGRAMA DE BLOQUES DEL SISTEMA

El sistema de reconocimiento de voz se puede resumir en el siguiente diagrama


esquemtico

CONCLUSIONES

El reconocimiento de voz es una de las aplicaciones del procesamiento digital de


seales que permite interaccin entre seres humanos y computadoras.
El software MATLAB reduce la complejidad del procesamiento digital de la voz.
El espectro de la seal brinda la informacin relevante de las seales de voz.
Es necesario filtrar las seales de voz para enfatizar las caractersticas acsticas,
llamadas formantes.

BIBLIOGRAFIA

SISTEMA DE RECONOCIMIENTO DE VOZ EN MATLAB.


http://biblioteca.usac.edu.gt/tesis/08/08_0223_EO.pdf

PROCESAMIENTO DIGITAL DE SEALES CON MATLAB


http://es.slideshare.net/vico29/procesamiento-digital-de-seales-con-matlab30979692

PROCESAMIENTO DE VOZ
http://www.ugr.es/~atv/PVL/transpa_proc_voz_2007.pdf

INFORME TCNICO SOBRE LOS SISTEMAS DE RECONOCIMIENTO DE


VOZ
https://jorgehierro.files.wordpress.com/2008/02/voice-reconigtionii.pdf

PROCESAMIENTO DIGITAL DE SEALES DEVOZ


http://www.fceia.unr.edu.ar/prodivoz/objetivos_index.html