Está en la página 1de 5

Análisis del Reconocimiento de voz desde el punto de

vista de varios autores
A. CORTEZ, J. F. BEDON
Instituto de Postgrado y Educación Continua (IPEC)
Escuela Superior Politécnica del Chimborazo (ESPOCH)
Riobamba, Ecuador
Telf.: +593 996183413 +593 996123181
romulo.cortez@cnt.gob.ec jose.bedon@cnt.gob.ec

Resumen —Este trabajo sintetiza de manera breve las técnica de
extracción de características sobre la base de dos dimensiones de la
transformada discreta del coseno (DTC_2D) y el método del escaneo
en zig-zag del espectrograma, que son imágenes basadas en tiempo
y en frecuencia de elocuciones fonemas 1 que nos permiten observar
de manera más clara las diferencias en la pronunciación de una
misma palabra, en comparación con los puntos de vista basados en
el análisis de dimensión única como LPC (Linear Prediction
Coefficients ), Cepstral, o FFT.

I. INTRODUCCION
La identificación de una persona es una forma eficaz de brindar
seguridad a un sistema. El estudio de los rasgos conductuales
del ser humano como reconocimiento de: iris del ojo, huellas
dactilares, geometría de la palma de la mano, de voz,
faciales; ha alcanzado un notable interés en el desarrollo en el
campo de las TIC’S.

Como una tarea de reconocimiento de fonemas, una serie de
experimentos se llevaron a cabo en la búsqueda de la consonante
oclusiva 2 ("b", "d", "g") de la base de datos TIMIT 3 [1]
pronunciada por 630 personas (hombre y mujer). Los datos extraídos
son la base de patrones de entrada para la formación de dos tipos de
redes neuronales, la red semi-dinámica (TDNN), y una red estática
(MLP). Las tasas de reconocimiento más alto de 77,5 y el 72,4 por
ciento se registraron para TDNN y MLP, respectivamente. Esto
contrasta con los resultados de un 72 por ciento citadas por Hwang
y otros [3] para los mismos fonemas hablados por 40 mujeres.

En este trabajo se va a registrar datos referentes a
indagaciones realizadas sobre técnica de voz y reconocimiento
de voz, se hace notar que una persona capta el sonido de 202000 Hz, siendo el resto de sonidos imperceptibles. El
procesamiento de la señal de voz se segmenta, eliminando los
datos que no forman parte de una palabra y/o fonema. Este
proceso se lo realiza utilizando técnicas de filtrado, y otras
técnicas expuestas por diferentes autores en su publicaciones
científicas.

Abstract — This paper summarizes briefly the technique of
feature extraction based on two-dimensional discrete cosine
transform (DTC_2D) and the method of scanning zig-zag
spectrogram, which are images based on time and frequency of
utterances phonemes that allow us to see more clearly the differences
in pronunciation of a word, compared to the view based on analysis
of single dimension as LPC (Linear Prediction Coefficients),
Cepstral, or FFT.

Existen varios métodos (identificadores) para el
reconocimiento de la voz, la figura 1 muestra algunas técnicas.

As a task of phonemic awareness, a series of experiments were
carried out in pursuit of the stop consonant ( "b", "d", "g") of the
database TIMIT [1] spoken by 630 people ( man and woman). The
extracted data are the basis of input patterns for the formation of two
types of neural networks, semi-dynamic network (TDNN), and a
static network (MLP). This contrasts with the results of a 72 percent
cited by Hwang et al [3] for the same phonemes spoken by 40 women.
Keywords—componentes; fonemas; espectrogramas; KLT ;
DCT; pixcel, TIMIT, extración de características;

IDENTIFICADORES

MODELOS DE
PLANTILLA
MLP

DISTORSION EN
TIEMPO DINAMICO
(DTW)

REDES
NEURALES
NNS

VECTOR DE
QUANTIZACION
(VQ)

MAQUINAS DE
SOPORTE DE
VECTOR (SVMS)

MODELOS
OCULTOS DE
MARKOV (HMM)

ESTOCASTICOS

MODELOS DE MESCLA
GAUSSIANA
(GMM)

Fig. 1 Técnicas de Identificación [2]
Con la aparición de las redes neuronales y el creciente
desarrollo del reconocimiento automático de la voz red, varios

1

Son sonidos del habla que nos permiten distinguir palabras en una lengua
determinada Ej. /p/ y /b/ son fonemas ya que solo al cambiar una letra puede
cambiar todo el contexto en pata & bata
2
También llamadas oclusivas sonoras y se pronuncian con la vibración de las
cuerdas vocales y determinan pausas en palabras

3 TIMIT base de datos que está diseñado para proporcionar datos de voz para
los estudios acústicos-fonética y para el desarrollo y la evaluación de los
sistemas de reconocimiento automático del habla. TIMIT contiene grabaciones
de banda ancha de dialectos de Inglés Americano.

La figura 2 ilustra el modelo del sistema en general. El Sistema General de Reconocimiento de Voz II. La transformada discreta del coseno esta defina para N puntos como: 4 (1) Una representación de un proceso estocástico como una combinación lineal infinita de funciones ortogonales. "g") fueron extraídos de una voz humana continua y natural. La extracción de características se relaciona con la reducción de la dimensionalidad. 2.estudios fueron realizados para acoplar esta tecnología a las redes neuronales [4].250 expresiones en un total con una técnica para estimar el rendimiento del modelo predictivo (crossvalidation) los datos de validación establecidos se dividieron en dos grupos: 1. Contiene mayor concentración de energía en el menor número de coeficientes de la Transformada. análogas a una representación en serie de Fourier de una función en un intervalo acotado . Cortana (Windows) y Google Now (Google). La Transformada Discreta del Coseno (DTC) [5] es la mejor transformada ortogonal mejorable en comparación con el KLT 4 (Karhunen-Loève Transform) que se conoce como la trasformada más óptima. con estas aplicaciones se observa mejoras significativas en la precisión del reconocimiento. así como la tasa de convergencia para el control y desarrollo. la figura 3 muestra los métodos para la extracción de característica PREDICCION LINEAL DE CARACTERISITICAS (LPC) WAVELETS REDES NEURONALES TDNN & MLP MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC) EXTRACCION DE CARACTERISTICAS INGRESO VOZ LINEAR PREDICTIVE CEPSTRAL COEFICIENTS (LPCC) VOZ RECONOCIDA PERCEPTUAL LINEAR PREDICTION (PLP) Fig. siendo posible interactuar con los ordenadores fijos y móviles con sistemas como: SIRI (Apple). 2. En la actualidad se han dado pasos gigantescos en este ámbito. Constituyéndose el principal objetivo de este descubrimiento desarrollar un sistema de voz y reconocimiento de voz independiente del texto. en la última sección se hace un análisis para las diferentes redes neuronales. la extracción de características se inicia a partir de un conjunto inicial de datos que facilita las posteriores etapas de aprendizaje y de generalización y en algunos casos conduce a mejores interpretaciones humanas. llamados asistentes de voz. Un pequeño conjunto de datos compuesto de 8 regiones diferentes donde cada uno hablo de 130 a 180 expresiones. en la actualidad estas herramientas hacen la vida más simple y divertida. existen La selección de características se refiere a la elección de ciertos atributos de una imagen. Se seleccionaron más de 2. Un conjunto de datos grande contenidas todas las 8 regiones de 1250 enunciado. PROCESAMIENTO DE DATOS Y ESTRACCION DE CARACTERISITICAS En la rama de la inteligencia artificial. 3 Técnicas de Extracción de características [2] El principio fundamental en el procesamiento de la imagen digital para el reconocimiento de patrones de voz es la capacidad de representar la imagen en un espacio en el que los atributos de la imagen no están correlacionados. La transformada ortogonal tiene propiedades distintas y diversas como: Se descorrelaciona la señal en el dominio de la transformada.000 expresiones para el entrenamiento de las redes neuronales y se seleccionaron aproximadamente 1. en la siguiente sección se define los datos de entrada y se explica el procesamiento y el algoritmo de extracción de características. el reconocimiento de patrones y en el procesamiento de imágenes. Los enunciados o expresiones para el entrenamiento y validación se tomaron un número similar de hombres y mujeres para ambos conjuntos NEURAL PREDICTIVE CODING Fig. pronunciada por 630 hablantes de 8 regiones diferentes de la base de datos TIMIT [1]. RECOLECCION DE DATOS Los datos de una consonante oclusiva (“b". "d". PRE PROCESAMIENTO PROCESAMIENTO DE IMAGEN EXTRACION D E CARACTERISTICAS III.

La frecuencia aumenta a lo largo de la diagonal de partida en el elemento dc que está situado en el píxel 1 (ubicado en la parte superior izquierda) con menor frecuencia y termina en el pixel 64 (situado en la parte inferior derecha) con mayor frecuencia. intensivo y reduce la restricción en tiempo real para los propósitos más prácticos. ?? − 1 2?? Seg1 Seg2 Espectrograma de Imagen R ??−1 ??(??) = � 2??[??]?????? � denota las varianzas de los La Figura 3 ilustra el MSE 5 de las transformadas ortogonales [6] en comparación con el tamaño del bloque. … . ????−1 ) = ⎢ ⎢ ⋮ ⋮ ⋱ ⋮ ⎥ ⎢ ⎥ ⎣ 0 0 … ????−1 ⎦ Donde ???? . suponiendo que el vector de coeficientes transformados también tiene media nula. donde ?? y ?? son las dimensiones del espectrograma. 5. “La matriz de transformación de la KLT.(1) La transformada inversa discreta del coseno esta defina como: ??[??] = ??−1 1 ?? � ??[??]??[??]?????? � ??(2?? + 1)� . con ?? = 0. ??1 . la matriz de covarianza ??�?? del vector de coeficientes transformados resulta [6]”: ?? 0 … 0 ⎡ 0 ⎤ ⎢ 0 ??1 … 0 ⎥ ⎥ (3) ??�?? = ??[??�??� ?? ] = ????????(??0 . para aprovechar la redundancia en un conjunto de píxeles.1. Segmentación de la imagen [4] Una Transformada Discreta de Coseno en 2 Dimensiones (2DDCT) de cada bloque de 8x8 se calcula. es decir. 3 MSE frente al tamaño de bloque para diferentes transformadas ortogonales [8] En primer lugar.1. ?? 2?? (2) ??=0 ?? = 0. . Mediante la división de la imagen en una serie de bloques más pequeños se forman grupos de píxeles que están estadísticamente relacionadas con un alto nivel de redundancia. El espectrograma de banda ancha generada se divide en una serie de ?????? (8 ∗ 8) bloques de píxeles como se muestra en la figura 4.4. Como se puede ver en la Figura 2 los bloques más pequeños se eligen en lugar de toda la imagen por tres razones principales. SegN Fig. … . Método del escaneo en zigzag . … . ?? − 1 La ecuación (3) indica la ecuación de La Transformada Karhunen-Loève KLT. N coeficientes transformados. ?? = 0.1. cualquier píxel en una imagen es probable que sea estrechamente relacionada con los cuatro píxeles que rodean y de manera similar cada uno de estos. son propensos a tener la misma relación con sus respectivos vecinos.1. el procesamiento de imágenes de pequeño número de bloques es computacionalmente menos 5 Error Medio Cuadrático (Mean Square Error) mide el promedio de los errores al cuadrado.5.…. pero el píxel original es poco probable de estar relacionado con uno que esté a larga distancia. en segundo lugar. las características fundamentales de imagen se extraen utilizando el método escaneo en zigzag como se muestra en la figura. Finalmente. C Q P ??=0 ?? ??(2?? + 1)� . la diferencia entre el valor estimado y lo que se estima 64 Fig. 4% 3% FFT 2% 1 DCT 1% KLT 0% 2x2 4x4 8x8 16x16 32x32 64x64 128x128 Fig.

6. ESTRUCTURA DE LAS REDES NEURONALES Y RESULTADOS Los datos seleccionados constituyen la base de patrones de entrada para las redes neuronales de formación. En caso de MLP se usó el mismo número de entrada y salida. Las Redes TDNN y MLP se utilizan con el fin de investigar y determinar si el espectrograma procesado necesita adaptarse al comportamiento dinámico de la señal de voz o las características extraídas son adecuadas para una red estática simple El procedimiento analizado reduce el número de nodos de entradas en los patrones de entrenamiento y al mismo tiempo proporciona un número significativo de características del conjunto de información. La segunda etapa representa el procesamiento de imágenes y la extracción de características clave y finalmente.4 por ciento se registraron. En la etapa de pre-procesamiento los datos analógicos son convertidos en datos lineales de 16 bits. Estos resultados contrastan con resultado de 72 por ciento citado por Hwang et al [3] para los mismos fonemas hablados por sólo 40 hablantes femeninos. MLP) son adiestradas para propósitos de reconocimiento. pero sólo se usó una capa oculta de nodos 20 en comparación con dos capas ocultas en la TDNN. El reconocimiento de Voz parte de un razonamiento diferente ya que para reconocer fonemas (palabras oraciones silabas) de personas el sistema está reconociendo “imágenes” espectrogramas que son las representaciones de la voz en función del tiempo y la frecuencia utilizando la DCT o KLT en 2 dimensiones (si fuera 3 dimensiones la tercera dimensión representa el peso de la señal “El tono”) comparando patrones de puntos (pixeles) similares en regiones dividas del espectrograma. en la última etapa los patrones generados son entrenados y probados por las dos redes neuronales. Existen muchas técnicas de extracción de características y técnicas de identificación de reconocimiento de voz pero una de las más utilizadas es TDNN y MLP mediante el uso de la transformada de Karhunen-Loève (KLT) y la transforma de Discreta del Coseno (DCT) . número de PxQ Clasificador Guardar como un archivo de patrones REDES NEURONALES TDNN & MLP Escoger P.4 Tabla1 Resultados de la Base de Datos TIMIT [3] Las tasas de reconocimiento más alto de 77. Tipos Redes neuronales TDNN MLP Entrenamiento Pruebas 85 89 77. Un conjunto completo de resultados se ilustran en la Tabla 1.5 72. Pre-procesamiento ADC Muestreo 8kHz 8 Bits ley de mu Señal Analogica Voz Convertidor de 16 Bits Lineal Espectrograma Con n puntos FFT Extraction de Características Tomar m Caracterisiticas Por cada segmento (Escaneo en Zigzag) Divida a los segmentos l. respectivamente. En este estudio una red neuronal semi-dinámica (Time-Delay Neural Network. que a su vez resulta en un menor tiempo de formación y una mejor tasa de convergencia. TDNN) y una red estática (Multilayer Preceptors.5 y 72.La mayor cantidad de datos en cada bloque de procesado se almacena en la región de baja frecuencia.Q. El sistema global se compone de 3 particiones principales como se indica en la Fig. Por lo tanto para una red TDNN la reducción de las unidades de entrada de número se traduce en un menor número de nodos ocultos (disminuyendo el número total de conexiones). El sistema de Reconocimiento de Voz [7] El procedimiento propuesto reduce el número de los nodos de entrada en los patrones de entrenamiento y al mismo tiempo proporciona un número más importante de características del conjunto de datos. TDNN y MLP. Tanto la transformada KLT como la DCT son funciones matemáticas muy útiles y su principal valor es que pueden descomponer las señales en función de coeficientes donde siempre la mayor parte de la energía está enfocada en los primeros. Cualquier tipo de sonido se puede representar con espectrogramas ya que se pueden discretizar y convertirlos en una función en el dominio del tiempo y la frecuencia. El componente de ???? se selecciona como la característica clave de cada bloque individual y se almacena en un archivo de patrones para el entrenamiento de las redes neuronales. CONCLUCIONES Una Red Neuronal semi-dinámica (TDNN) y red estática (MLP) son herramientas óptimas para el reconocimiento de Voz. es decir. IV.m Ronocer fonema o plabra Hola Figura 6. 72 y 3 respectivamente. Estas dos redes se utilizaron con el fin de investigar si el espectrograma procesado necesita adaptarse al comportamiento dinámico de la señal de voz o las características extraídas son adecuadas para una simple red estática.

Realizó sus estudios secundarios en el Colegio Técnico “Guayaquil” y los estudios de pregrado en la Universidad Técnica de Ambato.". Vol. Clements M. [5] Digital Signal Processing and Statistical Classification Miao G. En el año desde el año 2009 hasta la presente fecha labora en la Corporación Nacional de Telecomunicaciones CNT EP Agustín Cortez Manzano. ''DCT. desde el año 2008 hasta la presente fecha labora en la Corporación Nacional de Telecomunicaciones CNT EP . ASSP-37. Proc. page 93-102.2 Sep. [3] Hwang J. UK..AGRADECIMIENTOS Este documento fue realizado con la colaboración del Msc. Denmark 31 Aug. Hinton G. Advantages. Academic Press Inc. Pag. Of IEEE Signal Processing. Bedon Nacido en Ambato el 26 de junio 1981.". Kenneth Palacios B. Pag. NJ Bailey. 116 [6]Valetin Cruz Rodriguez “Diseño de un codificador de imágenes adaptativo multitransformada mediante el uso de la transformada karhunen-loève ” Octubre 2012 Pag. Actualmente sigue la maestría en Sistemas de Telecomunicaciones en la Escuela Superior Politécnica de Chimborazo en la ciudad de Riobamba. Realizó sus estudios secundarios en el Colegio Juan Francisco Yerovi y los estudios superiores cursó en la Escuela Superior Politécnica de Chimborazo. Lang K. Network for Signal Processing II. "Phoneme Recognition Using Time-Delay Neural Networks. "Interactive Quary learning for Isolated Speech Recognition". Applications. José F. [4] Waibel A H. March 1989. Li H.Shikano K. lEEE Trans. profesor de la Universidad de Cuenca y profesor del ESPOCH quien nos ayudó con material y la documentación necesaria para realizar esta investigación. . 3. Actualmente sigue la maestría en Sistemas de Telecomunicaciones en la Escuela Superior Politécnica de Chimborazo en la ciudad de Riobamba.62 [7] M Ahmadi. 674 [8] Rao K R.35 Ref 2. BS Hoyle. (2014). lEEE Proceedings IWISP '96. En el año 2009 fue profesor en la Facultad de informática Electrónica en la Escuela Superior Politécnica de Chimborazo en la ciudad de Riobamba. “Sistema de reconocimiento de voz usando perceptrón multicapa y Coeficientes Cepstrales de Mel. 1992. 4–7 November 1996. on ASSP.. · Algorithm. Nacido en Tixán – Alausí el 11 de abril 1980. No. "Phoneme Recognition using Speech Image ( Spectrogram ). 1990. REFERENCIAS [1] Lopes Carla. Yip P."'. Hanazawa T. ” Pag 21-22 . Manchester. Perdigão Fernando “Phone Recognition on the TIMIT Database” [2] García Guajardo.