DSP1

Detección de fonemas en señales de voz a partir de la energı́a
y la tasa de cruces por cero de la señal

Nicolás Andrés Fresneda — Código N.o 20151005009*
Andrey Pinzón Rodrı́guez — Código N.o 20142005139**
21 de abril de 2019
Resumen
El análisis de las señales permite extraer información importante de estas mismas y manipularlas
mejor hasta cierto punto. Este trabajo presenta un método aceptable de cómo se pueden extraer ciertas
cualidades de una señal de voz mediante el análisis de la energı́a que contiene dicha señal y sus cruces por
cero al analizarla en el software Matlab. Se ha tomado una grabación de una voz femenina, y mediante el
análisis antes mencionado, se ha estimado que tipo de fonema pronuncia, ya sean fonemas vocalizados, no
vocalizados o incluso silencios en dicha grabación. Se consultó con algunos documentos sobre este mismo
trabajo en internet para aprender sobre otros métodos similares. Es importante mencionar que este trabajo
se basa en un código trabajado en la clase de procesamiento de señales digitales de la Universidad Distrital
por lo que los conceptos, son principalmente los trabajados en clase. El proceso para identificar los rangos
en los cuales se presentan silencios, fonemas no vocalizados y fonemas vocalizados fue bastante tedioso, pero
se logró un resultado aceptable. Luego de hacer este análisis, se procedió a hacer una grabación de uno de
los integrantes del grupo, y se le aplicó el mismo procedimiento para comprobar que el trabajo se podı́a
aplicar a cualquier tipo de grabación de voz humana, también se muestran las dificultades que se tuvieron,
algunas recomendaciones y los resultados que se obtuvieron.
Palabras clave: Fonema vocalizado, fonema no vocalizado, energı́a, cruce por cero.
* Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: nafresne-
dab@correo.udistrital.edu.co.
** Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: miapin-
zonr@correo.udistrital.edu.co.
1
1. Introducción de cruces por cero es alta y la energı́a baja, se trata de un
segmento no vocalizado. Si la tasa de cruces por cero es
Se puede decir que la voz es una onda mecánica longitudinal, baja y la energı́a alta, se trata de un segmento vocalizado.
es decir, una onda que viaja en el medio en el mismo senti- Los silencios tienen una energı́a mucho más baja que los
do de su propagación. Esta onda mecánica se puede tratar segmento no vocalizados pero su tasa de cruces por cero
como una señal y dependiendo de cada persona, o aparato suele ser mayor que la de estos últimos.
fonador, esta señal tendrá diferentes caracterı́sticas que se En el apartado: Resultados, se muestran las gráficas co-
pueden percibir1 . Normalmente se perciben algunas carac- rrespondientes a este comportamiento aquı́ descrito.
terı́sticas de estas señales de voz mediante nuestro oı́do, pero
para detectar otras caracterı́sticas de dichas señales, gene-
ralmente se debe recurrir a dispositivos como por ejemplo 3. Resultados
un software, a menos que se cuente con un oı́do extremada-
mente prodigioso como para detectar frecuencias y rangos Para una señal de voz grabada previamente, el análisis
de nivel para la voz de cualquier persona.[1] que se debe realizar para identificar y clasificar los fonemas,
Por eso, en este trabajo se presenta una forma de identi- se lleva a cabo en un determinado rango de muestras que
ficar algunas caracterı́sticas que componen la voz humana, componen una ventana y que recorren paulatinamente toda
mediante el análisis visual de una señal de voz previamente la señal. Para poder realizar el análisis por energı́a, se debe
grabada, con base en el software Matlab. aplicar el teorema de Parseval, el cual nos indica la manera
Las caracterı́sticas de la voz humana que se analizaron para calcular la energı́a total, sumando las magnitudes al
fueron los fonemas vocalizados, los no vocalizados y los si- cuadrado de la señal, de igual forma, la tasa de cruces por
lencios, en una frase pronunciada en el idioma francés, jun- cero es un factor que nos indica la cantidad promedio, de
to con una frase en idioma italiano, grabado en un celular cambios de signo en amplitud o cruces por cero de la señal.
común. Debido a que este cálculo se debe realizar en el rango de
En algunos trabajos similares consultados en internet2 , muestras de la ventana, estas acciones se deben realizar un
se encontró que se empleaban filtros para descomponer las ciclo, de modo que haga el barrido para toda la señal.
señales de voz en sus diferentes frecuencias y se realizaba
un análisis con un recurso que no se emplea en este informe, En la figura 1 se evidencia las gráficas de la señal de
que es la envolvente del espectro en tiempo corto.[2] audio de la voz femenina, con sus correspondientes gráficas
En este documento, como se menciona en el tı́tulo, se hace el de energı́a y tasa de cruces por cero, como se puede observar,
análisis de una señal de voz, empleando la energı́a de dicha estas gráficas se encuentran normalizadas, de manera que
señal y la detección de cruces por cero. solo pueden tomar valores entre 0 y 1, a excepción de la señal
La perspectiva general de este trabajo, es mostrar un original de audio, la cual si tiene componentes de amplitud
método para identificar las caracterı́sticas de la voz huma- negativas.
na antes mencionadas, mediante el procesamiento de una
grabación de audio, posterior espectro de frecuencias y am-
plitudes en el software Matlab, y por último, análisis de la
energı́a y cantidad de cruces por cero de dicha señal.
2. Formulación del problema

El problema que se busca resolver en este documento,
radica en como responder las siguientes preguntas: ¿Cómo
determinar y visualizar en una gráfica, mediante el uso de
un código en Matlab y en qué momento de tiempo una gra-
bación de voz, contiene un fonema vocalizado, un fonema
no vocalizado o un silencio?.
¿Cómo se abordó este problema?. Resulta que se toma Figura 1: Gráficas de audio, energı́a y tasa de cruces por cero para una
señal de voz femenina.
la grabación de voz y se analiza su espectro en frecuencia
en el software Matlab. Por fenómenos naturales, tanto la
Para clasificar los diferentes fonemas, se recurrió a un
energı́a como la tasa de cruces por cero de los fonemas no
algoritmo de clasificación, el cual tiene como prioridad, eva-
vocalizados, vocalizados y los silencios es distinta. Si la tasa
luar el valor de la energı́a en la correspondiente muestra,
1 Procesador acústico: El bloque de extracción de caracterı́sticas. dependiendo su nivel de energı́a asigna valor o evalúa la ta-
Juan Luis Navarro. Universidad de Las Palmas de Gran Canaria. To- sa de cruces por cero, y después asigna valor, de esta manera
mado de La Señal de Voz - ULPGC
2 Procesamiento digital de señales de voz
los clasifica. El valor asignado es un ‘1’ con el fin de norma-
Dr. Juan Carlos Gómez, tomado de la pagina lizar la gráfica, este valor se asigna en un vector diferente,
https://www.fceia.unr.edu.ar/prodivoz/bancof iltrosb w.pdf dependiendo el tipo de fonema, es decir, si el fonema es un
2
silencio, almacena un ’1’ en la respectiva posición del vector
de silencios, lo mismo para un fonema no vocalizado o uno
vocalizado. El algoritmo de clasificación es el que se muestra
en la figura 2.
Figura 4: Gráficas de audio, energı́a y tasa de cruces por cero para una
señal de voz grabada con micrófono común.
Figura 2: Diagrama de flujo del algoritmo de clasificación para la señal

de voz femenina.
La gráfica que se obtiene después del algoritmo de clasi-

ficación, es la mostrada en la figura 3.
Figura 5: Diagrama de flujo del algoritmo de clasificación para una

señal de voz grabada con un micrófono común.
Figura 3: Gráfica de clasificación de los fonemas para la señal de voz

femenina. La clasificación obtenida después del nuevo algoritmo se
muestra en la figura 6.
Con respecto al audio grabado con la voz de uno de los
integrantes, éste se implementó de la misma manera, a ex-
cepción de que el audio original después de la conversión de
formato mp4 a wav, se encontraba grabado en estéreo, por
lo que se requirió realizar una separación de las señales, para
obtener solo una, es decir, monofónico, y poderla trabajar de
manera análoga, con diferencia en la frecuencia de muestreo.
Las gráficas de audio, energı́a y tasa de cruces por cero,

se muestran en la figura 4, que como se observa debido al
entorno en el que fue grabada, esta señal presenta un nivel
de ruido mayor en comparación con la señal de audio de la
voz femenina, lo cual afecta también las señales de energı́a
y de tasa de cruces por cero.
Figura 6: Gráfica de clasificación de los fonemas para una señal de voz
grabada con un micrófono común.
De manera análoga, se realizó un algoritmo de clasifica-
ción, el cual se muestra en la figura 5.
3
4. Discusión realizar un proceso de filtrado, con el fin de obtener una
señal un poco más limpia.
Como se observa en las figuras 1 y 4, hay una gran di-
ferencia en cuanto a las señales, esto se debe al proceso de Otro factor que cabe resaltar, que tiene bastante influen-
grabación de las diferentes voces, incluyendo el entorno en el cia en la detección y clasificación de los fonemas, es el ancho
que fueron realizados, y también al proceso de filtrado que se de muestras de la ventana, debido a que cada voz, y de por si
les pudo haber realizado, esto con el fin de obtener la señal los diferentes fonemas, poseen una duración distinta, por lo
de audio un poco más “completa”, y a su vez las señales de que este ancho de la ventana puede variar dependiendo del
energı́a y cruces por cero un poco más suaves, pues con el sujeto que este generando el sonido, haciendo que se genere
ruido que se le adiciona por el entorno, los cambios en las cierto error en la precisión de la clasificación de los fonemas.
muestras son más bruscos, haciendo que las señales que se
derivan de las muestras, también tengan este tipo de cam-
bios. Referencias
Otra cosa que cabe resaltar es la amplitud de la señal [1] Y. H. Goh and P. Raveendran, “Phoneme segmentation
de voz, pues esta varı́a con respecto al intérprete, lo que of speech signal,” in 2009 International Conference for
causa que el algoritmo de clasificación se deba ajustar de Technical Postgraduates (TECHPOS), Dec 2009, pp. 1–
manera distinta, dependiendo la respectiva señal de voz que 3.
se desea clasificar, tal y como se muestra en las figuras 2 y 5.
[2] M. Kishi, Y. Kozaki, and M. Koizumi, “A proposal of
short time dft syllabic compander and its configura-
Por lo tanto, se recomienda realizar este tipo de gra- tions,” in [1991 Proceedings] 41st IEEE Vehicular Tech-
baciones en lugares especiales, que permitan aislar el ruido nology Conference, May 1991, pp. 263–268.
y que permitan grabar la voz de una mejor manera, tam-
bién en lo posible, con dispositivos especializados en estas
acciones.
5. Conclusiones
Como se observa en los algoritmos de clasificación mos-
trados en las figuras 2 y 5, no hay manera de generar un
clasificador general para cualquier tipo de voz, debido a que
cada tipo de voz puede generar una señal completamente
distinta, debido al tono de voz, el volumen, el entorno, la
duración, entre otras. Por lo que se hace necesario la crea-
ción de un nuevo algoritmo, para cada señal de audio, com-
parando y evaluando los niveles de energı́a y de cruces por
cero para distintos valores en cada caso, según se observe en
las gráficas.
Dependiendo del entorno donde se haga la grabazón de la

señal de voz, influye con bastante consideración en el análi-
sis de las gráficas, debido a que una señal que fue hecha en
un entorno y con dispositivos apropiados presenta una señal
de audio más suave, es decir, sin cambios muy bruscos en
amplitud, no solo para la señal de voz, sino también para
sus respectivas señales de energı́a y de tasa de cruces por ce-
ro, tal y como se muestra en la figura 1; por otra parte, una
señal de voz, grabada en un entorno inapropiado, de por si
ruidoso, genera que la señal tenga unos cambios bruscos en
las muestras, generando también bastantes cambios en las
señales derivadas de estas muestras, como lo son la energı́a
y los cruces por cero, ası́ como se observa en la figura 4, por
ende no solo se recomienda realizar este tipo de grabaciones
sonoras que dependen del ambiente en espacios apropiados,
junto con los dispositivos más adecuados, sino que también,
en caso de que se presenten estos ruidos sobre dicha señal,

DSP1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DSP1

Cargado por

Copyright:

Formatos disponibles

Detección de fonemas en señales de voz a partir de la energı́a

y la tasa de cruces por cero de la señal

2. Formulación del problema

Figura 2: Diagrama de flujo del algoritmo de clasificación para la señal

La gráfica que se obtiene después del algoritmo de clasi-

Figura 5: Diagrama de flujo del algoritmo de clasificación para una

Figura 3: Gráfica de clasificación de los fonemas para la señal de voz

Las gráficas de audio, energı́a y tasa de cruces por cero,

Dependiendo del entorno donde se haga la grabazón de la

También podría gustarte