Está en la página 1de 4

Detección de fonemas en señales de voz a partir de la energı́a

y la tasa de cruces por cero de la señal


Nicolás Andrés Fresneda — Código N.o 20151005009*
Andrey Pinzón Rodrı́guez — Código N.o 20142005139**
21 de abril de 2019

Resumen
El análisis de las señales permite extraer información importante de estas mismas y manipularlas
mejor hasta cierto punto. Este trabajo presenta un método aceptable de cómo se pueden extraer ciertas
cualidades de una señal de voz mediante el análisis de la energı́a que contiene dicha señal y sus cruces por
cero al analizarla en el software Matlab. Se ha tomado una grabación de una voz femenina, y mediante el
análisis antes mencionado, se ha estimado que tipo de fonema pronuncia, ya sean fonemas vocalizados, no
vocalizados o incluso silencios en dicha grabación. Se consultó con algunos documentos sobre este mismo
trabajo en internet para aprender sobre otros métodos similares. Es importante mencionar que este trabajo
se basa en un código trabajado en la clase de procesamiento de señales digitales de la Universidad Distrital
por lo que los conceptos, son principalmente los trabajados en clase. El proceso para identificar los rangos
en los cuales se presentan silencios, fonemas no vocalizados y fonemas vocalizados fue bastante tedioso, pero
se logró un resultado aceptable. Luego de hacer este análisis, se procedió a hacer una grabación de uno de
los integrantes del grupo, y se le aplicó el mismo procedimiento para comprobar que el trabajo se podı́a
aplicar a cualquier tipo de grabación de voz humana, también se muestran las dificultades que se tuvieron,
algunas recomendaciones y los resultados que se obtuvieron.
Palabras clave: Fonema vocalizado, fonema no vocalizado, energı́a, cruce por cero.

* Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: nafresne-

dab@correo.udistrital.edu.co.
** Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: miapin-

zonr@correo.udistrital.edu.co.

1
1. Introducción de cruces por cero es alta y la energı́a baja, se trata de un
segmento no vocalizado. Si la tasa de cruces por cero es
Se puede decir que la voz es una onda mecánica longitudinal, baja y la energı́a alta, se trata de un segmento vocalizado.
es decir, una onda que viaja en el medio en el mismo senti- Los silencios tienen una energı́a mucho más baja que los
do de su propagación. Esta onda mecánica se puede tratar segmento no vocalizados pero su tasa de cruces por cero
como una señal y dependiendo de cada persona, o aparato suele ser mayor que la de estos últimos.
fonador, esta señal tendrá diferentes caracterı́sticas que se En el apartado: Resultados, se muestran las gráficas co-
pueden percibir1 . Normalmente se perciben algunas carac- rrespondientes a este comportamiento aquı́ descrito.
terı́sticas de estas señales de voz mediante nuestro oı́do, pero
para detectar otras caracterı́sticas de dichas señales, gene-
ralmente se debe recurrir a dispositivos como por ejemplo 3. Resultados
un software, a menos que se cuente con un oı́do extremada-
mente prodigioso como para detectar frecuencias y rangos Para una señal de voz grabada previamente, el análisis
de nivel para la voz de cualquier persona.[1] que se debe realizar para identificar y clasificar los fonemas,
Por eso, en este trabajo se presenta una forma de identi- se lleva a cabo en un determinado rango de muestras que
ficar algunas caracterı́sticas que componen la voz humana, componen una ventana y que recorren paulatinamente toda
mediante el análisis visual de una señal de voz previamente la señal. Para poder realizar el análisis por energı́a, se debe
grabada, con base en el software Matlab. aplicar el teorema de Parseval, el cual nos indica la manera
Las caracterı́sticas de la voz humana que se analizaron para calcular la energı́a total, sumando las magnitudes al
fueron los fonemas vocalizados, los no vocalizados y los si- cuadrado de la señal, de igual forma, la tasa de cruces por
lencios, en una frase pronunciada en el idioma francés, jun- cero es un factor que nos indica la cantidad promedio, de
to con una frase en idioma italiano, grabado en un celular cambios de signo en amplitud o cruces por cero de la señal.
común. Debido a que este cálculo se debe realizar en el rango de
En algunos trabajos similares consultados en internet2 , muestras de la ventana, estas acciones se deben realizar un
se encontró que se empleaban filtros para descomponer las ciclo, de modo que haga el barrido para toda la señal.
señales de voz en sus diferentes frecuencias y se realizaba
un análisis con un recurso que no se emplea en este informe, En la figura 1 se evidencia las gráficas de la señal de
que es la envolvente del espectro en tiempo corto.[2] audio de la voz femenina, con sus correspondientes gráficas
En este documento, como se menciona en el tı́tulo, se hace el de energı́a y tasa de cruces por cero, como se puede observar,
análisis de una señal de voz, empleando la energı́a de dicha estas gráficas se encuentran normalizadas, de manera que
señal y la detección de cruces por cero. solo pueden tomar valores entre 0 y 1, a excepción de la señal
La perspectiva general de este trabajo, es mostrar un original de audio, la cual si tiene componentes de amplitud
método para identificar las caracterı́sticas de la voz huma- negativas.
na antes mencionadas, mediante el procesamiento de una
grabación de audio, posterior espectro de frecuencias y am-
plitudes en el software Matlab, y por último, análisis de la
energı́a y cantidad de cruces por cero de dicha señal.

2. Formulación del problema


El problema que se busca resolver en este documento,
radica en como responder las siguientes preguntas: ¿Cómo
determinar y visualizar en una gráfica, mediante el uso de
un código en Matlab y en qué momento de tiempo una gra-
bación de voz, contiene un fonema vocalizado, un fonema
no vocalizado o un silencio?.
¿Cómo se abordó este problema?. Resulta que se toma Figura 1: Gráficas de audio, energı́a y tasa de cruces por cero para una
señal de voz femenina.
la grabación de voz y se analiza su espectro en frecuencia
en el software Matlab. Por fenómenos naturales, tanto la
Para clasificar los diferentes fonemas, se recurrió a un
energı́a como la tasa de cruces por cero de los fonemas no
algoritmo de clasificación, el cual tiene como prioridad, eva-
vocalizados, vocalizados y los silencios es distinta. Si la tasa
luar el valor de la energı́a en la correspondiente muestra,
1 Procesador acústico: El bloque de extracción de caracterı́sticas. dependiendo su nivel de energı́a asigna valor o evalúa la ta-
Juan Luis Navarro. Universidad de Las Palmas de Gran Canaria. To- sa de cruces por cero, y después asigna valor, de esta manera
mado de La Señal de Voz - ULPGC
2 Procesamiento digital de señales de voz
los clasifica. El valor asignado es un ‘1’ con el fin de norma-
Dr. Juan Carlos Gómez, tomado de la pagina lizar la gráfica, este valor se asigna en un vector diferente,
https://www.fceia.unr.edu.ar/prodivoz/bancof iltrosb w.pdf dependiendo el tipo de fonema, es decir, si el fonema es un

2
silencio, almacena un ’1’ en la respectiva posición del vector
de silencios, lo mismo para un fonema no vocalizado o uno
vocalizado. El algoritmo de clasificación es el que se muestra
en la figura 2.

Figura 4: Gráficas de audio, energı́a y tasa de cruces por cero para una
señal de voz grabada con micrófono común.

Figura 2: Diagrama de flujo del algoritmo de clasificación para la señal


de voz femenina.

La gráfica que se obtiene después del algoritmo de clasi-


ficación, es la mostrada en la figura 3.

Figura 5: Diagrama de flujo del algoritmo de clasificación para una


señal de voz grabada con un micrófono común.

Figura 3: Gráfica de clasificación de los fonemas para la señal de voz


femenina. La clasificación obtenida después del nuevo algoritmo se
muestra en la figura 6.
Con respecto al audio grabado con la voz de uno de los
integrantes, éste se implementó de la misma manera, a ex-
cepción de que el audio original después de la conversión de
formato mp4 a wav, se encontraba grabado en estéreo, por
lo que se requirió realizar una separación de las señales, para
obtener solo una, es decir, monofónico, y poderla trabajar de
manera análoga, con diferencia en la frecuencia de muestreo.

Las gráficas de audio, energı́a y tasa de cruces por cero,


se muestran en la figura 4, que como se observa debido al
entorno en el que fue grabada, esta señal presenta un nivel
de ruido mayor en comparación con la señal de audio de la
voz femenina, lo cual afecta también las señales de energı́a
y de tasa de cruces por cero.
Figura 6: Gráfica de clasificación de los fonemas para una señal de voz
grabada con un micrófono común.
De manera análoga, se realizó un algoritmo de clasifica-
ción, el cual se muestra en la figura 5.

3
4. Discusión realizar un proceso de filtrado, con el fin de obtener una
señal un poco más limpia.
Como se observa en las figuras 1 y 4, hay una gran di-
ferencia en cuanto a las señales, esto se debe al proceso de Otro factor que cabe resaltar, que tiene bastante influen-
grabación de las diferentes voces, incluyendo el entorno en el cia en la detección y clasificación de los fonemas, es el ancho
que fueron realizados, y también al proceso de filtrado que se de muestras de la ventana, debido a que cada voz, y de por si
les pudo haber realizado, esto con el fin de obtener la señal los diferentes fonemas, poseen una duración distinta, por lo
de audio un poco más “completa”, y a su vez las señales de que este ancho de la ventana puede variar dependiendo del
energı́a y cruces por cero un poco más suaves, pues con el sujeto que este generando el sonido, haciendo que se genere
ruido que se le adiciona por el entorno, los cambios en las cierto error en la precisión de la clasificación de los fonemas.
muestras son más bruscos, haciendo que las señales que se
derivan de las muestras, también tengan este tipo de cam-
bios. Referencias
Otra cosa que cabe resaltar es la amplitud de la señal [1] Y. H. Goh and P. Raveendran, “Phoneme segmentation
de voz, pues esta varı́a con respecto al intérprete, lo que of speech signal,” in 2009 International Conference for
causa que el algoritmo de clasificación se deba ajustar de Technical Postgraduates (TECHPOS), Dec 2009, pp. 1–
manera distinta, dependiendo la respectiva señal de voz que 3.
se desea clasificar, tal y como se muestra en las figuras 2 y 5.
[2] M. Kishi, Y. Kozaki, and M. Koizumi, “A proposal of
short time dft syllabic compander and its configura-
Por lo tanto, se recomienda realizar este tipo de gra- tions,” in [1991 Proceedings] 41st IEEE Vehicular Tech-
baciones en lugares especiales, que permitan aislar el ruido nology Conference, May 1991, pp. 263–268.
y que permitan grabar la voz de una mejor manera, tam-
bién en lo posible, con dispositivos especializados en estas
acciones.

5. Conclusiones
Como se observa en los algoritmos de clasificación mos-
trados en las figuras 2 y 5, no hay manera de generar un
clasificador general para cualquier tipo de voz, debido a que
cada tipo de voz puede generar una señal completamente
distinta, debido al tono de voz, el volumen, el entorno, la
duración, entre otras. Por lo que se hace necesario la crea-
ción de un nuevo algoritmo, para cada señal de audio, com-
parando y evaluando los niveles de energı́a y de cruces por
cero para distintos valores en cada caso, según se observe en
las gráficas.

Dependiendo del entorno donde se haga la grabazón de la


señal de voz, influye con bastante consideración en el análi-
sis de las gráficas, debido a que una señal que fue hecha en
un entorno y con dispositivos apropiados presenta una señal
de audio más suave, es decir, sin cambios muy bruscos en
amplitud, no solo para la señal de voz, sino también para
sus respectivas señales de energı́a y de tasa de cruces por ce-
ro, tal y como se muestra en la figura 1; por otra parte, una
señal de voz, grabada en un entorno inapropiado, de por si
ruidoso, genera que la señal tenga unos cambios bruscos en
las muestras, generando también bastantes cambios en las
señales derivadas de estas muestras, como lo son la energı́a
y los cruces por cero, ası́ como se observa en la figura 4, por
ende no solo se recomienda realizar este tipo de grabaciones
sonoras que dependen del ambiente en espacios apropiados,
junto con los dispositivos más adecuados, sino que también,
en caso de que se presenten estos ruidos sobre dicha señal,

También podría gustarte