Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
El análisis de las señales permite extraer información importante de estas mismas y manipularlas
mejor hasta cierto punto. Este trabajo presenta un método aceptable de cómo se pueden extraer ciertas
cualidades de una señal de voz mediante el análisis de la energı́a que contiene dicha señal y sus cruces por
cero al analizarla en el software Matlab. Se ha tomado una grabación de una voz femenina, y mediante el
análisis antes mencionado, se ha estimado que tipo de fonema pronuncia, ya sean fonemas vocalizados, no
vocalizados o incluso silencios en dicha grabación. Se consultó con algunos documentos sobre este mismo
trabajo en internet para aprender sobre otros métodos similares. Es importante mencionar que este trabajo
se basa en un código trabajado en la clase de procesamiento de señales digitales de la Universidad Distrital
por lo que los conceptos, son principalmente los trabajados en clase. El proceso para identificar los rangos
en los cuales se presentan silencios, fonemas no vocalizados y fonemas vocalizados fue bastante tedioso, pero
se logró un resultado aceptable. Luego de hacer este análisis, se procedió a hacer una grabación de uno de
los integrantes del grupo, y se le aplicó el mismo procedimiento para comprobar que el trabajo se podı́a
aplicar a cualquier tipo de grabación de voz humana, también se muestran las dificultades que se tuvieron,
algunas recomendaciones y los resultados que se obtuvieron.
Palabras clave: Fonema vocalizado, fonema no vocalizado, energı́a, cruce por cero.
* Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: nafresne-
dab@correo.udistrital.edu.co.
** Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: miapin-
zonr@correo.udistrital.edu.co.
1
1. Introducción de cruces por cero es alta y la energı́a baja, se trata de un
segmento no vocalizado. Si la tasa de cruces por cero es
Se puede decir que la voz es una onda mecánica longitudinal, baja y la energı́a alta, se trata de un segmento vocalizado.
es decir, una onda que viaja en el medio en el mismo senti- Los silencios tienen una energı́a mucho más baja que los
do de su propagación. Esta onda mecánica se puede tratar segmento no vocalizados pero su tasa de cruces por cero
como una señal y dependiendo de cada persona, o aparato suele ser mayor que la de estos últimos.
fonador, esta señal tendrá diferentes caracterı́sticas que se En el apartado: Resultados, se muestran las gráficas co-
pueden percibir1 . Normalmente se perciben algunas carac- rrespondientes a este comportamiento aquı́ descrito.
terı́sticas de estas señales de voz mediante nuestro oı́do, pero
para detectar otras caracterı́sticas de dichas señales, gene-
ralmente se debe recurrir a dispositivos como por ejemplo 3. Resultados
un software, a menos que se cuente con un oı́do extremada-
mente prodigioso como para detectar frecuencias y rangos Para una señal de voz grabada previamente, el análisis
de nivel para la voz de cualquier persona.[1] que se debe realizar para identificar y clasificar los fonemas,
Por eso, en este trabajo se presenta una forma de identi- se lleva a cabo en un determinado rango de muestras que
ficar algunas caracterı́sticas que componen la voz humana, componen una ventana y que recorren paulatinamente toda
mediante el análisis visual de una señal de voz previamente la señal. Para poder realizar el análisis por energı́a, se debe
grabada, con base en el software Matlab. aplicar el teorema de Parseval, el cual nos indica la manera
Las caracterı́sticas de la voz humana que se analizaron para calcular la energı́a total, sumando las magnitudes al
fueron los fonemas vocalizados, los no vocalizados y los si- cuadrado de la señal, de igual forma, la tasa de cruces por
lencios, en una frase pronunciada en el idioma francés, jun- cero es un factor que nos indica la cantidad promedio, de
to con una frase en idioma italiano, grabado en un celular cambios de signo en amplitud o cruces por cero de la señal.
común. Debido a que este cálculo se debe realizar en el rango de
En algunos trabajos similares consultados en internet2 , muestras de la ventana, estas acciones se deben realizar un
se encontró que se empleaban filtros para descomponer las ciclo, de modo que haga el barrido para toda la señal.
señales de voz en sus diferentes frecuencias y se realizaba
un análisis con un recurso que no se emplea en este informe, En la figura 1 se evidencia las gráficas de la señal de
que es la envolvente del espectro en tiempo corto.[2] audio de la voz femenina, con sus correspondientes gráficas
En este documento, como se menciona en el tı́tulo, se hace el de energı́a y tasa de cruces por cero, como se puede observar,
análisis de una señal de voz, empleando la energı́a de dicha estas gráficas se encuentran normalizadas, de manera que
señal y la detección de cruces por cero. solo pueden tomar valores entre 0 y 1, a excepción de la señal
La perspectiva general de este trabajo, es mostrar un original de audio, la cual si tiene componentes de amplitud
método para identificar las caracterı́sticas de la voz huma- negativas.
na antes mencionadas, mediante el procesamiento de una
grabación de audio, posterior espectro de frecuencias y am-
plitudes en el software Matlab, y por último, análisis de la
energı́a y cantidad de cruces por cero de dicha señal.
2
silencio, almacena un ’1’ en la respectiva posición del vector
de silencios, lo mismo para un fonema no vocalizado o uno
vocalizado. El algoritmo de clasificación es el que se muestra
en la figura 2.
Figura 4: Gráficas de audio, energı́a y tasa de cruces por cero para una
señal de voz grabada con micrófono común.
3
4. Discusión realizar un proceso de filtrado, con el fin de obtener una
señal un poco más limpia.
Como se observa en las figuras 1 y 4, hay una gran di-
ferencia en cuanto a las señales, esto se debe al proceso de Otro factor que cabe resaltar, que tiene bastante influen-
grabación de las diferentes voces, incluyendo el entorno en el cia en la detección y clasificación de los fonemas, es el ancho
que fueron realizados, y también al proceso de filtrado que se de muestras de la ventana, debido a que cada voz, y de por si
les pudo haber realizado, esto con el fin de obtener la señal los diferentes fonemas, poseen una duración distinta, por lo
de audio un poco más “completa”, y a su vez las señales de que este ancho de la ventana puede variar dependiendo del
energı́a y cruces por cero un poco más suaves, pues con el sujeto que este generando el sonido, haciendo que se genere
ruido que se le adiciona por el entorno, los cambios en las cierto error en la precisión de la clasificación de los fonemas.
muestras son más bruscos, haciendo que las señales que se
derivan de las muestras, también tengan este tipo de cam-
bios. Referencias
Otra cosa que cabe resaltar es la amplitud de la señal [1] Y. H. Goh and P. Raveendran, “Phoneme segmentation
de voz, pues esta varı́a con respecto al intérprete, lo que of speech signal,” in 2009 International Conference for
causa que el algoritmo de clasificación se deba ajustar de Technical Postgraduates (TECHPOS), Dec 2009, pp. 1–
manera distinta, dependiendo la respectiva señal de voz que 3.
se desea clasificar, tal y como se muestra en las figuras 2 y 5.
[2] M. Kishi, Y. Kozaki, and M. Koizumi, “A proposal of
short time dft syllabic compander and its configura-
Por lo tanto, se recomienda realizar este tipo de gra- tions,” in [1991 Proceedings] 41st IEEE Vehicular Tech-
baciones en lugares especiales, que permitan aislar el ruido nology Conference, May 1991, pp. 263–268.
y que permitan grabar la voz de una mejor manera, tam-
bién en lo posible, con dispositivos especializados en estas
acciones.
5. Conclusiones
Como se observa en los algoritmos de clasificación mos-
trados en las figuras 2 y 5, no hay manera de generar un
clasificador general para cualquier tipo de voz, debido a que
cada tipo de voz puede generar una señal completamente
distinta, debido al tono de voz, el volumen, el entorno, la
duración, entre otras. Por lo que se hace necesario la crea-
ción de un nuevo algoritmo, para cada señal de audio, com-
parando y evaluando los niveles de energı́a y de cruces por
cero para distintos valores en cada caso, según se observe en
las gráficas.