Está en la página 1de 4

Compresión de señales de audio a través de wavelets

Fredy Carranza Athó1


1
Escuela Académico Profesional de Informática, Universidad Nacional de Trujillo, Perú
ededc@seccperu.org

Abstract 2.1. Wavelets de Haar


Los wavelets de Haar son la familia de wavelets más básica
El presente informe trata sobre el proceso llevado para realizar
y simple que existe. Como se mencionó, para la existencia de
compresión de señales de audio, a través de compresión con
una wavelet es necesaria la existen de una wavelet madre. Esta,
pérdidad de información utilzando wavelets. Se analizan los
para el caso de Haar se define como:
wavelets de Haar, Daub4, Daub6 y Coif6, tomando en cuen-
ta un análisis multiresolución. En los experimentos se midió la 8
< 1, t ∈ [0, 1/2]
efecitividad de la técnica implementada a través de un matching
ψ(t) = −1, t ∈ [1/2, 1] (1)
basado en MFCC y DTW. Se obtiene finalmente, una compre- :
0, t ∈
/ [0, 1]
sión máxima reconocida a un nivel tres de resolución y deter-
minando a Daub4 como el mejor wavelet para la compresión en
estos experimentos. y la función de escalación se define como:
Keywords: wavelets, multiresolución 
1, t ∈ [0, 1]
φ(t) = (2)
0, t ∈
/ [0, 1]
1. Introducción
En base a estas dos expresiones, se producen una familia de
La utilización de la voz como patrón de reconocimien-
wavelets hijas que permiten descomponer a la señal a disitintas
to o simplemente como componente adicional en dispositivos
escalas y traslaciones. La wavelet madre puede ser expresada en
actuales, lleva a almacenar disitintas muestras y ocurrencias.
función de la función de escalación, y la función de escalación
Ası́ también, la reducción en volumen de los dispositivos elec-
se puede descomponer en sı́ misma:
trónicos, medio de almacenamiento de estas muestras se reduce
cada vez más contrastando con las exigencias que demanda que
ψ(t) = φ(2t) − φ(2t − 1) (3)
a la vez tengan mayor capacidad de almacenamiento. Un punto
de partida para lograr este cometido, se logra a través de la com-
presión de datos. Para los datos de audio, el proceso de compre- φ(t) = φ(2t) + φ(2t − 1) (4)
sión se aplica utilizando técnicas similares a otros datos. Sin de donde podemos escribir de modo más general lo siguiente:
embargo, siempre queda a elección de un método de compre-
sión con o sin pérdida. Existen dispositvos que no demandan X √
ψ(t) = βk 2φ(2t − k) (5)
fidelidad en cuanto a datos de sonido, prefieriendo ciertamente
k
una compresión con pérdidad dada los ratios genersos que pre-
sentan. Una de las técnicas que se utilizan para este cometido X √
son los wavelets permiten compresión a múltiples niveles. φ(t) = αk 2φ(2t − k) (6)
k

2. Wavelets y análisis multiresolución Con β0 = √12 , β1 = − √12 y βi = 0. Y para el otro caso,


α0 = √12 , α1 = √12 y αi = 0. En base a β y α, podemos
La definición más básica de un wavelet es simplemente una
función con un soporte temporal bien definido que contornea el definir los siguientes vectores:
eje x. es decir tiene la misma área sobre y debajo del eje.
Esta definición se puede complementar con lo siguiente. La W11 = (β0 , β1 , 0, . . . , 0)
Transformada Wavelet llegó a originarse al ver ciertas necesi-
dades no satisfechas por la Transformada de Fourier. Estas dos W21 = (0, 0, β0 , β1 , 0, . . . , 0)
transformadas comparten aspectos similares, sin embargo sus .. . (7)
.
diferencias son las que hacen que los wavelets sean mejores 1
WN/2 = (0, 0, . . . , 0, β0 , β1 )
para nuestro cometido. Las señales sinusoidales, base de la
Transformada de Fourier son de duración ilimitada, dado que
se extienden desde −∞ hasta +∞. Ası́ también las señales si-
nusoidales son suaves y predecibles, por otro lado las wavelets V11 = (α0 , α1 , 0, . . . , 0)
tienden a ser irregulares. Otro punto importantes es que el análi-
sis de Fourier descompone una señal en sinusoides de distintas V21 = (0, 0, α0 , α1 , 0, . . . , 0) . (8)
frecuencias, y el análisis sobre wavelets, descompone una señal ..
en versiones trasladadas y escaladas de un función denominada .
1
Wavelet madre. VN/2 = (0, 0, . . . , 0, α0 , α1 )
2.2. Wavelets de Daubechies Los valores de β pueden quedar expresados en función de α, de
modo que:
Existen múltiples transformadas correspondientes a
Daubechies, sin embargo son similares. Para este caso uti- β0 = α5 , β1 = −α4 , β2 = α3 , β3 = −α2 , β4 = α1 , β0 = −α0
lizaremos el wavelet Daub4. La diferencia entre los wavelets (15)
de Haar y los Daub4 consiste en el modo en que se definen Estos valores determinan el siguiente conjunto de vectores:
la wavelet madre y la función de escala. Los valores de α se
definen como: W00 = (β0 , β1 , β2 , β3 , β4 , β5 , 0, . . . , 0)
√ √ √ √
1+ 3 3+ 3 3− 3 1− 3 W10 = (0, 0, β0 , β1 , β2 , β3 , β4 , β5 , 0, . . . , 0) .
α0 = √ , α1 = √ , α2 = √ , α3 = √ (16)
4 2 4 2 4 2 4 2 ..
(9) .
0
de modo que los vectores quedarı́an definidos como: WN/2−1 = (β4 , β5 , 0, . . . , 0, β0 , β1 , β2 , β3 )

V11 = (α0 , α1 , α2 , α3 , 0, . . . , 0) 2.4. Análisis de Multiresolución

V21 = (0, 0, α0 , α1 , α2 , α3 , 0, . . . , 0) Cada uno de los vectores presentados anteriormente repre-


.. sentan un conjunto de filtros aplicables a una señal(en este caso
. . (10) particular a una señal unidemensional). El resultado de aplicar
1
VN/2−1 = (0, 0, . . . , 0, α0 , α1 , α2 , α3 ) estos vectores basados en los wavelets, producen la descom-
posición de una señal en dos partes principales, la primera de-
1
VN/2 = (α2 , α3 , . . . , 0, . . . , 0, α0 , α1 ) nominada average y la segunda detail. Estos qudan definidos
como:
0
Del mismo modo los valores de β: am = f · Vm (17)
0
√ √ √ √ dm = f · Wm (18)
1− 3 3− 3 3+ 3 −1 − 3
β0 = √ , β1 = √ , β2 = √ , β3 = √ De modo que para obtener el primer valor a0 , se tendrı́a a0 =
4 2 4 2 4 2 4 2 f0√
+f1
. Para el valor de d1 , se aplica el mismo procedimiento
(11) 2

ası́ los vectores son: obteniendo a0 = f0√+f 2


1
. Este primer nivel de mapeo queda
definido formalmente como:
W11 = (β0 , β1 , β2 , β3 , 0, . . . , 0) 
f → a1 |d1 (19)
W21 = (0, 0, β0 , β1 , β2 , β3 , 0, . . . , 0)
.. Esta transformación es similar para los ejemplos de wavelets
. . (12) explicados anteriormente sin excepción. Como se observa es-
1
WN/2−1 = (0, 0, . . . , 0, β0 , β1 , β2 , β3 ) ta transformación produce dos subcomponentes que pueden
recomponener la señal nuevamente. Veamos el caso de los
1 wavelets de Haar.
WN/2 = (β2 , β3 , . . . , 0, . . . , 0, α0 , α1 )
 
a0 + d0 a0 − d0 aN/2 + dN/2 aN/2 − dN/2
2.3. Wavelets de Coifman f= √ , √ ,..., √ , √
2 2 2 2
Esta familia de wavelets ha sido diseñada con el propósito  
de mantener un relación cercana entre los valores de la de- a0 a0 a1 a1 aN/2 aN/2
f= √ , √ , √ , √ ,..., √ , √ +
scomposición con la señal misma. Según esta aseveración, 2 2 2 2 2 2
Daubechie construyó esta familia de wavelets en primera in-  
d0 −d0 d1 −d1 dN/2 −dN/2
stancia y los llamó Coiflets. Para definir correctamente estas √ , √ , √ , √ ,..., √ , √
funciones se hace uso de modo similar de los valores α y β. 2 2 2 2 2 2
Los valores de α son: De modo que podemos expresar la recomposición de la función
√ √ √ original como:
1− 7 5+ 7 14 + 2 7 f = A0 + D0 (20)
α0 = √ , α1 = √ , α2 = √ ,
16 2 16 2 16 2 A partir de esta denominación es de donde podemos expresar el
análisis multiresolución. Por ejemplo, en la ecuación anterior se
√ √ √ observa ecuación de la descomposición a un primer nivel. Esta
14 − 2 7 1− 7 −3 + 7 idea puede ser extendida, a múltiples niveles dividiendo siempre
α3 = √ , α4 = √ , α5 = √ (13)
16 2 16 2 16 2 el tamaño de la señal a la mitad. El segundo nivel descomposi-
ción de una señal, puede ser expresado como:
Utilizando estos valores de α los vectores quedarı́an definidos
de la siguiente manera: f = A1 + D1 + D0 (21)

V00 = (α0 , α1 , α2 , α3 , α4 , α5 , 0, . . . , 0) De donde A1 y D1 corresponden al segundo avegare y segundo


detail. De modo general, si un número N de valores de señales
V10 = (0, 0, α0 , α1 , α2 , α3 , α4 , α5 , 0, . . . , 0) . es divisible k veces por 2, entonces la descomposición a un nivel
(14) k, está dado por:
..
.
0
VN/2−1 = (α4 , α5 , 0, . . . , 0, α0 , α1 , α2 , α3 ) f = Ak−1 + Dk−1 + . . . + D1 + D0 (22)
3. Aplicación a la compresión de señales de 4. Experimentos
audio Se realizón un prototipo que implementa la compresión a
Las señales de audio, son dependientes del tiempo y mani- través de los métodos mencionados en el segundo apartado. A
fiestan un comportamiento adecuado para su descomposición a esta implementación se le realizó pruebas con distintas voces y
través de wavelets. A un señal de audio discretizada se la puede con distintos niveles de resolución, considerando andemás cada
representar correctamente a través de un vector. Dado ello las uno de los tipos de wavelets.
expresiones anteriores pueden ser aplicadas directamente a el Las pruebas se basan en en dos puntos esenciales. El primero es
vector representante de dicha señal descomponiéndola en dos. medir el nivel de compresión que sufran los archivos de manera
Lo interesante de descomponer la señal es dos, es analizar el fı́sica frente a los originales, cuestión que puede ser previsible
significado de cada una de las partes resultantes de la descom- y pre calculada por la información antes mencionada. El otro
posición, para ello es necesario realizar un análisis de la energı́a punto clave, es poder medir el constrastar las señales restau-
presente en cada una de las partes. radas frente a las originales, para poder identificar si existe a
Una propiedad importante de las transformadas presentadas es cierto nivel de resolución la cantidad de similitud entre estas
que conservan la energı́a de las señales. Se define como en- dos señales. Para poder confrontar estas dos señales, utilizare-
ergı́a de la señal f a la suma de los cuadrados de cada uno de mos un reconocedor de palabras aisladas que se basa en loc coe-
sus valores. La energı́a total de la señal f está dada por: ficientes de Mel (MFCC) y que determina la distancia entre dos
patrones en base a Dynamic Time Warping (DTW).
La base de datos de pruebas utilizadas consta de una muestra
f = f02 + f12 + . . . + fN
2
(23) de sietes hablantes cada una con diez palabras aisladas disintas.
El primer paso es extraer el patrón caracterı́stico de cada una de
A través de la expresión anterior se define que la conservación las voces originales de modo que puedan ser utilizadas luego en
de la energı́a se una señal es igual a la energı́a que mantiene en la constrastación. A continuación a cada ocurrencia se le com-
conjunto su average y detail. Lo que serı́a que (a0 |d0 ) = f prime utilizando cada una de las técnicas mencionadas. Se uti-
Esta energı́a es distribuida de cierto modo en a0 y d0 . La mayor lizaron seis niveles de resolución de modo arbitrario, debido a
parte de la energı́a es concentrada en la parte del average, y una que a este nivel la percepción y entendimiento de la palabra se
pequeña porción es mantenida dentro de detail. A este principio perdı́a por completo.
se le conoce como la compactación de la energı́a. Es a partir de El resultado con respecto al almacenamiento demuestra una es-
este principio que es aplicable la compresión de señales a través cala del 50 % para cada nivel de resolución. Esto se deduce de
de los wavelets. modo intuitivo, dado que a cada nivel de resolución el tamaño
Dentro de los procesos de compresión existen técnicas que del arreglo que se obtiene por el proceso de considerar solo el
involucran ciertos limitaciones. Un tipo de compresión es la average en el proceso de descomposición es la mitad de la señal
compresión sin pérdida, este tipo de compresión indica que al original.
restaurar la señal en base a un patrón comprimido no se pierde El resultado principal, es el que se relaciona con la capacidad
información y la energı́a es restaurada totalmente. El otro tipo del la señal restaurada en determinadas resoluciones, de poder
de compresión, es una la del tipo con pérdida. Esta compresión restablecer la mayor cantidad de energı́a posible, por tanto un
cuenta con la desventaja que restaura el patrón comprimido con emparejamiento entre la señal restaurada y un banco de datos
cierta diferencias al original. Aparentemente, el elegir una com- basta como test para medir los niveles de conservación. El sigu-
presión con pérdida no tiene conveniencia alguna, sin emabargo iente cuadro expone los resultados obtenidos.
los procedimientos para comprimir datos sin pérdida no logran
una efectividad considerable en muchos casos, ellos tienen un Tipo de wavelet Correcta Incorrecta
ratio que raramente alcanza 2:1. Por otro lado la compresión Haar 273 147
con pérdida, presenta ratio mucho mejores, como 10:1, 50:1 y Daub4 288 132
hasta 100:1. Daub6 282 138
La aplicación de los wavelets a la compresión se realizará te- Coif6 279 141
niendo en cuenta la de tipo pérdidad. El proceso para comprimir
una señal de audio se puede definir en los siguientes pasos. Cuadro 1: Resultados del reconocimiento por cada uno de los
tipos de wavelets
1. Representar la señal de audio como un vector f .
2. Obtener la descomposición de f , a través de wavelets re- Ası́ mismo, es posible poder expresar resultados de modo
sultando a y d. desagregado por cada nivel de resolución. En el siguiente gráfi-
co podemos observar curvas para cada uno de las técnica em-
3. Considerar solamente a y continuar, o regresar al item 2 pleadas para un posterior análisis.
tomando como nuevo f al average.
4. Almacenar a como la nueva señal comprimida 5. Discusión
5. Restaurar la señal a partir de a, aplicando el proceso in- El Cuadro 1 aparentemente relata un resultado no muy alen-
verso. tador para el método empleado. Sin embargo, se debe consid-
erar que para llevar a cabo los expermientos se han tenido en
El procedimiento anterior, indica todo lo necesario a consider- cuenta una multiresolución de seis niveles. Experimentalmente,
ar en la compresión de una señal. El paso 3, considera analizar la audibilidad de los resultados a partir de un tercer nivel de
el nivel de resolución que se desee al comprimir la señal. Al compresión es deteriorada notablemente, perdiendo totalmente
aumentar el nivel de resolución obviamente, la pérdida de in- la posibilidad de que el oyente pueda identificar la muestra.
formación al obtener la señal restaurada será mayor. El Gráfico 1 y Gráfico 2 complementan lo mencionado ante-
momento determinar un umbral a partir del cual es inentendible
la señal de audio. Es decir, el tercer nivel de resolución resulta
ser, para estos métodos, el punto máximo de reducción.

7. Referencias
[1] S. Walker, A primer on Wavelets and their Scientific Ap-
plications. Chapman & Hall/CRC, 1999.
[2] S. Kouro, R. Musalem. Tutorial introductorio a la teorı́a
de wavelets. Técnicas Modernas en Automática. 2002.
[3] J. Walker. Fourier Analysis and Wavelet Analysis. Notices
of the AMS. 44,6.
[4] A. Bultheel. Wavelets with applications in signal and im-
age processing. 2003.
Figura 1: Gráfico de la evolución del reconocimiento a distintas
resoluciones con respuestas correctas

Figura 2: Gráfico de la evolución del reconocimiento a distintas


resoluciones con respuestas incorrectas

riormente. La primera curva muestra que los tres niveles de res-


olución considerado responden de manera casi perfecta a un
recnocimiento con la señal original. Los dos primero niveles
manejan una exactitud del 100 %. De esta curva se puede tam-
bién observar que el mejor desempeño para la conservación de
la energı́a es el wavelet Daub4, y en segundo lugar el Daub6.
Por lo que las señales tratadas con estos tipos de wavelets ob-
tendrán una conservación muy considerable y un ratio de com-
presión de hasta 3:1. Para la segunda curva podemos apreciar
que el error en el caso más óptimo, es decir un error de cero,
es representado nuevamente por el nivel de resolución 0, 1, 2.
Esto se debe también a lo mencionado anteriormente sobre la
audibilidad de dichas señales restauradas. Nuevamente la com-
presión manifiesta mejor manejo de la energı́a a través de la
utilización de Daub4 y Daub6.

6. Conclusiones
La compresión ha tenido un resultado notable permitiendo
la reducción máxima en un ratio 3:1. Esta es totalmente efectiva
permitiendo el reconocimiento del mismo patrón comprimido a
través de MFCC y DTW.
El mejor de los wavelets estudiados orientado a la compresión
de señales estudiadas es el wavelet Daub4, presentando la may-
or tasa de reconocimiento.
Los wavelets estudiados muestran un comportamiento similar al

También podría gustarte