Com Pres Ion Wavelets Report

Compresión de señales de audio a través de wavelets
Fredy Carranza Athó1

1
Escuela Académico Profesional de Informática, Universidad Nacional de Trujillo, Perú
ededc@seccperu.org
Abstract 2.1. Wavelets de Haar

Los wavelets de Haar son la familia de wavelets más básica
El presente informe trata sobre el proceso llevado para realizar
y simple que existe. Como se mencionó, para la existencia de
compresión de señales de audio, a través de compresión con
una wavelet es necesaria la existen de una wavelet madre. Esta,
pérdidad de información utilzando wavelets. Se analizan los
para el caso de Haar se define como:
wavelets de Haar, Daub4, Daub6 y Coif6, tomando en cuen-
ta un análisis multiresolución. En los experimentos se midió la 8
< 1, t ∈ [0, 1/2]
efecitividad de la técnica implementada a través de un matching
ψ(t) = −1, t ∈ [1/2, 1] (1)
basado en MFCC y DTW. Se obtiene finalmente, una compre- :
0, t ∈
/ [0, 1]
sión máxima reconocida a un nivel tres de resolución y deter-
minando a Daub4 como el mejor wavelet para la compresión en
estos experimentos. y la función de escalación se define como:
Keywords: wavelets, multiresolución
1, t ∈ [0, 1]
φ(t) = (2)
0, t ∈
/ [0, 1]
1. Introducción
En base a estas dos expresiones, se producen una familia de
La utilización de la voz como patrón de reconocimien-
wavelets hijas que permiten descomponer a la señal a disitintas
to o simplemente como componente adicional en dispositivos
escalas y traslaciones. La wavelet madre puede ser expresada en
actuales, lleva a almacenar disitintas muestras y ocurrencias.
función de la función de escalación, y la función de escalación
Ası́ también, la reducción en volumen de los dispositivos elec-
se puede descomponer en sı́ misma:
trónicos, medio de almacenamiento de estas muestras se reduce
cada vez más contrastando con las exigencias que demanda que
ψ(t) = φ(2t) − φ(2t − 1) (3)
a la vez tengan mayor capacidad de almacenamiento. Un punto
de partida para lograr este cometido, se logra a través de la com-
presión de datos. Para los datos de audio, el proceso de compre- φ(t) = φ(2t) + φ(2t − 1) (4)
sión se aplica utilizando técnicas similares a otros datos. Sin de donde podemos escribir de modo más general lo siguiente:
embargo, siempre queda a elección de un método de compre-
sión con o sin pérdida. Existen dispositvos que no demandan X √
ψ(t) = βk 2φ(2t − k) (5)
fidelidad en cuanto a datos de sonido, prefieriendo ciertamente
k
una compresión con pérdidad dada los ratios genersos que pre-
sentan. Una de las técnicas que se utilizan para este cometido X √
son los wavelets permiten compresión a múltiples niveles. φ(t) = αk 2φ(2t − k) (6)
k
2. Wavelets y análisis multiresolución Con β0 = √12 , β1 = − √12 y βi = 0. Y para el otro caso,

α0 = √12 , α1 = √12 y αi = 0. En base a β y α, podemos
La definición más básica de un wavelet es simplemente una
función con un soporte temporal bien definido que contornea el definir los siguientes vectores:
eje x. es decir tiene la misma área sobre y debajo del eje.
Esta definición se puede complementar con lo siguiente. La W11 = (β0 , β1 , 0, . . . , 0)
Transformada Wavelet llegó a originarse al ver ciertas necesi-
dades no satisfechas por la Transformada de Fourier. Estas dos W21 = (0, 0, β0 , β1 , 0, . . . , 0)
transformadas comparten aspectos similares, sin embargo sus .. . (7)
.
diferencias son las que hacen que los wavelets sean mejores 1
WN/2 = (0, 0, . . . , 0, β0 , β1 )
para nuestro cometido. Las señales sinusoidales, base de la
Transformada de Fourier son de duración ilimitada, dado que
se extienden desde −∞ hasta +∞. Ası́ también las señales si-
nusoidales son suaves y predecibles, por otro lado las wavelets V11 = (α0 , α1 , 0, . . . , 0)
tienden a ser irregulares. Otro punto importantes es que el análi-
sis de Fourier descompone una señal en sinusoides de distintas V21 = (0, 0, α0 , α1 , 0, . . . , 0) . (8)
frecuencias, y el análisis sobre wavelets, descompone una señal ..
en versiones trasladadas y escaladas de un función denominada .
1
Wavelet madre. VN/2 = (0, 0, . . . , 0, α0 , α1 )
2.2. Wavelets de Daubechies Los valores de β pueden quedar expresados en función de α, de
modo que:
Existen múltiples transformadas correspondientes a
Daubechies, sin embargo son similares. Para este caso uti- β0 = α5 , β1 = −α4 , β2 = α3 , β3 = −α2 , β4 = α1 , β0 = −α0
lizaremos el wavelet Daub4. La diferencia entre los wavelets (15)
de Haar y los Daub4 consiste en el modo en que se definen Estos valores determinan el siguiente conjunto de vectores:
la wavelet madre y la función de escala. Los valores de α se
definen como: W00 = (β0 , β1 , β2 , β3 , β4 , β5 , 0, . . . , 0)
√ √ √ √
1+ 3 3+ 3 3− 3 1− 3 W10 = (0, 0, β0 , β1 , β2 , β3 , β4 , β5 , 0, . . . , 0) .
α0 = √ , α1 = √ , α2 = √ , α3 = √ (16)
4 2 4 2 4 2 4 2 ..
(9) .
0
de modo que los vectores quedarı́an definidos como: WN/2−1 = (β4 , β5 , 0, . . . , 0, β0 , β1 , β2 , β3 )
V11 = (α0 , α1 , α2 , α3 , 0, . . . , 0) 2.4. Análisis de Multiresolución
V21 = (0, 0, α0 , α1 , α2 , α3 , 0, . . . , 0) Cada uno de los vectores presentados anteriormente repre-

.. sentan un conjunto de filtros aplicables a una señal(en este caso
. . (10) particular a una señal unidemensional). El resultado de aplicar
1
VN/2−1 = (0, 0, . . . , 0, α0 , α1 , α2 , α3 ) estos vectores basados en los wavelets, producen la descom-
posición de una señal en dos partes principales, la primera de-
1
VN/2 = (α2 , α3 , . . . , 0, . . . , 0, α0 , α1 ) nominada average y la segunda detail. Estos qudan definidos
como:
0
Del mismo modo los valores de β: am = f · Vm (17)
0
√ √ √ √ dm = f · Wm (18)
1− 3 3− 3 3+ 3 −1 − 3
β0 = √ , β1 = √ , β2 = √ , β3 = √ De modo que para obtener el primer valor a0 , se tendrı́a a0 =
4 2 4 2 4 2 4 2 f0√
+f1
. Para el valor de d1 , se aplica el mismo procedimiento
(11) 2
ası́ los vectores son: obteniendo a0 = f0√+f 2

1
. Este primer nivel de mapeo queda
definido formalmente como:
W11 = (β0 , β1 , β2 , β3 , 0, . . . , 0)
f → a1 |d1 (19)
W21 = (0, 0, β0 , β1 , β2 , β3 , 0, . . . , 0)
.. Esta transformación es similar para los ejemplos de wavelets
. . (12) explicados anteriormente sin excepción. Como se observa es-
1
WN/2−1 = (0, 0, . . . , 0, β0 , β1 , β2 , β3 ) ta transformación produce dos subcomponentes que pueden
recomponener la señal nuevamente. Veamos el caso de los
1 wavelets de Haar.
WN/2 = (β2 , β3 , . . . , 0, . . . , 0, α0 , α1 )

a0 + d0 a0 − d0 aN/2 + dN/2 aN/2 − dN/2
2.3. Wavelets de Coifman f= √ , √ ,..., √ , √
2 2 2 2
Esta familia de wavelets ha sido diseñada con el propósito
de mantener un relación cercana entre los valores de la de- a0 a0 a1 a1 aN/2 aN/2
f= √ , √ , √ , √ ,..., √ , √ +
scomposición con la señal misma. Según esta aseveración, 2 2 2 2 2 2
Daubechie construyó esta familia de wavelets en primera in-
d0 −d0 d1 −d1 dN/2 −dN/2
stancia y los llamó Coiflets. Para definir correctamente estas √ , √ , √ , √ ,..., √ , √
funciones se hace uso de modo similar de los valores α y β. 2 2 2 2 2 2
Los valores de α son: De modo que podemos expresar la recomposición de la función
√ √ √ original como:
1− 7 5+ 7 14 + 2 7 f = A0 + D0 (20)
α0 = √ , α1 = √ , α2 = √ ,
16 2 16 2 16 2 A partir de esta denominación es de donde podemos expresar el
análisis multiresolución. Por ejemplo, en la ecuación anterior se
√ √ √ observa ecuación de la descomposición a un primer nivel. Esta
14 − 2 7 1− 7 −3 + 7 idea puede ser extendida, a múltiples niveles dividiendo siempre
α3 = √ , α4 = √ , α5 = √ (13)
16 2 16 2 16 2 el tamaño de la señal a la mitad. El segundo nivel descomposi-
ción de una señal, puede ser expresado como:
Utilizando estos valores de α los vectores quedarı́an definidos
de la siguiente manera: f = A1 + D1 + D0 (21)
V00 = (α0 , α1 , α2 , α3 , α4 , α5 , 0, . . . , 0) De donde A1 y D1 corresponden al segundo avegare y segundo

detail. De modo general, si un número N de valores de señales
V10 = (0, 0, α0 , α1 , α2 , α3 , α4 , α5 , 0, . . . , 0) . es divisible k veces por 2, entonces la descomposición a un nivel
(14) k, está dado por:
..
.
0
VN/2−1 = (α4 , α5 , 0, . . . , 0, α0 , α1 , α2 , α3 ) f = Ak−1 + Dk−1 + . . . + D1 + D0 (22)
3. Aplicación a la compresión de señales de 4. Experimentos
audio Se realizón un prototipo que implementa la compresión a
Las señales de audio, son dependientes del tiempo y mani- través de los métodos mencionados en el segundo apartado. A
fiestan un comportamiento adecuado para su descomposición a esta implementación se le realizó pruebas con distintas voces y
través de wavelets. A un señal de audio discretizada se la puede con distintos niveles de resolución, considerando andemás cada
representar correctamente a través de un vector. Dado ello las uno de los tipos de wavelets.
expresiones anteriores pueden ser aplicadas directamente a el Las pruebas se basan en en dos puntos esenciales. El primero es
vector representante de dicha señal descomponiéndola en dos. medir el nivel de compresión que sufran los archivos de manera
Lo interesante de descomponer la señal es dos, es analizar el fı́sica frente a los originales, cuestión que puede ser previsible
significado de cada una de las partes resultantes de la descom- y pre calculada por la información antes mencionada. El otro
posición, para ello es necesario realizar un análisis de la energı́a punto clave, es poder medir el constrastar las señales restau-
presente en cada una de las partes. radas frente a las originales, para poder identificar si existe a
Una propiedad importante de las transformadas presentadas es cierto nivel de resolución la cantidad de similitud entre estas
que conservan la energı́a de las señales. Se define como en- dos señales. Para poder confrontar estas dos señales, utilizare-
ergı́a de la señal f a la suma de los cuadrados de cada uno de mos un reconocedor de palabras aisladas que se basa en loc coe-
sus valores. La energı́a total de la señal f está dada por: ficientes de Mel (MFCC) y que determina la distancia entre dos
patrones en base a Dynamic Time Warping (DTW).
La base de datos de pruebas utilizadas consta de una muestra
f = f02 + f12 + . . . + fN
2
(23) de sietes hablantes cada una con diez palabras aisladas disintas.
El primer paso es extraer el patrón caracterı́stico de cada una de
A través de la expresión anterior se define que la conservación las voces originales de modo que puedan ser utilizadas luego en
de la energı́a se una señal es igual a la energı́a que mantiene en la constrastación. A continuación a cada ocurrencia se le com-
conjunto su average y detail. Lo que serı́a que (a0 |d0 ) = f prime utilizando cada una de las técnicas mencionadas. Se uti-
Esta energı́a es distribuida de cierto modo en a0 y d0 . La mayor lizaron seis niveles de resolución de modo arbitrario, debido a
parte de la energı́a es concentrada en la parte del average, y una que a este nivel la percepción y entendimiento de la palabra se
pequeña porción es mantenida dentro de detail. A este principio perdı́a por completo.
se le conoce como la compactación de la energı́a. Es a partir de El resultado con respecto al almacenamiento demuestra una es-
este principio que es aplicable la compresión de señales a través cala del 50 % para cada nivel de resolución. Esto se deduce de
de los wavelets. modo intuitivo, dado que a cada nivel de resolución el tamaño
Dentro de los procesos de compresión existen técnicas que del arreglo que se obtiene por el proceso de considerar solo el
involucran ciertos limitaciones. Un tipo de compresión es la average en el proceso de descomposición es la mitad de la señal
compresión sin pérdida, este tipo de compresión indica que al original.
restaurar la señal en base a un patrón comprimido no se pierde El resultado principal, es el que se relaciona con la capacidad
información y la energı́a es restaurada totalmente. El otro tipo del la señal restaurada en determinadas resoluciones, de poder
de compresión, es una la del tipo con pérdida. Esta compresión restablecer la mayor cantidad de energı́a posible, por tanto un
cuenta con la desventaja que restaura el patrón comprimido con emparejamiento entre la señal restaurada y un banco de datos
cierta diferencias al original. Aparentemente, el elegir una com- basta como test para medir los niveles de conservación. El sigu-
presión con pérdida no tiene conveniencia alguna, sin emabargo iente cuadro expone los resultados obtenidos.
los procedimientos para comprimir datos sin pérdida no logran
una efectividad considerable en muchos casos, ellos tienen un Tipo de wavelet Correcta Incorrecta
ratio que raramente alcanza 2:1. Por otro lado la compresión Haar 273 147
con pérdida, presenta ratio mucho mejores, como 10:1, 50:1 y Daub4 288 132
hasta 100:1. Daub6 282 138
La aplicación de los wavelets a la compresión se realizará te- Coif6 279 141
niendo en cuenta la de tipo pérdidad. El proceso para comprimir
una señal de audio se puede definir en los siguientes pasos. Cuadro 1: Resultados del reconocimiento por cada uno de los
tipos de wavelets
1. Representar la señal de audio como un vector f .
2. Obtener la descomposición de f , a través de wavelets re- Ası́ mismo, es posible poder expresar resultados de modo
sultando a y d. desagregado por cada nivel de resolución. En el siguiente gráfi-
co podemos observar curvas para cada uno de las técnica em-
3. Considerar solamente a y continuar, o regresar al item 2 pleadas para un posterior análisis.
tomando como nuevo f al average.
4. Almacenar a como la nueva señal comprimida 5. Discusión
5. Restaurar la señal a partir de a, aplicando el proceso in- El Cuadro 1 aparentemente relata un resultado no muy alen-
verso. tador para el método empleado. Sin embargo, se debe consid-
erar que para llevar a cabo los expermientos se han tenido en
El procedimiento anterior, indica todo lo necesario a consider- cuenta una multiresolución de seis niveles. Experimentalmente,
ar en la compresión de una señal. El paso 3, considera analizar la audibilidad de los resultados a partir de un tercer nivel de
el nivel de resolución que se desee al comprimir la señal. Al compresión es deteriorada notablemente, perdiendo totalmente
aumentar el nivel de resolución obviamente, la pérdida de in- la posibilidad de que el oyente pueda identificar la muestra.
formación al obtener la señal restaurada será mayor. El Gráfico 1 y Gráfico 2 complementan lo mencionado ante-
momento determinar un umbral a partir del cual es inentendible
la señal de audio. Es decir, el tercer nivel de resolución resulta
ser, para estos métodos, el punto máximo de reducción.
7. Referencias
[1] S. Walker, A primer on Wavelets and their Scientific Ap-
plications. Chapman & Hall/CRC, 1999.
[2] S. Kouro, R. Musalem. Tutorial introductorio a la teorı́a
de wavelets. Técnicas Modernas en Automática. 2002.
[3] J. Walker. Fourier Analysis and Wavelet Analysis. Notices
of the AMS. 44,6.
[4] A. Bultheel. Wavelets with applications in signal and im-
age processing. 2003.
Figura 1: Gráfico de la evolución del reconocimiento a distintas
resoluciones con respuestas correctas
Figura 2: Gráfico de la evolución del reconocimiento a distintas

resoluciones con respuestas incorrectas
riormente. La primera curva muestra que los tres niveles de res-

olución considerado responden de manera casi perfecta a un
recnocimiento con la señal original. Los dos primero niveles
manejan una exactitud del 100 %. De esta curva se puede tam-
bién observar que el mejor desempeño para la conservación de
la energı́a es el wavelet Daub4, y en segundo lugar el Daub6.
Por lo que las señales tratadas con estos tipos de wavelets ob-
tendrán una conservación muy considerable y un ratio de com-
presión de hasta 3:1. Para la segunda curva podemos apreciar
que el error en el caso más óptimo, es decir un error de cero,
es representado nuevamente por el nivel de resolución 0, 1, 2.
Esto se debe también a lo mencionado anteriormente sobre la
audibilidad de dichas señales restauradas. Nuevamente la com-
presión manifiesta mejor manejo de la energı́a a través de la
utilización de Daub4 y Daub6.
6. Conclusiones
La compresión ha tenido un resultado notable permitiendo
la reducción máxima en un ratio 3:1. Esta es totalmente efectiva
permitiendo el reconocimiento del mismo patrón comprimido a
través de MFCC y DTW.
El mejor de los wavelets estudiados orientado a la compresión
de señales estudiadas es el wavelet Daub4, presentando la may-
or tasa de reconocimiento.
Los wavelets estudiados muestran un comportamiento similar al

Com Pres Ion Wavelets Report

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Com Pres Ion Wavelets Report

Cargado por

Copyright:

Formatos disponibles

Compresión de señales de audio a través de wavelets

Fredy Carranza Athó1

Abstract 2.1. Wavelets de Haar

2. Wavelets y análisis multiresolución Con β0 = √12 , β1 = − √12 y βi = 0. Y para el otro caso,

V11 = (α0 , α1 , α2 , α3 , 0, . . . , 0) 2.4. Análisis de Multiresolución

V21 = (0, 0, α0 , α1 , α2 , α3 , 0, . . . , 0) Cada uno de los vectores presentados anteriormente repre-

ası́ los vectores son: obteniendo a0 = f0√+f 2

V00 = (α0 , α1 , α2 , α3 , α4 , α5 , 0, . . . , 0) De donde A1 y D1 corresponden al segundo avegare y segundo

Figura 2: Gráfico de la evolución del reconocimiento a distintas

riormente. La primera curva muestra que los tres niveles de res-

También podría gustarte