Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tesis Doctoral 2006
Tesis Doctoral 2006
ii
Prlogo
Esta tesis doctoral supone la continuacin de una lnea de investigacin iniciada a principios
de los 90 por el co-Director de esta tesis doctoral, el Dr. D. Manuel Rosa Zurera, dentro del
mbito de la compresin de la seal de audio utilizando, en su caso, descomposiciones basadas
en la transformada wavelet. Posteriormente, esta lnea de investigacin fue continuada por el
otro co-Director de esta tesis, el Dr. D. Nicols Ruiz Reyes, ampliando la descomposicin al uso
de transformada wavelet packets adaptada a la seal. Adicionalmente, en el mismo grupo, se ha
desarrollado tambin una tesis en compresin de audio, aunque esta vez minimizando el retardo
del sistema, por el Dr. D. Damin Martnez Muoz, tambin co-dirigida por el Dr. D. Manuel
Rosa Zurera.
Como resultado de esta labor investigadora se ha adquirido por este grupo un profundo
conocimiento de la seal de audio y de las posibilidades tecnolgicas en el campo de su compresin. Fruto de este conocimiento surgieron nuevas lneas investigacin, destacando la investigacin
en el campo de los modelos de seal adaptativos y su aplicacin a la compresin, modificacin y
sntesis de seales de audio, que han permitido el desarrollo de esta tesis.
Esta lnea de trabajo, en el mbito de la codificacin de seal, no est an agotada. As,
si bien con las herramientas propuestas no parece posible nuevas contribuciones importantes en
compresin de audio, si es posible el empleo de estas tcnicas en otros problemas. En el campo
del audio, un problema a resolver es la transmisin de audio a travs de Internet (Internet audio
streaming) a rgimen binario bajo y adaptativo a las condiciones cambiantes de la red. Otro
tema de inters es el empleo de las herramientas de seal desarrolladas para analizar otro tipo
de seales, como la seal de electrocardiograma o la seal ultrasnica, donde ya se han realizado
algunos avances.
La realizacin de esta tesis doctoral me ha permitido iniciarme en el mundo de la investigacin, pudiendo as realizar de forma completa las funciones de un Profesor de Universidad.
Adems, me satisface personalmente participar como investigador en los inicios del grupo de
investigacin Tratamiento de Seales en Sistemas de Telecomunicacin, formado por personas
que han realizado el doctorado en los ltimos aos o estn en proceso de realizacin, todas ellas
pertenecientes al Departamento de Ingeniera Electrnica, de Telecomunicacin y Automtica de
la Universidad de Jan. En este grupo tenemos puestas muchas esperanzas en el desarrollo de
una investigacin de calidad dentro de la Universidad de Jan y en el mbito de las tecnologas
de la informacin y las comunicaciones.
Quiero hacer constar mi agradecimiento al Dr. D. Francisco Lpez Ferreras, Director del
Grupo de Seales y Circuitos del Departamento de Teora de la Seal y Comunicaciones de
la Universidad de Alcal, por haber hecho posible la realizacin de esta tesis cuando en la
iii
iv
Universidad de Jan no existan las condiciones necesarias. Adems, este agradecimiento se hace
extensivo al resto de componentes de dicho grupo por la ayuda prestada y las facilidades obtenidas
siempre que se les ha requerido.
Merece una mencin especial el co-Director de esta tesis doctoral, Dr. D. Nicols Ruiz Reyes,
por su entusiasmo y dedicacin. El contraste con sus ideas ha sido fundamental para la culminacin del trabajo de investigacin reflejado en esta tesis doctoral. Han sido muchas las horas de
trabajo que han sido necesarias para que los frutos de esta tesis salgan a la luz.
Finalmente, el agradecimiento al Departamento de Ingeniera Electrnica, de Telecomunicacin y Automtica de la Universidad de Jan, al que pertenezco, por la facilidades prestadas
para la realizacin de esta labor, y especialmente, a mis compaeros de departamento en la Escuela Politcnica Superior de Linares, por su participacin en la ardua tarea de la realizacin
de las pruebas de audicin. No quiero olvidarme de mis compaeros de rea de conocimiento,
Pepe, Ral, Damin, Juan Pedro, Fernando, Pedro y Jos Miguel, por la ayuda y confianza que
siempre me han ofrecido.
Resumen
Conforme los sucesivos estndares de codificacin de audio ISO/MPEG, basados en codificacin de forma de onda y por transformada, han ido avanzando, se ha llegado al lmite de
esta tecnologa en relacin a la reduccin del rgimen binario. Por esta causa, han ido surgiendo
nuevos avances en relacin a la modelizacin de la seal que permiten, con unos pocos parmetros, codificar componentes de la seal de audio. En este sentido es de uso comn, actualmente,
utilizar MP3-pro que se basa en la replicacin de bandas espectrales de alta frecuencia en funcin
de ciertos parmetros y en la codificacin de forma de onda de las bajas frecuencias.
El uso de modelos de seal paramtricos ha sido utilizado desde los aos 90 como una herramienta de procesamiento de seales musicales. Esta tecnologa se ha ido trasladando al campo
del audio, al principio en codificadores mixtos basados en transformada que, en algunas circunstancias, se aprovechan de diferentes modelos para parametrizar las partes tonales o ruidosas de
la seal. Posteriormente, han ido surgiendo nuevas propuestas que utilizan al mximo estos modelos, dividiendo la seal de audio en tonos, transitorios y ruido, para parametrizar por completo
la seal.
Esta tesis se centra en la consecucin de un codificador completamente paramtrico de audio
que, en ningn momento, codifique la forma de onda de la seal. Para lograr este fin se han
realizado avances en el estado del arte en relacin al modelo sinusoidal, de transitorios y de
ruido.
Respecto al modelo sinusoidal se incluye en esta tesis un algoritmo iterativo basado en matching pursuits que extrae el tono perceptualmente ms importante en cada iteracin. Adems, el
proceso se detiene cuando se han extrado todos los tonos perceptualmente importantes de la
seal. Incluso se cuantifican las amplitudes de los tonos de forma transparente, con un nmero
de bits variable usando principios psicoasticos y sin enviar informacin lateral.
Para el modelo de transitorios se ha hecho un esfuerzo significativo con el fin de desarrollar
un modelo paramtrico de baja complejidad que permita una adecuada caracterizacin de esta
componente de la seal. En este sentido, se ha definido un modelo iterativo basado en matching
pursuits con un diccionario de funciones wavelet packets. Tambin se ha introducido un modelo
de mayor complejidad, y con mejores resultados, que incluye en el diccionario tanto funciones
wavelet packets como exponenciales complejas.
El residuo de los anteriores modelos se caracteriza tpicamente como ruido, parametrizando
su energa en tiempo y frecuencia. Para este modelo se ha hecho una revisin de las herramientas
disponibles, habiendo utilizado un predictor lineal en frecuencia modificada logartmicamente
(adaptndose a las caractersticas del odo humano) para expresar la energa en frecuencia.
Con todas estas herramientas se ha estructurado un codificador de audio completamente
v
vi
paramtrico. Se incluye en el funcionamiento del codificador un algoritmo de segmentacin adaptativa del eje temporal muy flexible, as como los procesos de cuantificacin de parmetros necesarios teniendo en cuenta siempre criterios perceptuales.
Los estudios tericos y los desarrollos efectuados han dado lugar a un codificador de alta
calidad de seales CD-audio que emplea una media 16 Kbits/s (0,36 bits/muestra por canal), resultando una opcin ventajosa a bajo rgimen binario con respecto al estndar AAC actualmente
establecido en el mercado.
Abstract
The bit rate reduction boundary of transform based coders, which quantize the waveform
of the signal, has been almost reached by the last ISO/MPEG standards. As a consequence,
a novel research domain has appeared in order to reduce the audio bit rate: parametric audio
modelling. For example, the MP3-pro standard extracts the high frequency bands from both the
waveform coded low frequency bands and some parameters, this process is known as spectral
band replication.
Parametric models for musical signals have been utilized since the nineties. Nowadays, these
tools are being applied to audio coding. Firstly, these models were included into mixed coders,
which were basically waveform coders, but they sometimes made use of sinusoidal or noise models
to lower the bit rate. Later, fully parametric audio coders, which decompose the audio signal
into sinusoids, transients and noise, have been proposed.
The implementation of a fully parametric audio coder is the main objective of this thesis.
Therefore, new advances, in regard to sinusoidal, transient and noise modelling, have been accomplished for achieving high quality and low bit rate audio coding.
In relation to sinusoidal modelling we propose a perceptual matching pursuits algorithm which
extracts the most perceptually meaningful tone at each iteration. Also, a perceptual stopping
criterion is presented: the algorithm is halted when all the psychoacoustic meaningful tones
are extracted. Besides, tone amplitudes are quantized in a variable number of bits achieving
transparent quantization without sending additional side information.
Transient modelling has been advanced because we have made an effort to develop a low
complexity parametric model that is adapted to different transient signals. As a result, we propose
a matching pursuits algorithm with a wavelet packets dictionary and a fast procedure to update
correlations. Also, a more complex model but with better results is treated, this model is based
on matching pursuits algorithm with mixed (wavelet packets & complex exponentials) dictionary.
The remaining of the previous models is analized as a noise signal, extracting its time and
frequency energy characteristics. We have revised the techniques used in the literature and, finally,
we have included a warped linear predictor in order to modelize the noise energy in frequency.
We define a fully parametric audio coder by using all these mentioned tools and by adding an
adaptive segmentation algorithm (which has to be very flexible) and psychoacoustical information
to quantize all the derived parameters.
These theoretical studies and accomplished developments have led to a high quality audio
coder for CD-audio signals that uses an average of 16 Kbits/s (0.36 bits/sample per channel).
This coder can be a profitable alternative to the AAC standard currently established in the
market.
vii
viii
ndice general
I
1. Introduccin
1.1. Contexto y localizacin de la investigacin .
1.2. Justificacin y objetivos de la investigacin
1.3. Estructura de la tesis . . . . . . . . . . . . .
1.4. Principales contribuciones . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
5
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
11
12
12
14
15
16
17
20
21
21
21
25
26
27
28
29
29
32
38
38
43
45
NDICE GENERAL
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
51
52
58
60
63
63
63
66
67
67
68
68
70
73
.
.
.
.
.
.
.
.
.
.
.
77
77
78
79
85
94
99
100
101
102
103
105
5. Modelado sinusoidal
5.1. Implementacin mediante matching pursuits . . . . . . . . .
5.1.1. Implementacin eficiente . . . . . . . . . . . . . . . .
5.1.2. Extensin para el anlisis de seales no estacionarias
5.2. Matching pursuits con guiado perceptual . . . . . . . . . . .
5.2.1. Weighted Matching Pursuits . . . . . . . . . . . . . .
5.2.2. Psychoacoustic-Adaptive Matching Pursuits . . . . .
5.2.3. Perceptual Matching Pursuits . . . . . . . . . . . . .
5.3. Estrategias de cuantificacin . . . . . . . . . . . . . . . . . .
5.3.1. Cuantificacin de la frecuencia . . . . . . . . . . . .
5.3.2. Cuantificacin de la fase . . . . . . . . . . . . . . . .
5.3.3. Cuantificacin de la amplitud . . . . . . . . . . . . .
109
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
111
112
113
114
118
119
120
122
134
135
136
136
NDICE GENERAL
xi
6. Modelado de transitorios
6.1. Diccionarios paramtricos con matching pursuits . . . . . . . . . . . . . . . . . .
6.1.1. tomos de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.2. Sinusoides amortiguadas exponencialmente . . . . . . . . . . . . . . . . .
6.1.3. tomos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2. Diccionario de funciones wavelet packets . . . . . . . . . . . . . . . . . . . . . . .
6.2.1. Demostracin de las correlaciones cruzadas . . . . . . . . . . . . . . . . .
6.2.2. Resultados comparativos entre los diccionarios WP y EDS . . . . . . . . .
6.3. Diccionario mixto: exponenciales complejas + wavelets packets . . . . . . . . . .
6.3.1. Planteamiento para una implementacin rpida . . . . . . . . . . . . . . .
6.3.2. Clculo de la correlacin cruzada entre una exponencial compleja elegida
como tomo ptimo y funciones wavelet-packets. . . . . . . . . . . . . . .
6.3.3. Clculo de la correlacin cruzada entre una funcin wavelet-packets elegida
como tomo ptimo y exponenciales complejas. . . . . . . . . . . . . . . .
6.3.4. Resumen de la complejidad asociada . . . . . . . . . . . . . . . . . . . . .
6.3.5. Resultados en seales de audio con transitorios . . . . . . . . . . . . . . .
145
145
146
146
149
151
153
154
157
159
7. Modelado de ruido
7.1. El equilibrio imperfecto entre tonos y ruido . . . .
7.2. Parmetros de la energa del residuo en frecuencia
7.2.1. Bancos de filtros ERB . . . . . . . . . . . .
7.2.2. Filtros basados en warped-LPC . . . . . . .
7.2.3. Comparacin de resultados . . . . . . . . .
7.3. El espectro perceptual del ruido . . . . . . . . . . .
7.4. La envolvente del ruido en el tiempo . . . . . . . .
.
.
.
.
.
.
.
171
171
175
176
177
180
185
187
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
189
190
193
198
199
199
200
201
202
204
205
206
207
209
209
211
212
213
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
161
163
164
165
NDICE GENERAL
xii
8.5.8.
8.5.9.
8.5.10.
8.5.11.
8.5.12.
8.5.13.
III
Seal sm02 .
Seal sm03 .
Seal sc01 . .
Seal sc02 . .
Seal sc03 . .
Resultados en
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
trmino medio
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
215
216
217
218
219
220
223
9. Conclusiones
225
229
ndice de figuras
2.1. Estructura interna del odo humano. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Umbral absoluto de audicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Contornos de igual intensidad sonora para tonos puros. . . . . . . . . . . . . . . . . .
2.4. Ancho de las bandas crticas en funcin de la frecuencia central de la banda. . . . . . .
2.5. Efecto de enmascaramiento de dos tonos en 1kHz y 4kHz . . . . . . . . . . . . . . . .
2.6. Ejemplo de pre-masking y post-masking . . . . . . . . . . . . . . . . . . . . . . . . .
2.7. Ejemplo de pre-eco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8. Diagrama de bloques de un sistema de codificacin perceptual . . . . . . . . . . . . . .
2.9. Diagrama de bloques de un banco de filtros de anlisis/sntesis . . . . . . . . . . . . . .
2.10. Descomposicin de un golpe de batera en sus componentes. . . . . . . . . . . . . . . .
2.11. Esquema de un modelo de enmascaramiento sin ndice de tonalidad. . . . . . . . . . . .
2.12. Diagrama de bloques del esquema de codificacin MPEG-1 audio capa 3 . . . . . . . . .
2.13. Estructura de trama MPEG-1 para la transmisin de informacin multicanal MPEG-2 .
2.14. Diagrama de bloques del estndar de codificacin MPEG-2 AAC . . . . . . . . . . . . .
2.15. Aplicaciones del estndar MPEG-4 audio . . . . . . . . . . . . . . . . . . . . . . . .
2.16. Diagrama de bloques del codificador paramtrico HILN [Purnhagen00]. . . . . . . . . .
2.17. Diagrama de bloques del codificador paramtrico PPC [Schuijers03]. . . . . . . . . . . .
2.18. Los cinco intervalos de la escala continua (CQS) de medida usada en el mtodo MUSHRA.
2.19. El interfaz de usuario del programa SEAQ para realizar el test MUSHRA. . . . . . . . .
3.1. Tendencia de la distorsin perceptual en funcin del rgimen binario para codificadores
de forma de onda y paramtricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Unin de tonos individuales para formar trayectorias . . . . . . . . . . . . . . . . . .
3.3. Evolucin de la resolucin espectral y temporal con el tamao de trama de anlisis. . . .
3.4. Ventajas del anlisis multi-resolucin. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Esbozo de la distorsin perceptual en relacin al rgimen binario cuando se utiliza slo el
modelado sinusoidal o el modelado sinusoidal ms un modelo de ruido. . . . . . . . . .
3.6. Esquema del funcionamiento del codificador hbrido propuesto en [Ali95]. . . . . . . . .
3.7. Esquema del funcionamiento del codificador hbrido propuesto en [Levine98]. . . . . . .
3.8. Esquema del funcionamiento del codificador paramtrico HILN [Purnhagen00]. . . . . .
3.9. Resultados de los test subjetivos para el codificador HILN. . . . . . . . . . . . . . . . .
3.10. Resultados de los test subjetivos para el codificador PPC. . . . . . . . . . . . . . . . .
3.11. Esquema del funcionamiento del codificador paramtrico de Verma [Verma99]. . . . . .
3.12. Esquema del funcionamiento del codificador paramtrico de Myburg [Myburg04]. . . . .
xiii
13
15
16
17
18
20
20
21
22
25
27
29
30
31
35
36
37
44
44
48
52
54
56
66
69
70
71
72
73
74
75
xiv
NDICE DE FIGURAS
3.13. Calidad perceptual obtenida por el codificador de Myburg a diferentes regmenes binarios.
76
81
81
cas con una seal formada por dos tonos muy prximos en frecuencia y un diccionario
DST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
83
83
88
89
93
95
4.10. Comparacin del resultados de mtodos para obtener descomposiciones con una seal
formada por una delta de Dirac, un tono y cuatro funciones wavelet-packets. Se utiliza
un diccionario wavelet packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.11. Comparacin del resultados de mtodos para obtener descomposiciones con una seal
formada un tono ms una seal tonal modulada en FM. Se utiliza un diccionario cosine
packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.12. Comparacin del resultados de mtodos para obtener descomposiciones con un transitorio
de audio. Se utiliza un diccionario cosine packets. . . . . . . . . . . . . . . . . . . . .
4.13. Comparacin del resultados de mtodos de descomposiciones para eliminacin de ruido
en un transitorio de audio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.14. tomos de Gabor con ventana simtrica variando la frecuencia de modulacin y la escala
de la ventana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.15. Representacin de un efecto de pre-eco producido al utilizar tomos de Gabor simtricos.
4.16. tomos de sinusoides amortiguadas variando la frecuencia de modulacin y el factor de
amortiguamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.17. Ejemplo de uso de un diccionario mixto. . . . . . . . . . . . . . . . . . . . . . . . . .
97
98
99
101
101
102
106
5.1. Esquema experimental usado para comparar de forma objetiva diferentes mtodos de implementacin del modelo tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.2. Variacin de la relacin residuo a seal RSR( %) conforme aumenta el nmero de frecuencias extradas para los cuatro mtodos considerados: A (rombos), B (tringulos), C
(crculos), D (cuadrados). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.3. Nmero de frecuencias necesarias para conseguir un valor fijo de relacin residuo a seal
RSR( %) para los mtodos C (crculos) y D (cuadrados). . . . . . . . . . . . . . . . . 117
5.4. Esquema experimental usado para comparar de forma subjetiva diferentes mtodos de
implementacin del modelo tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.5. Resultados subjetivos en M OS comparando los mtodos evaluados de modelado sinusoidal. 119
NDICE DE FIGURAS
xv
5.6. Ejemplo de funcionamiento de las medidas perceptuales WMP y PAMP para el caso de
dos tonos de 1KHz y 1, 1KHz [Heusdens02]. . . . . . . . . . . . . . . . . . . . . . . 121
5.7. Modelo del odo como sistema lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.8. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso de
dos tonos de 1KHz y 1, 1KHz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.9. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.10. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora ms ruido blanco. . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.11. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora con mscara inicial que incluye el umbral NMT. . . . . . . . . . . . 127
5.12. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora ms ruido blanco con mscara inicial que incluye el umbral NMT. . . 128
5.13. Ejemplo de funcionamiento de la parada perceptual con la medida PMP para el caso una
seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.14. Ejemplo de funcionamiento de la parada perceptual con la medida PAMP para el caso una
seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.15. Ejemplo de funcionamiento de la medida PAMP para el caso una seal vocal sonora ms
ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.16. Ejemplo de funcionamiento de la medida PMP para el caso una seal vocal sonora ms
ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.17. Ejemplo de funcionamiento del algoritmo propuesto para la cuantificacin de las amplitudes. 141
5.18. Variacin del rgimen binario (bits/muestra) en media para la cuantificacin de las amplitudes conforme la relacin RSR( %) aumenta. Mtodo en [Ali95] (rombos), mtodo
propuesto (cuadrados). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.5. tomos compuestos variando la frecuencia de modulacin y los factores de amortiguamiento. 149
6.6. Modelado un transitorio de audio (gong) con MP y diccionario de tomos compuestos. . 150
6.7. Error cuadrtico medio del mtodo MP con exponenciales amortiguadas y tomos compuestos para un transitorio de audio [Goodwin97]. . . . . . . . . . . . . . . . . . . . . 150
6.8. Estructura en rbol de la transformada WP inversa con una profundidad de P = 3. . . . 152
6.9. Seal transitoria de castauela modelada mediante matching pursuits con un diccionario
EDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.10. Seal transitoria de castauela modelada mediante matching pursuits con un diccionario
WP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.11. Error cuadrtico medio (MSE) de los modelos presentados en las figuras 6.9 y 6.10. . . . 157
xvi
NDICE DE FIGURAS
6.12. Modelo de un transitorio de audio (castauela) con un diccionario mixto y con diccionarios aplicados en serie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.13. Modelo de un micro-transitorio de audio ( glokenspiel) con un diccionario mixto y con
diccionarios aplicados en serie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.1. Representacin de la frontera ptima entre tonos y ruido en un modelo de seal determinstica ms estocstica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2. Generador de ruido sinttico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3. Bloque a sustituir por cada retardo unidad para obtener filtros warped. . . . . . . . . .
7.4. Tres tonos en tiempo y frecuencia antes de realizar un procesado warped [Harma00a]. .
7.5. Tres tonos en tiempo y frecuencia tras realizar un procesado warped por una cadena de
1000 bloques paso todo [Harma00a]. . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.6. Espectro de una seal musical de clarinete y espectro estimado por modelos LPC y
warped-LPC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.7. Espectro del residuo de una seal vocal sorda (abajo), la envolvente de energa mediante
173
175
178
179
180
181
warped-LPC con 30 polos (medio) y un banco de filtros ERB mediante FFT con 30 bandas
(arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
7.8. Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante
warped-LPC con 30 polos (medio) y un banco de filtros ERB mediante FFT con 30
bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.9. Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante
warped-LPC con 30 polos (medio) y un banco de filtros ERB mediante FFT con 30
bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.10. Obtencin del modelo de ruido con un espectro pesado perceptualmente gracias al umbral
de enmascaramiento presente tanto en el codificador como en el decodificador. . . . . . . 185
7.11. Residuo para una seal de voz sorda y envolvente calculada con un filtro LPC en frecuencia
con 3 polos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
8.1. Estructura del codificador paramtrico propuesto. . . . . . . . . . . . . . . . . . . . .
8.2. Diagrama del segmentador usado basado en warped-LPC. . . . . . . . . . . . . . . . .
8.3. Seal de trompeta en un cambio de nota. La lnea marca el lmite del segmento que calcula
el algoritmo de segmentacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4. Seal de voz cuando se termina de pronunciar un fonema sonoro. La lnea marca el lmite
del segmento que calcula el algoritmo de segmentacin. . . . . . . . . . . . . . . . . .
8.5. Golpe de castauela detectado como transitorio. . . . . . . . . . . . . . . . . . . . . .
8.6. Micro-transitorio detectado en la seal sm02. Se dibuja la seal de entrada (arriba) y el
residuo del modelo tonal (abajo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7. Estructura de la trama binaria del codificador paramtrico propuesto. . . . . . . . . . .
8.8. Test MUSHRA para la seal es01. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.9. Test MUSHRA para la seal es02. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.10. Test MUSHRA para la seal es03. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.11. Test MUSHRA para la seal si01. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.12. Test MUSHRA para la seal si02. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.13. Test MUSHRA para la seal si03. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
191
196
197
197
199
200
204
207
208
210
211
212
214
NDICE DE FIGURAS
8.14. Test MUSHRA para la seal sm01. . . . . . . .
8.15. Test MUSHRA para la seal sm02. . . . . . . .
8.16. Test MUSHRA para la seal sm03. . . . . . . .
8.17. Test MUSHRA para la seal sc01. . . . . . . . .
8.18. Test MUSHRA para la seal sc02. . . . . . . . .
8.19. Test MUSHRA para la seal sc03. . . . . . . . .
8.20. Valores del test MUSHRA en media para todas las
xvii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
seales de prueba. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
215
216
217
218
219
220
222
xviii
NDICE DE FIGURAS
ndice de tablas
2.1. Escala de degradacin de 5 notas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Seales del cd EBU-SQAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
41
binario
binario
binario
binario
binario
binario
binario
binario
binario
binario
binario
binario
binario
y
y
y
y
y
y
y
y
y
y
y
y
y
otros
otros
otros
otros
otros
otros
otros
otros
otros
otros
otros
otros
otros
resultados
resultados
resultados
resultados
resultados
resultados
resultados
resultados
resultados
resultados
resultados
resultados
resultados
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
al codificar el fichero
en media al codificar
xix
es01. . . . . . . . . . . . .
es02. . . . . . . . . . . . .
es03. . . . . . . . . . . . .
si01. . . . . . . . . . . . .
si02. . . . . . . . . . . . .
si03. . . . . . . . . . . . .
sm01. . . . . . . . . . . .
sm02. . . . . . . . . . . .
sm03. . . . . . . . . . . .
sc01. . . . . . . . . . . . .
sc02. . . . . . . . . . . . .
sc03. . . . . . . . . . . . .
todos las seales evaluadas.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
206
208
209
210
211
213
214
215
217
218
219
220
221
Parte I
Planteamiento de la Investigacin y
Revisin de Conocimientos
Captulo 1
Introduccin
1.1.
La representacin digital de seales de audio encontr en los aos ochenta un estndar con
la aparicin de la tecnologa del disco compacto (CD). Inevitablemente, todos los esquemas de
codificacin de seales de audio que han surgido desde entonces han tratado de comparar su
calidad con la calidad CD. Esta se caracteriza por el uso de una frecuencia de muestreo de 44,1
KHz, para seales de audio cuyo ancho de banda es del orden de 20 KHz, siendo cada muestra
PCM codificada con 16 bits.
Para transmitir las seales digitales resultantes, se necesitara una velocidad de transmisin
de 705,6 Kbits/s por canal de audio, justificndose la necesidad de investigacin para encontrar
tcnicas de codificacin alternativas que permitan reducir el rgimen binario manteniendo la
calidad perceptual de la seal de audio decodificada.
La investigacin en este campo no es nueva, apareciendo los primeros sistemas de codificacin
de audio digital con buena calidad y bajo rgimen binario a finales de la dcada de los ochenta.
Desde entonces, la investigacin en esta lnea se ha ido intensificando, debido fundamentalmente
a las aportaciones realizadas por el grupo MPEG (Moving Pictures Expert Group), fruto de las
cuales han surgido diversos estndares internacionales de codificacin de audio. Estos estndares
son los siguientes: MPEG-1 audio (ISO/IEC 11172-3, 1992), MPEG-2 audio (ISO/IEC 13818-3,
1994) y MPEG-4 (ISO/IEC 14496, 2000).
Sin embargo, a partir del ao 2000 ha ido surgiendo la necesidad de reducir de manera
significativa el rgimen binario de la seal de audio con el objetivo de poder realizar transmisiones
sobre Internet, as como incrementar el tiempo de seal que se puede almacenar en dispositivos
porttiles de bajo coste. Para lograr este fin se ha apuntado la necesidad de cambiar la tecnologa
de codificacin, pasando de utilizar transformadas tiempo-frecuencia para codificar la forma de
onda de la seal, a desarrollar modelos de seal que extraigan parmetros de la seal de audio
que son posteriormente codificados. El xito de estos sistemas reside fundamentalmente en la
gran compactacin de energa al suponer un modelo de tres componentes: tonos, transitorios y
ruido. Adems, con este tipo de codificadores paramtricos es muy sencillo realizar modificaciones
de la seal de audio a partir de los parmetros y suponen, adicionalmente, una herramienta
prometedora para desarrollar esquemas de reconocimiento y separacin de fuentes.
En esta tesis se aborda la revisin y desarrollo de modelos de seal como herramienta fun3
CAPTULO 1. INTRODUCCIN
1.2.
regmenes binarios del orden de 16 Kbits/s para todas las seales de prueba, manteniendo una
alta calidad de la seal codificada.
1.3.
Estructura de la tesis
CAPTULO 1. INTRODUCCIN
En el sptimo captulo, centrado en el modelo de ruido, se explican las herramientas de
prediccin lineal que tienen en cuenta el comportamiento logartmico en frecuencia del odo
humano, conocidas comnmente como warped-lpc.
Para completar este bloque, en el octavo captulo se presenta la estructura general del codificador propuesto, detallando la segmentacin adaptativa del eje temporal y el proceso de
cuantificacin de parmetros con principios psicoacsticos. Se detallan los resultados subjetivos, que se han obtenido atendiendo a la recomendacin ITU-R BS.1534 (conocida como
metodologa MUSHRA) para la evaluacin subjetiva de medias a grandes degradaciones
en los sistemas de audio. Estos resultados permiten comparar la calidad perceptual de las
seales decodificadas con las obtenidas usando el estndar MPEG-AAC y el codificador
paramtrico estandarizado PPC.
Conclusiones y lneas futuras.
Este bloque se compone de dos captulos. En el primero de ellos (captulo noveno) se
presentan las conclusiones obtenidas de la investigacin llevada a cabo. Se realiza una
revisin de las aportaciones originales introducidas en cada uno de los modelos de seal
utilizados en el campo de la codificacin paramtrica de audio.
El siguiente captulo, que es el dcimo y final de la tesis, est dedicado a presentar nuevas
lneas de investigacin que han surgido durante el desarrollo de la investigacin y que
suponen el inicio de nuevas vas de investigacin en el campo del tratamiento digital de
audio, de las cuales pueden derivarse futuras tesis doctorales.
1.4.
Principales contribuciones
Finalmente, en este primer captulo, se presentan las principales contribuciones originales del
trabajo de investigacin desarrollado:
1. Definicin de una nueva medida de importancia perceptual de cada tono en el algoritmo
matching pursuits con diccionario de exponenciales complejas que permite en cada iteracin
la extraccin de la frecuencia psicoacsticamente ms importante (seccin 5.2).
2. Definicin de un criterio de parada en el algoritmo matching pursuits con diccionario de
funciones exponenciales complejas que permite detener el algoritmo cuando no quedan en
el residuo tonos que estn por encima del umbral de enmascaramiento (seccin 5.2).
3. Desarrollo de un algoritmo de codificacin de las amplitudes de los tonos que permite
enviar un nmero variable de bits por tono, de forma que cada tono se cuantifica con los
bits necesarios para que la cuantificacin sea perceptualmente transparente. Este resultado
se consigue haciendo que tanto codificador como decodificador calculen de forma sencilla
un umbral de enmascaramiento que determine los bits de cada tono (seccin 5.3).
4. Inclusin de un proceso rpido de actualizacin de las correlaciones en el algoritmo matching pursuits con un diccionario wavelet packets, basado en las propiedades de las funciones
wavelet packets ortogonales. Este algoritmo se emplea en el modelado de transitorios (seccin 6.2).
CAPTULO 1. INTRODUCCIN
Captulo 2
Introduccin a la codificacin
perceptual de audio
2.1.
La codificacin perceptual de audio digital ha sido a lo largo de los ltimos 20 aos un campo
de aplicacin del procesado de seales. Durante este tiempo, se han resuelto algunos de los retos
asumidos. Sin embargo, la creciente demanda de aplicaciones digitales en redes telemticas hace,
que an hoy, la codificacin de audio sea un tema de actualidad. El objetivo de este captulo es
describir las tcnicas de codificacin ms utilizadas en el mercado y presentar una revisin del
estado del arte en codificacin perceptual de audio.
Durante los ltimos aos, gracias a los esfuerzos de estandarizacin, ha habido una explosin
de aplicaciones, tanto profesionales como de consumo, que han llevado a que el audio digital se
haya extendido de forma que se utiliza con asiduidad en la vida cotidiana. Baste, para comprobar
este hecho, con enumerar una serie de campos de aplicacin:
Almacenamiento en discos pticos y dispositivos porttiles.
Audio asociado para vdeo digital.
Transmisin de audio mediante redes digitales, por ejemplo internet o redes mviles.
Radiodifusin digital: DAB (radiodifusin terrestre), WorldSpace (radiodifusin por satlite).
Pese a que el ancho de banda global disponible para la transmisin de seales de audio (y
video) aumenta continuamente, as como la capacidad de los dispositivos de almacenamiento,
siguen surgiendo campos de aplicacin donde los actuales estndares de codificacin no ofrecen
una solucin satisfactoria. En este sentido cabe destacar la necesaria reduccin del rgimen binario
para la transmisin de audio por internet, o telefona mvil, manteniendo una alta calidad, lo cual
ha provocado el desarrollo de la codificacin paramtrica de audio. Pero, en un futuro prximo,
tal y como adelanta MPEG, van a seguir apareciendo nuevas aplicaciones para el tratamiento
digital de audio como, por ejemplo, la bsqueda basada en contenido.
9
10
2.2.
11
2.3.
Codificacin perceptual
La funcin tasa-distorsin determina el rgimen binario mnimo que se puede conseguir para
una distorsin dada [Berg71]. Normalmente se consiguen muy buenos resultados combinando la
eliminacin de redundancia (datos que pueden reconstruirse a partir de los presentes), con la
eliminacin de datos que no son importantes (eliminacin de irrelevancia).
La codificacin perceptual se centra en la eliminacin de aquellos datos que son irrelevantes
para el sistema auditivo. La seal se codifica de forma que la distorsin debida a la codificacin
no sea audible o, por lo menos, en que la distorsin que se produzca sea mnima para el rgimen
binario objetivo. Para tener xito en esta tarea, es preciso aplicar el conocimiento disponible
sobre el funcionamiento del sentido del odo.
El mnimo rgimen binario necesario para codificar una seal de audio sin que se produzcan
diferencias perceptuales entre la seal decodificada y la original es la Entropa Perceptual (PE)
[Johnston88]. La unidad de medida es bit/muestra, y se define a partir de la expresin (2.1):
f =fu
S(f )
1 X
max 0, log2 (
)
PE =
N
umbral(f )
(2.1)
f =fl
12
2.4.
Fundamentos de psicoacstica
La ciencia que estudia las relaciones entre los estmulos acsticos y las sensaciones auditivas
se conoce como psicoacstica. En esta seccin se introducen los principios en los que se basan los
modelos perceptuales que utilizan los modernos codificadores de audio. Estos modelos se aplican
para saber cmo cuantificar un determinado valor y que el efecto producido no sea audible en la
seal final. Se comenzar haciendo una breve exposicin acerca del funcionamiento del sistema
auditivo humano. Posteriormente, se analizan las sensaciones auditivas de intensidad sonora,
tono y timbre; as como el umbral absoluto de audicin, las bandas crticas y las propiedades y
tipos de enmascaramiento. Una revisin ms detallada de psicoacstica se puede encontrar en
[Zwicker90] y en [Moore97].
2.4.1.
13
Figura 2.1: Estructura interna del odo humano. Esta figura se ha obtenido de la direccin de Internet
http://www.owlnet/rice.edu/psyc351.
14
Odo interno: Es la parte ms importante del sistema auditivo desde el punto de vista psicoacstico. Incluye la cclea o caracol del odo donde se realiza la conversin de seal
mecnica a elctrica. El fluido de la cclea es excitado por el hueso estribo y estas ondas
se propagan hasta donde se encuentran las clulas sensoriales. Esta propagacin tiene la
particularidad de que, dependiendo de la frecuencia, el pico de la respuesta de las ondas se
sita en una parte u otra de la membrana donde estn los receptores. Como consecuencia,
se excitan diferentes receptores en funcin de la frecuencia del sonido, de forma que los
receptores estn sintonizados a la frecuencia de entrada gracias a la conversin frecuencia
a lugar que realiza la cclea. Desde un punto de vista de seal, la cclea se comporta como
un conjunto de filtros paso banda, con anchos de banda no uniformes que crecen con la
frecuencia. El concepto de bandas crticas se relaciona con este fenmeno [Zwicker90]. Otro
fenmeno que tiene lugar en el odo interno es el enmascaramiento, el cual es producido por
la presencia en la misma banda (para los mismos receptores) de una excitacin suficiente
para bloquear la recepcin de una seal ms dbil. Finalmente, la percepcin de un sonido
se realiza en el cerebro mediante la composicin de las diferentes respuestas elctricas de
las clulas sensoriales de cada banda enviadas por medio del nervio auditivo.
2.4.2.
El umbral absoluto de audicin o umbral de silencio indica el nivel de presin sonora (Sound
Pressure Level, SPL) en funcin de la frecuencia en el que un tono puro se empieza a escuchar
[Zwicker90]. La figura 2.2 muestra este umbral dependiendo de la frecuencia. Se puede observar
cmo el odo es ms sensible en el rango de frecuencias de 1 a 5 KHz, principalmente debido
a la accin del odo externo. El umbral crece rpidamente tanto en baja como en alta frecuencia. La dependencia de este umbral con la frecuencia fue estudiada por Fletcher [Fletcher40] y
aproximada por Terhardt [Terhardt79] mediante la expresin (2.2).
Tq (f ) = 3, 64(
f
f 4
f 0,8
3,3)2
0,6( 1,000
+ 103 (
)
6, 5e
) (dB
100
1,000
SP L)
(2.2)
Esta curva es de gran utilizad en codificacin de audio porque las componentes frecuenciales
bajo este umbral no pueden ser escuchadas y, por lo tanto, no necesitan ser transmitidas. Generalmente, en los codificadores por transformada se eliminan las bandas de seal bajo este umbral.
El umbral absoluto de audicin se usa en codificacin de audio con cautela. En primer lugar, este
umbral est asociado a tonos puros, mientras que el ruido de cuantificacin en codificadores por
transformada no tiene caractersticas tonales. En segundo lugar, hay que resaltar que no se tiene
conocimiento a priori sobre los niveles reales de reproduccin del sonido, aunque como referencia
se suele igualar el tono que ocupe todo el rango dinmico del sistema a una intensidad sonora
de 96 dB SPL.
15
90
80
70
60
50
40
30
20
10
0
2
10
10
Frecuencia (Hz)
10
2.4.3.
La intensidad sonora es un atributo de los sonidos en funcin del cual se pueden ordenar en
una escala de ms bajo a ms alto en intensidad. Adems de la potencia de un sonido la intensidad
sonora depende tambin de la duracin y la estructura en tiempo y frecuencia del mismo. En el
caso de la frecuencia del sonido se definen contornos de la misma intensidad sonora, donde se
toma la frecuencia de 1 KHz como referencia. La unidad en la que se mide la intensidad sonora
es el fono (phon). El umbral de silencio es un ejemplo de contorno de igual intensidad sonora,
notar que la intensidad sonora para 1 KHz en el umbral de silencio equivale a 3 fonos. En la
figura 2.3 se representan las curvas de igual intensidad sonora partiendo del umbral de silencio.
Otra sensacin auditiva es el tono que se define como la propiedad que permite ordenar los
sonidos en una escala musical. Con el tono se aprecia el patrn de repeticin de un sonido, as para
el caso de un tono puro se relaciona con su frecuencia, y si se trata de un complejo armnico con
la frecuencia fundamental del mismo. En cualquier caso, este atributo es ms complejo porque
supone que el sonido es armonioso [Moore97]. La asignacin de un determinado tono a un sonido
significa que se escucha de forma similar a (en la misma escala musical que) la frecuencia de un
tono puro.
El timbre es otra sensacin auditiva, aunque no se puedan ordenar los sonidos en funcin
del timbre en una escala unidimensional. La definicin de timbre es negativa, es la propiedad por
la cual dos sonidos se distinguen como diferentes aunque tengan la misma intensidad sonora y
el mismo tono. En otras palabras, el timbre permite distinguir entre la misma nota tocada, por
ejemplo, por un piano y una flauta. Desde un punto de vista psicoacstico, el timbre se detecta
en el cerebro al estudiar la composicin de seales en diferentes bandas crticas.
16
Figura 2.3: Contornos de igual intensidad sonora para tonos puros. Esta figura se ha obtenido de la
direccin de Internet http://www.owlnet/rice.edu/psyc351.
2.4.4.
Bandas crticas
Como se ha visto, las ondas acsticas que viajan por la cclea generan picos de respuesta
en posiciones especficas de la membrana basilar (donde se encuentran los receptores auditivos)
para cada componente frecuencial [Greenwood90]. Como consecuencia de esta transformacin,
la cclea se entiende desde el punto de vista del procesado digital de seales como un banco de
filtros muy solapados. Las respuestas en amplitud son asimtricas y dependientes del nivel de
seal. Adems, el ancho de banda, conocido como ancho de la banda crtica, no es uniforme y se
incrementa con la frecuencia.
La nocin de banda crtica se basa en dos hechos experimentales:
1. La intensidad sonora percibida de una fuente de ruido de banda estrecha de nivel constante
permanece invariable mientras se incrementa el ancho de banda hasta alcanzar el ancho de
la banda crtica, pasado el cual aumenta.
2. El umbral de deteccin de ruido de banda estrecha que se presenta entre dos tonos enmascaradores permanece constante mientras la diferencia de frecuencia de los tonos se mantiene
dentro del ancho de la banda crtica.
El ancho de las bandas crticas permanece aproximadamente constante (unos 100 Hz) hasta
los 500 Hz, y se incrementa en aproximadamente un 20 % de la frecuencia central por encima
de los 500 Hz. En promedio, el ancho de las bandas crticas puede aproximarse por la expresin
(2.3) [Zwicker90], la cual est dibujada en la figura 2.4:
BWc (f ) = 25 + 75[1 + 1, 4(f /1,000)2 ]0,69 (Hz)
(2.3)
Resulta usual el tratamiento del odo como un conjunto discreto de bancos de filtros, cuyos
anchos de banda se corresponden con los de las bandas crticas. En ese caso, la distancia entre
dos bandas crticas adyacentes se conoce normalmente como un Bark .
17
5000
4000
3000
2000
1000
10
10
Frecuencia (Hz)
10
Figura 2.4: Ancho de las bandas crticas en funcin de la frecuencia central de la banda.
2.4.5.
Enmascaramiento
18
100
80
60
40
20
0
2
10
10
Frecuencia (Hz)
10
230
, 10) 0, 2L (dB/Bark)
(2.4)
f
donde f es la frecuencia del tono enmascarador y L su intensidad en dB SPL.
Finalmente, hay que destacar que la capacidad de enmascaramiento depende de la tonalidad
del elemento enmascarador. Un ruido de banda estrecha presenta una mayor capacidad de enmascaramiento sobre un tono que al contrario [Hell72]. Esta propiedad se conoce como asimetra
en el enmascaramiento. La forma de tratar con esta caracterstica del enmascaramiento en la
bibliografa [Zwicker90] es tener dos tipos de seales y dos efectos, resultando cuatro escenarios
de enmascaramiento: ruido que enmascara a tonos (noise-masking-tone, NMT), tonos que enmascaran a tonos (tone-masking-tone, TMT), tonos que enmascaran a ruido (tone-masking-noise,
TMN), y ruido que enmascara a tonos (noise-masking-noise, NMN).
22 + min(
NMT: El nivel de enmascaramiento en la misma banda crtica depende del nivel de ruido
que enmascara, as en [Hall98] se dice que el umbral se sita a 4 dB con 80 dB SPL de
ruido enmascarador y a 3 dB para 60 dB SPL.
TMT: Cuando tanto seal enmascaradora como enmascarada son tonos se dan [Hall98] 19
dB para un tono enmascarador de 400 Hz de 80 dB SPL, 15 dB para 60 dB SPL, y 14
dB para 40 dB SPL. Otros valores se pueden encontrar en [Zwicker90] en funcin de la
frecuencia, pero son pocos los estudios realizados porque este tipo de enmascaramiento no
se utiliza en codificadores por transformada. El efecto enmascarador de un tono es ms
fuerte si la duracin del tono es mayor hasta un mximo de 300 ms [Par02], lo que puede
ser tenido en cuenta por codificadores paramtricos. Adems, en este caso se han observado situaciones especiales, porque cuando ambos tonos estn muy prximos en frecuencia
tienden a interferirse y provocar fluctuaciones en la intensidad sonora [Lee03].
TMN: La mscara generada en este caso depende tanto del nivel de presin sonora del
tono como de su frecuencia. Pero, comparada con el caso del ruido enmascarador, un tono
19
tiene menos capacidad de enmascaramiento. En [Hall98] se presentan los valores para una
frecuencia de 1 KHz, as el umbral est a 21 dB para un tono de 60 dB SPL, a 24 dB para
80 dB SPL y a 28 dB para 90 dB SPL. Hay una gran conjunto de expresiones similares
[Zwicker90] [Moore97] [MPEG92] para este escenario que aprovechan los diferentes modelos
perceptuales que emplean los codificadores de audio.
NMN: Es un valor difcil de medir en la prctica porque no se puede distinguir entre tipos
de ruido. Los valores que aparecen en la bibliografa son muy diversos, as en [Hall98]
aparece un valor genrico de 26 dB, mientras que en el modelo de enmascaramiento 2 de
MPEG [MPEG92] se utiliza un valor de 5, 5 dB.
El valor de la mscara final se ha de obtener reconociendo cuantas seales enmascaradoras
ruidosas y tonales hay en la seal. Esto se consigue de forma general calculando la tonalidad de
la seal en cada banda crtica. A partir de este valor se divide la seal de entrada en parte tonal y
parte ruidosa dentro de la banda crtica para obtener el umbral de enmascaramiento [MPEG92].
Un aspecto clave an no resuelto completamente en psicoacstica es la aditividad del enmascaramiento. Si existen varios elementos enmascaradores y los efectos de enmascaramiento
particulares de cada uno de ellos se solapan, el enmascaramiento combinado es normalmente
mayor que el esperado a partir de los clculos realizados con las energas de las seales [Beer92].
En la mayora de los casos, los modelos psicoacsticos que utilizan los codificadores de audio
se limitan a calcular, a partir de la seal de entrada, el umbral de enmascaramiento simultneo
en frecuencia. Este umbral de enmascaramiento se refiere, en los codificadores por transformada,
al ruido de cuantificacin que se puede inyectar en una frecuencia dada. Sin embargo, para el
caso de los codificadores paramtricos, es recomendable calcular el umbral de enmascaramiento
tanto para tonos como para ruido.
Enmascaramiento temporal
El efecto de enmascaramiento de una seal se extiende en el tiempo tanto a instantes previos
a la propia generacin del elemento enmascarador (pre-masking o enmascaramiento hacia atrs)
como a instantes posteriores a su extincin (post-masking o enmascaramiento hacia delante)
como se puede observar en la figura 2.6. Este efecto hace posible que se puedan usar sistemas de
anlisis/sntesis con una resolucin temporal limitada (por ejemplo, bancos de filtros con gran
resolucin en frecuencia) para codificar audio digital de alta calidad. Los datos experimentales
sugieren que el enmascaramiento hacia atrs presenta una gran variacin entre sujetos, as como
tambin entre diferentes seales usadas como elementos enmascaradores y enmascarados.
Las seales indeseadas (artefactos) generadas por el codificador que se extienden en el tiempo
de forma que preceden a una transicin de la seal en el dominio temporal (por ejemplo, un ataque
brusco de percusin) pueden dar lugar a distorsiones audibles conocidas como pre-ecos. Dado
que los codificadores basados en bancos de filtros siempre originan una dispersin temporal del
error de cuantificacin (en la mayora de los casos superior a 4 ms), el pre-eco es un problema
bastante comn en los sistemas de codificacin de audio. En la figura 2.7 podemos ver un claro
ejemplo de distorsin de pre-eco.
La forma tpica de minimizar el efecto de pre-eco es el uso de una segmentacin adaptativa
del eje temporal cuando la seal cambia su contenido, es decir, que el tamao de trama de audio
20
70
60
Premasking
50
Simultneo
Postmasking
40
30
20
10
Seal enmascaradora
0
50
100
150
200
250
300
Tiempo (ms)
350
400
450
500
2.4.6.
21
Por ejemplo, para el caso de la frecuencia de un tono el valor de JND en frecuencia depende
de la duracin del mismo: 0, 2 Bark para 10 ms y 0, 01 Bark para 500 ms [Zwicker90]. La resolucin del odo respecto a otros parmetros se puede encontrar en la bibliografa relacionada con
psicoacstica [Zwicker90] [Moore97].
2.5.
2.5.1.
Introduccin
El objetivo bsico en codificacin perceptual de audio digital de alta calidad consiste en ocultar la distorsin producida por la codificacin por debajo de la capacidad de enmascaramiento
y resolucin propias del odo humano. Como la seal de audio es una seal no estacionaria, la
primera aproximacin consiste en analizar la seal en diferentes segmentos temporales donde
las caractersticas de la seal sean casi estacionarias. Entonces se estima el umbral de enmascaramiento simultneo en el dominio de la frecuencia, ocultando el efecto de la cuantificacin
bajo este umbral. Sin embargo, este enfoque es diferente en un codificador paramtrico que
descompone la seal en tonos, transitorios y ruido.
En general, la codificacin perceptual de audio se plantea como un anlisis tiempo/frecuencia,
habiendo dos enfoques principales: 1) el uso de un banco de filtros o transformada en codificacin
por de forma de onda, y 2) el empleo de un modelo de la seal extrayendo los parmetros de
este modelo en codificacin paramtrica de audio. Esto conduce a una estructura bsica de los
codificadores perceptuales que es comn a prcticamente todos los sistemas actuales.
La figura 2.8 muestra el diagrama de bloques bsico de un sistema de codificacin perceptual
de audio, cuyos elementos constitutivos son:
Entrada de audio
Anlisis
tiempo/frecuencia
Cuantificacin y
codificacin
Salida binaria
Entramado
Modelo perceptual
2.5.2.
Anlisis tiempo/frecuencia
Todos los codificadores de audio utilizan alguna tcnica de anlisis tiempo-frecuencia para
extraer una serie de coeficientes o parmetros a partir de la seal de audio que pueden ser cuantificados y codificados, atendiendo a alguna medida de distorsin perceptual. Como se ha visto
22
H0(f)
Procesamiento
G0(f)
H1(f)
Procesamiento
G1(f)
H2(f)
Procesamiento
G2(f)
...
...
Hn-2(f)
Procesamiento
Gn-2(f)
Hn-1(f)
Procesamiento
Gn-1(f)
23
24
Codificadores paramtricos
En la compresin de diferentes fuentes de informacin se buscan sistemas que incluyan un
modelo de generacin de la fuente, con objeto de reducir la cantidad de datos necesaria para
enviar la seal de forma fidedigna. Siguiendo este principio, en el caso de la seal de voz, existen
codificadores que alcanzan una extraordinaria tasa de compresin. Es importante resear que en
este tipo de codificadores de voz no se representa la forma de onda, sino la forma de produccin de la seal. Estos valores de tasa de compresin no son alcanzables cuando se trabaja con
codificadores por transformada para seales de audio.
La existencia de este modelo de produccin de la seal de voz ha permitido el desarrollo
de numerosas aplicaciones, no slo de codificacin, sino de reconocimiento de voz y de locutores, basndose casi siempre en la medida de las diferencias entre los parmetros del modelo de
produccin o en parmetros alternativos obtenidos a partir de ellos.
Desgraciadamente, en el caso de la seal de audio, este modelo de produccin no es adecuado,
muy al contrario, no es posible establecer un modelo de generacin basado en principios fsicos,
como en el caso de la seal de voz, debido a la diferente naturaleza de las seales que forman
el audio en general. Como consecuencia, las tcnicas de codificacin estandarizadas, por muy
sofisticadas que sean, se engloban dentro de los codificadores por de forma de onda.
Sin embargo, es posible extraer parmetros de la seal de audio dividiendo la seal en sus
componentes: tonos, transitorios y ruido. Utilizando herramientas que obtengan parmetros de
estas componentes es posible la obtencin de un modelo de seal adaptativo para el audio. El
desarrollo de este modelo para las seales de audio musicales permite no slo conseguir altas tasas
de compresin en aplicaciones de codificacin, sino que es el punto de partida en aplicaciones
de clasificacin de seales, descripcin de la informacin multimedia, e indexado, que sern
ampliamente demandadas en un futuro inmediato dentro del sector multimedia.
As pues, en un codificador paramtrico el anlisis tiempo/frecuencia se realiza extrayendo
de la seal los parmetros correspondientes a cada una de las componentes de seal:
Tonos La extraccin tonal se conoce con el nombre de modelo sinusoidal y la forma ms sencilla
de implementarla es la deteccin de picos espectrales en el dominio de Fourier. Esta parte
de la seal representa las caractersticas de la seal de audio que cambian lentamente con
el tiempo.
Transitorios Se modela en esta componente los breves incrementos de energa que se producen
en las seales de audio, como golpes de castauelas o batera. Los algoritmos utilizados en
la bibliografa son muy diversos para el tratamiento de esta componente.
Ruido En los sistemas actuales, el residuo de seal que no se puede modelar como tonos o
transitorios se trata como ruido. En cualquier caso, esta componente representa la parte
estocstica de la seal de audio. Es reseable que algunos instrumentos, como la flauta,
generan un flujo de seal ruidosa de forma adicional a la seal tonal.
La figura 2.10 muestra la descomposicin de un golpe de batera en sus componentes: tonos,
transitorios y ruido. En este ejemplo la componente transitoria es importante, algo que ocurre con
poca frecuencia en la seal de audio. As, durante la mayor parte de la duracin de la seal basta
con descomponerla en tonos y ruido. Debido a que la hiptesis de la investigacin desarrollada
25
0.5
0.5
1000
muestras
1500
amplitud normalizada
0.5
500
1000
muestras
1500
0.5
500
2000
1000
muestras
1500
2000
1500
2000
(d) RUIDO
0.5
0.5
2000
(c) TRANSITORIOS
1
amplitud normalizada
500
(b) TONOS
1
amplitud normalizada
amplitud normalizada
0.5
0.5
500
1000
muestras
2.5.3.
Modelos perceptuales
26
(2.5)
) = (t 1, ) + ((t 1, ) (t 2, ))
(t,
(2.6)
La distancia eucldea ponderada entre los valores reales y los predecidos define la impredicibilidad c(t, ), algunas veces denominada medida de caos:
c(t, ) =
(2.7)
(2.8)
La medida de caos c(t, ) se convierte en ndice de tonalidad v(t, ) mediante una transformacin no lineal:
v(t, ) = 0, 43 log10 (cl (t, )) 0, 299
(2.9)
2.5.4.
Cuantificacin y codificacin
27
Bandas
Respuesta del odo
externo y medio
Bi
Distorsin
intra-canal
Mscara
Di
Suma
Banco de filtros
auditivos
Ruido interno
2.6.
En esta seccin se presenta una revisin de algunos esquemas de codificacin de audio que
se han propuesto a lo largo de los aos, centrndose en los estndares propuestos por MPEG
28
(Moving Pictures Experts Group) desde su creacin en 1988 hasta la fecha. Existen otros sistemas
comerciales de codificacin de audio, que han tenido cierta importancia, pero no se han incluido en
esta revisin, como por ejemplo AC-2 y AC-3 [Todd94], competidores directos, respectivamente,
de las capas 2 y 3 del estndar MPEG-1 audio.
Se puede encontrar una revisin bastante completa de los sucesivos estndares MPEG audio
en [Brandenburg97, Painter00]. Hasta la fecha han sido cuatro los estndares internacionales
de codificacin de audio desarrollados por el grupo MPEG: MPEG-1 audio, MPEG-2 audio,
MPEG-2 AAC y MPEG-4 audio.
2.6.1.
El estndar MPEG-1 audio fue propuesto en 1992 [MPEG92]. Se dise como respuesta a la
necesidad de mltiples aplicaciones: almacenamiento de audio digital en cintas magnticas, radio
digital, transmisin de audio mediante RDSI, etc. Se ide un sistema de codificacin estructurado
en tres modos de funcionamiento, crecientes en complejidad, a los que se llam capas. La capa 1
fue inicialmente optimizada para un rgimen binario de 192 Kbits/s por canal (se emple en el
Digital Compact Cassette, DCC ), la capa 2 para un rgimen binario de 128 Kbits/s por canal y
la capa 3 para 64 Kbits/s por canal. Se permiten tres frecuencias de muestreo de 32 kHz, 44,1
kHz y 48 kHz.
Las caractersticas fundamentales de las capas 1 y 2 son las siguientes:
1. Para agrupar los datos de entrada en bloques se usa un algoritmo de segmentacion fija.
2. Se usa un banco de filtros polifsico que convierte la entrada de audio digital en 32 subbandas. Utiliza un filtro prototipo de 511 coeficientes. Para cada subbanda de salida es preciso
transmitir la siguiente informacin:
Asignacin de bits. Determina el nmero de bits empleados para codificar las muestras
de cada subbanda. En la capa 1 se usan 4 bits, mientras que en la capa 2 existen
diferentes patrones para enviar dicha informacin, dependiendo del rgimen binario
deseado y de la frecuencia de muestreo.
Factores de escala. El clculo de los factores de escala se realiza cada 12 muestras
de subbanda. Slo se transmiten los factores de escala correspondientes a bloques de
muestras con asignacin binaria distinta de cero.
Muestras en la subbanda. Las muestras de cada subbanda se transmiten usando la
longitud de palabra definida por el algoritmo de asignacin de bits. Se emplea cuantificacin uniforme y cuantificadores en huella.
3. La asignacin de bits se realiza a partir de los resultados proporcionados por un modelo
psicoacstico. El cuantificador utilizado est basado en compansin de bloques y se aade,
adems, un codificador de trama.
A diferencia de la capa 1, la capa 2 del estndar MPEG-1 usa una longitud de trama de 36
muestras. Mientras la informacin de asignacin de bits es vlida para toda la trama, los factores
de escala se actualizan cada 12 muestras, como ocurre en la capa 1. En la capa 2 se utilizan 2
29
bits por subbanda y trama para determinar si se transmite uno, dos o tres factores de escala por
trama.
Mientras que en la capa 1 las posibles asignaciones de bits son 0 y de 2 a 15 bits, en la capa
2 se permiten de forma adicional cuantificadores de 3, 5, 7 y 9 niveles de cuantificacin, lo que
conlleva una considerable disminucin del rgimen binario.
2.6.2.
La capa 3 combina algunas de las caractersticas de la capa 2 con una mayor eficiencia en
la codificacin, que se consigue gracias a una mayor resolucin en frecuencia y a la utilizacin
de codificacin Huffman esttica, tal y como se propone en el sistema ASPEC [Brandenburg91].
La figura 2.12 muestra el diagrama de bloques correspondiente a la capa 3 del sistema MPEG-1
audio.
Figura 2.12: Diagrama de bloques del esquema de codificacin MPEG-1 audio capa 3
Entre las novedades incorporadas en la capa 3 destacan:
1. Banco de filtros hbrido conmutado, que admite tres posibles variantes correspondientes a
resoluciones en frecuencia de 576, 216 y 192 lneas.
2. Cuantificacin no uniforme.
3. Control del ruido de cuantificacin mediante anlisis por sntesis.
4. Codificacin Huffman de los valores cuantificados.
2.6.3.
MPEG-2 Audio
El estndar MPEG-2 audio (ISO/IEC 13818-3) presenta dos grandes avances en relacin al
estndar MPEG-1 audio (ISO/IEC 11172-3):
Codificacin multicanal compatible hacia atrs
El estndar internacional MPEG-2 audio contiene la definicin de un sistema de codificacin
multicanal compatible hacia atrs, denominado MPEG-2 BC. Los canales L y R del estndar
30
MPEG-1 son sustituidos por las seales LC y RC , definidas por las expresiones (2.10) y (2.11),
y codificadas mediante un sistema MPEG-1 audio.
[L + C/ 2 + a LS ]
1 + 1/ 2 + a
[R + C/ 2 + a RS ]
RC =
1 + 1/ 2 + a
LC =
(2.10)
(2.11)
1
El coeficiente a puede tomar alguno de los siguientes valores: 12 , 1/2, 2
, 0. En consecuencia,
2
un decodificador MPEG-1 audio puede reproducir con buena calidad una versin downmix partiendo de una seal multicanal.
En MPEG-2 BC el formato de trama bsico es idntico al formato de MPEG-1. Los canales
adicionales (C, LS y RS , para el caso de 5 canales) se transmiten en el campo de datos auxiliares de la estructura de trama MPEG-1. En la figura 2.13 puede apreciarse cmo se realiza la
transmisin de la informacin multicanal MPEG-2 dentro de la estructura de trama MPEG-1.
Cabecera MPEG-1
Datos MPEG-1
Datos auxiliares MPEG-1
Cabecera MPEG-2
Extensin MPEG-2
Datos MPEG-2
Datos auxiliares MPEG-2
Figura 2.13: Estructura de trama MPEG-1 para la transmisin de informacin multicanal MPEG-2
Otra novedad del estndar MPEG-2 audio es la adicin de nuevos modos de funcionamiento
que emplean frecuencias de muestreo ms bajas (por debajo de 32 kHz). Estos modos son tiles
para las siguientes aplicaciones: transmisin de voz de banda ancha y audio de calidad media a
regmenes binarios comprendidos entre 16 y 64 Kbits/s por canal, transmisin de voz en aplicaciones de comentarista, sistemas de audio por Internet, o cualquier otra aplicacin donde la
cantidad bits a repartir sea un recurso muy escaso.
MPEG-2 Advanced Audio Coder (MPEG-2 AAC)
Est recogido en la norma ISO/IEC 13818-7. Se trata de un nuevo estndar de codificacin
de audio que no es compatible hacia atrs, adecuado para configuraciones flexibles de canal y
que introduce servicios estreo y multicanal.
Se organiza en un conjunto de herramientas de codificacin que se pueden seleccionar dependiendo de la CPU disponible, de los recursos del canal y de la calidad deseada, de entre tres
perfiles de complejidad. Cada uno de ellos recomienda una combinacin de herramientas. Las
herramientas principales son:
1. Banco de filtros basado en la transformada discreta de coseno modificada (MDCT). La
resolucin temporal depende de la seal a analizar, oscilando entre 2.048 muestras para
31
TNS
Intensidad/
Acoplamiento
MUX
Seal
codificada
Prediccin
M/S
Factores
de escala
Proceso de control
Tasa / Distorsin
Cuantificador
Codificacin
sin prdidas
32
2.6.4.
MPEG-4 Audio
33
Voz sinttica MPEG-4 incorpora un interfaz de texto-a-voz TTS (Text-To-Speech) que soporta
regmenes binarios en el rango de 200 bits/s hasta 1,2 Kbits/s, permitiendo como entrada
texto o texto con parmetros prosdicos (valor del pitch, duracin del fonema, etc.) para
generar voz sinttica de calidad inteligible. El algoritmo para obtener la voz sinttica no
est especificado en el estndar, slo se define el interfaz de entrada. Adems se incluyen
las siguientes funcionalidades [Koenen02]:
Sntesis de audio usando los parmetros prosdicos de la voz original.
Funcionalidades como pausa, espera, salto hacia delante o hacia atrs.
Soporte para lenguajes internacionales y dialectos.
Smbolos internacionales para fonemas.
Especificacin de la edad, gnero y velocidad de habla del hablante.
Especificacin de parmetros asociados a animacin facial FAP (Facial Animation
Parameter).
Audio sinttico En relacin a la generacin de sonidos sintticos, MPEG-4 audio define decodificadores para sintetizar audio basados en varias clases de entradas estructuradas. Estos
decodificadores hacen uso de un lenguaje de sntesis especial llamado SAOL (Structured
Audio Orchestra Language) para generar msica sinttica. MPEG-4 no estandariza un
nico mtodo de sntesis musical, sino que describe varios mtodos de sntesis. Cualquier
mtodo actual o futuro de sntesis puede ser descrito en SAOL.
Audio MPEG-4 utiliza AAC para la codificacin de audio de banda ancha. Sin embargo, se han
definido nuevas funcionalidades con el objetivo de conseguir una seal codificada de alta
calidad a muy bajo rgimen binario, por debajo de los 64 Kbits/s por canal del diseo original de AAC. El resultado de la inclusin de estas nuevas herramientas permite una nueva
propiedad en la codificacin de audio, la escalabilidad, es decir, la capacidad de producir
representaciones de la seal codificada con un rgimen binario escalable. Es importante
resear, que esto significa que es posible decodificar subconjuntos de los datos codificados,
o eliminar partes del mismo, durante la transmisin sin necesidad de volver a codificar la
seal. As, dependiendo de las caractersticas particulares de la conexin, un terminal puede
recibir slo subconjuntos de los datos de entrada y ser capaz de decodificar una seal de
buena calidad. Las nuevas tcnicas incluidas en MPEG-4 que permiten escalabilidad son:
Long Term Predictor (LTP): Esta herramienta se ha incluido para evitar la alta complejidad computacional del predictor definido originalmente en MPEG-2 AAC, aunque
consigue una ganancia de codificacin similar. Como en un codificador de voz, el predictor LTP se implementa en el dominio del tiempo antes del banco de filtros basados
en la transformada de coseno MDCT. La seal resultado del predictor se resta a la
original en el dominio de la frecuencia permitiendo de esta forma la aplicacin de esta
herramienta slo en las bandas seleccionadas.
Perceptual Noise Substitution (PNS): Esta herramienta realiza la sustitucin de algunas bandas de frecuencia por ruido aleatorio. La tcnica se basa en la propiedad
34
35
Internet
ISDN
4 6 8 10 12 14 16
24
32
48
64
Codificador escalable
TTS
Codificacin de voz
Codificacin de audio
4 kHz
8 kHz
20 kHz
36
Perception
Model
Audio
Signal
Model Based
Decomposition
Parameter
Estimation
Parameter
Coding
Harmonic
Components
Quant
Sinusoidal
Components
Quant
Noise
Components
Quant
selection of
relevant
components
Mux
Bit
Stream
37
Noise
Stereo parameters
(0.5 - 7 kbit/s)
Bit-stream
Sinusoids
Multiplexer
Stereo
cues
Mono
PCM
stereo input
Transients
Perceptual quantization
Parametric encoder
Codificacin de audio sin prdidas. Esta nueva herramienta, a diferencia de las dos anteriores centradas en la reduccin del rgimen binario, se orienta hacia las aplicaciones de alta
calidad. Este codificador sin prdidas de MPEG-4 (conocido como MPEG-4 ALS, Audio
Lossless Coding) tiene las siguientes caractersticas:
1. Recuperacin sin prdidas de seales de audio PCM con frecuencias de muestreo
comprendidas desde 44,1 KHz hasta 192 KHz, y un nmero de bits por muestra de
16, 20 y 24 bits.
2. Mejora en eficiencia de compresin con respecto a cualquier algoritmo conocido hasta
el momento.
3. Proporciona facilidades de edicin, manipulacin y acceso aleatorio al audio comprimido.
El esquema de codificacin para prediccin, que es el corazn del codificador sin prdidas,
est basado en el propuesto por la empresa RealNetworks en [Quackenbush03]. Sin embargo,
el codificador ALS, con el predictor anterior incluido, fue finalmente estandarizado en 2004
a partir de una propuesta de la Universidad Tcnica de Berln [Liebchen04].
38
2.7.
Calidad perceptual
Un codificador de audio obtiene una buena calidad perceptual cuando la seal codificada es
prcticamente indistinguible al escucharla con respecto a la seal original. Esta situacin ideal
se puede obtener fcilmente si el diseo del codificador atiende a principios perceptuales y, a
su vez, se dispone del rgimen binario suficiente para poder codificar la seal con los bits que
necesita. Sin embargo, esta situacin ideal no se puede alcanzar en ciertas aplicaciones donde el
ancho de banda disponible es reducido. En estas situaciones es til poder obtener una medida de
la calidad perceptual para saber qu codificador de audio se adapta mejor al requisito de ancho
de banda.
La medida de la calidad perceptual se puede realizar mediante dos enfoques radicalmente
diferentes. Por un lado, se puede realizar una evaluacin objetiva de la calidad. Sin embargo, las
medidas objetivas fciles de implementar, como por ejemplo la relacin seal a ruido, no ofrecen
una idea de la calidad real que obtiene un codificador basado en principios perceptuales. Es
verdad que existen enfoques, como por ejemplo [ITU-R01b], para la implementacin de medidas
objetivas, pero la implementacin de estas recomendaciones es bastante complicada. Adems,
las medidas objetivas son difcilmente aplicables cuando las degradaciones presentes en la seal
codificada son medias o grandes. Por otro lado, la evaluacin subjetiva, basada en la opinin
de personas que escuchan la seal codificada, puede llegar a ser bastante dispar en funcin del
grupo de oyentes seleccionados, pero tiene la ventaja de poder realizarse sin ms medios que el
mismo grupo de oyentes.
Para realizar la medida subjetiva de la calidad es bastante crtico elegir el mtodo a utilizar
en funcin de la calidad perceptual del codificador. As, para codificadores que introducen leves
degradaciones en la seal la escala MOS es la ms utilizada en la bibliografa. Se engloban aqu
la mayora de los codificadores por transformada a medio-alto rgimen binario de funcionamiento. Sin embargo, cuando el codificador introduce mayores degradaciones en la seal de audio
codificada se suele utilizar el mtodo MUSHRA para medir la calidad perceptual. Esto sucede
en la mayora de los codificadores paramtricos y en los codificadores por transformada a bajo
rgimen binario. Para ambos mtodos existen recomendaciones del ITU-R que explican de forma
detallada cmo realizar las pruebas subjetivas con el fin de obtener unos resultados comparables
entre diferentes pruebas de audicin.
2.7.1.
La escala MOS
39
NOTA
5.0
4.0
3.0
2.0
1.0
40
41
Suzanne Vega
German male speech
English female speech
Harpsichord
Castanets
Pitch pipe
Bagpipes
Glockenspiel
Plucked strings
Trumpet solo
Orchestra piece
Contemporary pop
para evaluar todos los sistemas bajo todas las condiciones. En consecuencia, debe encontrarse
para cada sistema probado en cada experimento, el material de programa crtico apropiado.
Sin embargo, son de uso comn en la actualidad ciertas bases de datos propuestas por varios
organismos. Es especialmente usada la propuesta por la EBU (European Broadcasting Union)
para el aseguramiento de la calidad en sistemas de audio [Waters98], recopiladas en el cd EBUSQAM. Las seales propuestas en esta base de datos para medir la calidad de codificadores de
audio son 12 seales y se subdividen en 4 grupos cada uno de 3 seales:
es Seales vocales, ya sean habladas o cantadas.
si Seales de un slo instrumento interpretando notas aisladas (single tone).
sm Seales de un slo instrumento interpretando una meloda (melodious phrase).
sc Seales ms complejas. Estas tres seales son una trompeta tocando una meloda, un pieza
de orquesta y una seal de pop actual.
Las 12 seales se detallan en la tabla 2.2.
Anlisis estadstico
El objeto fundamental del anlisis estadstico de los resultados de prueba es identificar con
exactitud la calidad de funcionamiento media de cada uno de los sistemas sometidos a prueba
y la fiabilidad de cualquier diferencia entre los valores obtenidos. Este ltimo aspecto obliga
a efectuar una estimacin de la variabilidad o varianza de los resultados. Se recomienda, en
condiciones normales, usar del modelo de anlisis de varianza (ANOVA). Para realizar un estudio
estadstico en detalle habra que considerar otros mtodos de anlisis, como por ejemplo los no
paramtricos.
42
43
Conclusiones extradas
2.7.2.
El mtodo MUSHRA
44
Figura 2.18: Los cinco intervalos de la escala continua (CQS) de medida usada en el mtodo MUSHRA.
Figura 2.19: El interfaz de usuario del programa SEAQ para realizar el test MUSHRA.
2.8. CONCLUSIONES
45
Durante cada intento, el evaluador puede seleccionar cada estmulo en el orden que quiera. A
continuacin, debe puntuar la calidad de todos los estmulos de cada intento. El resultado de
cada estmulo en todos los intentos y sesiones es el valor de calidad que proporciona el mtodo
MUSHRA, por lo que estar entre 0 y 100. Este procedimiento se puede realizar sin que una
persona deba controlar el test. As, en la figura 2.19 se incluye una ilustracin de un programa
usado para realizar el mtodo MUSHRA. El programa conocido como SEAQ, y desarrollado por
el centro de investigacin de comunicaciones (CRC) de Ottawa, ofrece la posibilidad de elegir
entre varios estmulos (de A a H en la figura), que incluyen la referencia, la(s) seal(es) de
prueba y la(s) seal(es) codificada(s). En cada intento, las seales a evaluar son asignadas de
forma aleatoria a cada estmulo. Para obtener unos resultados satisfactorios, los oyentes deben ser
sujetos con conocimiento de los tipos de artefactos ms crticos en las seales de audio. De hecho,
el test debe ser precedido de una fase de entrenamiento donde cada evaluador se acostumbre a las
seales de test y a los artefactos de codificacin. Aunque ahora este procedimiento de seleccin
y entrenamiento de oyentes no es tan crtico como en el test MOS, puesto que las seales son de
peor calidad y, por tanto, las degradaciones son ms fcilmente detectables cuando se presentan
los resultados, los valores medios se deben acompaar de sus correspondientes intervalos de
confianza que informen de la varianza de los resultados.
2.8.
Conclusiones
En este primer captulo se ha presentado un breve resumen del estado actual del arte en
codificacin perceptual de audio. Se han revisado los conceptos bsicos necesarios para entender
el funcionamiento de los sistemas reales y se han descrito las caractersticas ms destacadas
de los diferentes estndares ISO/MPEG audio. Adems, puesto que en esta tesis doctoral se
propone un esquema de codificacin basado en una descomposicin paramtrica del audio, en la
parte de revisin de conocimientos se va a incluir un captulo completo para revisar el estado
del arte en relacin a la codificacin paramtrica de audio. En este captulo se explicarn las
tcnicas de modelado de tonos, transitorios y ruido, as como las propuestas de codificadores con
herramientas paramtricas encontradas en la bibliografa.
Para concluir este tema es preciso indicar que la codificacin perceptual de audio es un
tema an candente debido a la necesidad de nuevas aplicaciones de codificacin, como son la
codificacin escalable por internet o la codificacin a bajo rgimen binario por redes de telefona
mvil. Adems, las herramientas que se desarrollen para conseguir la compresin de seal bajo
estas circunstancias, al tratarse de modelos de seal paramtricos, se pueden utilizar en un
amplio conjunto de aplicaciones diferentes. En este sentido, los parmetros de los modelos se
pueden utilizar en un futuro para la clasificacin de audio en base a contenido, o incluso, para
la separacin de fuentes.
46
Captulo 3
48
Distorsin
perceptual
Codificacin
paramtrica
Codificacin de
forma de onda
24
Figura 3.1: Tendencia de la distorsin perceptual en funcin del rgimen binario para codificadores de
forma de onda y paramtricos.
en el sentido de que puede ser la herramienta ptima para la codificacin de audio a bajo
rgimen binario. Sin embargo, el principal inconveniente radica en que, tanto para HILN como
en los dems codificadores paramtricos, un incremento en rgimen binario no se traduce en el
consiguiente incremento en calidad de audio. La figura 3.1 compara la calidad de audio obtenida
en funcin del rgimen binario tanto para codificacin paramtrica como para codificacin de
forma de onda. Como se puede observar, la codificacin paramtrica supera en calidad a la
codificacin de forma de onda a bajo rgimen binario. Sin embargo, si se quiere conseguir calidad
de audio trasparente, con un alto rgimen binario, hay que usar codificadores de forma de onda.
Este hecho es el responsable de la combinacin de HILN con codificacin de forma de onda
a alto rgimen binario, resultando un codificador hbrido [Edler98]. Otro inconveniente de los
codificadores paramtricos se produce en la codificacin de voz, donde la calidad conseguida
por los codificadores de voz para el mismo rgimen binario es mayor. As, con la intencin de
mejorar esta situacin se ha usado el codificador HILN en combinacin con codificadores de voz
paramtricos (vocoders) [Edler98].
Un codificador paramtrico de audio necesita utilizar modelos de seal que extraigan las
caractersticas de las diferentes componentes que conforman en la seal de audio. La seal de
audio se descompone, de forma general, en tres componentes:
Tonos La componente tonal modela los elementos casi-estacionarios de la seal de audio. De
las tres componentes de la seal de audio, los tonos es la componente dominante, porque
requiere un mayor rgimen binario, adems de tener una fuerte contribucin en la calidad
final de la seal codificada. Los tonos se identifican como picos en la amplitud de la transformada de Fourier siendo, por tanto, sinusoides de lenta variacin en el tiempo, conocidas
en la literatura como parciales (del ingls partials). Una sinusoide (o tono) se parametriza
mediante su amplitud, fase y frecuencia. La componente sinusoidal de la seal de audio son
un conjunto de tonos con sus respectivos parmetros. Estos tonos pueden estar armnicamente relacionados en frecuencia, siendo entonces mltiplos de una frecuencia fundamental
(o pitch). La componente sinusoidal del audio se debe principalmente a voz sonora y a
msica instrumental.
49
Los primeros indicios de modelado tonal en la literatura aparecieron asociados a los codificadores de voz que dividen la seal en una parte determinstica y otra estocstica. El
modelo determinstico es, bsicamente, un modelo tonal como aparece en el vocoder de fase
[Flanagan66]. Sin embargo, quizs el esquema tonal ms usado posteriormente para codificadores de audio es el modelo presentado en [Mcaulay86], ideado en un primer momento
slo para seal de voz. En este modelo los tonos se detectan y extraen en cada trama de la
seal de audio, por lo que antes es necesario segmentar la seal. Una vez que los tonos son
detectados y extrados de la seal, se puede conseguir una ganancia de codificacin importante, agrupando los tonos entre tramas adyacentes para formar trayectorias tonales que
duren ms all de una trama, llamadas caminos tonales (del ingls tracks). Cada camino
tonal se caracteriza por la variacin en el tiempo de la amplitud, frecuencia y fase del tono
modelizado. Otro modelo para seal de voz que incluye tambin una seal estocstica es el
vocoder de excitacin multi-banda (Multi-Band Excitation, MBE) [Griffin88]. En el caso
de la seal de audio, el modelo determinista de [Mcaulay86] se ha utilizado completndolo
con un modelo estocstico en [Serra89]. Sin embargo, algunas seales de audio contienen
ataques (por ejemplo, el sonido producido por una castauela), que no puede representarse
con un modelo tan sencillo.
Posteriormente, y centrndose en la seal de audio, se han utilizado diferentes estrategias
para identificar y obtener los tonos. Un enfoque usado con asinuidad es el empleo del
algoritmo matching pursuits [Mallat93], que extrae en cada iteracin el tono ms correlado
con la seal. Este mtodo se ha extendido, incluso para que tenga en cuenta informacin
perceptual en el clculo de la correlacin, de forma que extraiga en cada iteracin el tono
ms importante perceptualmente [Heusdens02]. Otro enfoque aplicado [Myburg04] se centra
en la reduccin del coste computacional, determinando de una vez todos los tonos, como
en [Mcaulay86], evitando as un algoritmo iterativo. Por otro lado, se ha explotado la
redundancia de la informacin de cada camino tonal aplicando codificacin diferencial
para las amplitudes y frecuencias de los tonos, explotando de esta forma su caracterstica
casi-estacionaria [Purnhagen00] [Brinker02] [Levine98] [Verma99]. En la prctica, la fase
no se suele enviar en un codificador paramtrico, en su lugar el decodificador estima la fase
para que la onda de la seal decodificada sea continua. Sin embargo, este esquema conduce
a una seal decodificada poco natural [Levine98].
Transitorios La componente transitoria se refiere a los eventos no estacionarios de la seal
de audio que se presentan tpicamente en breves periodos de tiempo. La envolvente de
un transitorio se caracteriza normalmente por un rpido incremento de la energa de la
seal seguido de una cada de forma exponencial. Un buen modelo de parametrizacin de
transitorios debe evitar que la energa del mismo se disperse y se produzca un pre-eco en
la seal de audio decodificada. El sonido producido por un golpe de castauela es un buen
ejemplo de transitorio en la seal de audio.
La componente transitoria de la seal de audio debe ser tratada independientemente para
conseguir una calidad de audio aceptable en las seales donde se presenta. Adems, los
transitorios son eventos poco frecuentes, por lo que el rgimen binario necesario para su
transmisin es bastante bajo, ya que la codificacin de transitorios se habilita slo cuando se
detecta un transitorio. Se han propuesto varios modelos para la codificacin de transitorios
50
Ruido La seal ruidosa se obtiene a partir del residuo que resulta de restar la seal original
a la suma de la componente sinusoidal ms la transitoria. La necesidad de conseguir un
rgimen binario bajo no permite la codificacin de la forma de onda del residuo que dejan
el modelo tonal y transitorio. En su lugar, se incluye un modelo de ruido que captura las
caractersticas esenciales del residuo. Esta seal residual tiene caractersticas estocsticas,
por lo que se parametriza su envolvente tanto espectral como temporal y su potencia.
En el decodificador, se genera un ruido sinttico con la misma potencia que el residuo
del codificador para, posteriormente, adaptar mediante filtrado su envolvente espectral y
temporal.
Por lo tanto, el modelo de ruido acepta la suposicin de que el ruido es un proceso estocstico [Purnhagen00] [Brinker02] [Levine98] [Verma99]. La resolucin, tanto temporal
como espectral, que necesita el modelo de ruido para conseguir una seal de alta calidad
perceptual debe tener en cuenta el sistema auditivo humano. Los mtodos usados en la
bibliografa tienen dos vertientes. Por un lado, una implementacin mediante bancos de
filtros [Goodwin97], y por otro, una implementacin paramtrica basada en prediccin lineal [Purnhagen00] [Serra97] [Brinker00]. La contribucin de la componente de ruido en la
calidad total de audio es de gran importancia, slo detrs de la componente tonal. Si bien,
ambos modelos deben estar bien sintonizados para poder obtener una seal decodificada
de alta calidad. A grandes regmenes binarios, cuando se quiere conseguir una seal codificada de audio de calidad trasparente, es necesario codificar la forma de onda del residuo
implementando un codificador hbrido [Edler98].
En la literatura aparecen varios ejemplos donde se utilizan los modelos sinusoidal y de transitorios, as como un modelo de ruido para el residuo correspondiente, con el objetivo de realizar una
codificacin paramtrica del audio. Esta codificacin se conoce con el nombre de codificacin STN
(del ingls Sines, Transients plus Noise). En [Levine98], se aplica un modelo sinusoidal seguido
de un modelo de residuo en los segmentos estacionarios de seal, mientras que en los transitorios
se aplica codificacin por transformada. En el caso del codificador HILN, se implementa una
etapa inicial de anlisis para detectar los transitorios, con el fin de modelizar su envolvente y
reducir el tamao de la trama [Edler96]. En cualquier caso, se aplica posteriormente un modelo tonal seguido de uno estocstico. En [Ali95], primero se aplica un modelo sinusoidal y tras
extraer esta componente de seal, se analiza la componente transitoria. Bsicamente, se aplica
una transformada wavelet. En el caso de que una banda determinada tenga o no caractersticas
estocsticas, se modela como ruido o se codifica directamente su forma de onda, respectivamente.
Alternativamente, tanto en [Verma00] como en el codificador PPC [Brinker02], se aplica primero
el modelo de transitorios. La razn de este cambio hay que buscarla en que el modelado sinusoidal
51
extrae muchos tonos cuando se aplica sobre una seal no estacionaria, de forma que si se aplica
primero el modelo de transitorios se soluciona este inconveniente. A continuacin, se repasan
algunas de las tcnicas ms utilizadas para modelizar cada una de las componentes de audio.
3.1.
Modelado sinusoidal
El modelo sinusoidal clsico [Mcaulay86] representa la seal de audio x[n] como la suma de
un conjunto de K sinusoides con frecuencias, fases y amplitudes variantes en el tiempo:
x[n] x
[n] =
K
X
k=1
(3.1)
donde Ak [n], k [n] y k [n] representan la amplitud, frecuencia y fase del k-simo tono, respectivamente. En general, el comportamiento dinmico de la seal de audio se modeliza de
forma correcta reconstruyendo la seal a partir de estos parmetros, asumiendo incluso que la
amplitud Ak [n] y frecuencia k [n] del parcial k vara lentamente a lo largo del tiempo. Si se limita
esta variacin, la seal de audio se analiza segmentando la seal en tramas donde las amplitudes
y frecuencias de los tonos son constantes. Por lo tanto, dentro de una trama (o segmento), la
amplitud es constante Ak , y el argumento del coseno en la ecuacin 3.1 es un polinomio lineal
k n + k .
Para obtener los parmetros descritos que representan la componente tonal de la seal, el
mecanismo ms directo se basa en la identificacin de picos espectrales en el espectro de amplitud
de una trama enventanada obtenido mediante la transformada discreta de Fourier (Discrete
Fourier Transform, DFT). La muestra de la DFT donde el espectro de amplitud es un mximo
local proporciona una estimacin de la frecuencia de un tono presente en la seal, y su valor
complejo de la amplitud y fase del mismo. Sin embargo, este esquema tan sencillo debe ser
completado con algoritmos que permitan discriminar si un mximo local coincide o no con un tono
importante de la seal. Estos algoritmos suelen tomar como informacin la forma del espectro
cerca del mximo, o bien, la predictibilidad (lo contrario de imprecibilidad) en frecuencia de
la seal a lo largo del tiempo. Por ejemplo, la definicin espectral en [Serra89] se basa en el
nivel en dB del pico espectral en relacin a las muestras cercanas de la DFT, con el objetivo
de comprobar si coinciden con la transformada de la ventana utilizada. Sin embargo, siguiendo
esta definicin se pueden extraer tonos no-estacionarios que no formen trayectorias, sino que
representen caractersticas aisladas de la seal. Para solucionar este inconveniente, el clculo de
la predictibilidad de la frecuencia del tono, mediante la seal en tramas adyacentes, mejora la
estimacin. En cualquier caso, como se ver posteriormente, se han presentado en la literatura
un nmero amplio de algoritmos para mejorar la extraccin tonal.
Los parmetros de cada tono (amplitud, fase y frecuencia) deben ser codificados para la compresin de la seal de audio. En este sentido, se consigue una ganancia de codificacin significativa
si se aplica un esquema de codificacin diferencial para las amplitudes y frecuencias de los tonos
entre las diferentes tramas. La explicacin de este hecho hay que buscarla en que muchos tonos
se repiten de un segmento al siguiente, debido a que describen la componente estacionaria de la
seal de audio. Como consecuencia, un mtodo de agrupamiento de tonos para conseguir una
codificacin diferencial inter-trama (o codificacin diferencial en el tiempo) se present primera-
52
Leyenda:
Frecuencia
(Hz)
: Comienzo de un camino
: Continuacin de un camino
: Fin de un camino
: Unin
i 1 i i +1
Trama
3.1.1.
Para realizar un diseo apropiado de los parmetros del modelo sinusoidal, es necesario
realizar una revisin del modelo auditivo del odo humano. Por un lado, es imprescindible tener
en cuenta al segmentar la seal de audio la resolucin temporal que tiene el odo. Por otro,
es necesario parametrizar las frecuencias de los tonos con la aproximacin suficiente, adaptada
a la percepcin humana, para conseguir una buena calidad del modelo. Incluso, es interesante
realizar una extraccin tonal guiada perceptualmente, hasta el punto de conseguir extraer todas
las sinusoides percibidas por el odo, siendo necesario para este propsito el clculo del umbral
53
54
1.5
amplitud
de seal
x 10
1.5
x 10
1.5
0.5
0.5
0.5
0.5
0.5
0.5
1
0.05
0
(a) tiempo
0.05
(segundos)
1
0.02
0
(b)
tiempo
0.02
1
5
80
80
80
60
60
60
40
40
40
amplitud
logartmica 20
(dB)
20
20
20
20
20
40
40
x 10
40
5
0
(c) tiempo x 103
Figura 3.3: Evolucin de la resolucin espectral y temporal con el tamao de trama de anlisis. Las
seales en el tiempo se presentan en los apartados (a), (b) y (c), donde se reduce la duracin de la
trama. Sus correspondientes espectros de amplitud en dB mediante la DFT de la seal enventanada con
la ventana de Hanning se presenta en los apartados (d), (e) y (f ), respectivamente.
55
por un banco de filtros paso banda. Este banco de filtros tiene la caracterstica propia de tener
anchos de banda pequeos en baja frecuencia, que se incrementan en frecuencia. Los anchos de
banda de este banco de filtros auditivo se aproximan con la escala de Bark (de Barkhausen)
[Zwicker90], o escalas similares de carcter logartmico [Glasberg90], y se conocen como bandas
crticas. En el odo interno se compone la seal de salida de las bandas crticas, por lo que si dos
tonos estn en la misma banda crtica el odo humano tendr menor capacidad de distinguirlos
que si estn en bandas crticas diferentes. Como conclusin, la discriminacin en frecuencia del
odo es mucho mayor en baja frecuencia y depende de la escala de Bark.
Como cualquier analizador tiempo-frecuencia, el odo tiene una mayor discriminacin temporal donde su discriminacin espectral es menor. Como consecuencia, la resolucin temporal del
odo es mucho mejor en alta frecuencia [Zwicker90]. Este hecho sugiere la necesidad del empleo
de un anlisis con mltiples escalas temporales en funcin de la frecuencia para adaptarse a
las caractersticas del odo humano, anlisis que se conoce como anlisis multi-resolucin. En la
prctica, se suelen utilizar tramas de larga duracin en el tiempo para las bajas frecuencias y
de corta duracin para las altas frecuencias en la mayora de los codificadores paramtricos de
audio [Brinker02] [Levine98] [Verma99] [Goodwin97] (aproximando la resolucin que se obtiene
con un banco de filtros wavelet). En la mayora de los casos, slo se utilizan dos o tres escalas
diferentes por simplicidad. Las ventajas del anlisis multi-resolucin se aprecian en la figura 3.4,
donde se analiza el sonido de una gaita. En esta figura, se presenta la seal en el tiempo, centrada
en t = 0, con diferentes tamaos de trama: (a) 10ms y (b) 80ms. El espectro de amplitud en
dB, aplicando la DFT con ventana de Hanning, se presenta respectivamente en las grficas (c)
y (d). La frecuencia fundamental de la componente tonal se sita aproximadamente en 640Hz,
pero slo se observa de forma clara en la grfica (d), donde el rango de frecuencias se sita de
0 a 2KHz. En la grfica (c), la corta duracin de la trama temporal no permite una visin
clara de este valor. Un estudio multi-resolucin de la seal permite, por lo tanto, un compromiso
adaptado de resolucin tiempo-frecuencia para todo el rango de frecuencias.
Pese a que en la mayora de los codificadores se realiza un anlisis multi-resolucin, las
longitudes de trama para cada escala son en general fijas, sin tener en cuenta ningn conocimiento
sobre el comportamiento local de la seal. As, la longitud de los segmentos de seal se elige
como un compromiso entre la variabilidad de la seal y la limitacin en rgimen binario. La
primera alternativa a este problema consiste en realizar una segmentacin en funcin de la
frecuencia fundamental del complejo armnico de la seal [Kleijn95] [Serra97], como se hace en
voz. Este esquema segmenta la seal de forma que se agrupan unos pocos periodos (tres o cuatro
tpicamente) de su frecuencia fundamental, con el fin de tener una resolucin espectral suficiente
para discriminar entre tonos armnicos y adaptarse a las variaciones de seal. Es posible agrupar
mayor longitud de seal si se adapta a los cambios de sta. Por ejemplo, cuando aparece un
crecimiento de la frecuencia fundamental en el tiempo (efecto chirp), se puede transformar la
seal en el eje temporal para que el periodo sea constante [Sluijter99]. Los inconvenientes que tiene
esta tcnica, muy til en seal de voz, son: hay que detectar la frecuencia fundamental de forma
exacta (lo que aade complejidad) y la seal de audio puede no tener frecuencia fundamental
(cuando el conjunto de tonos no tiene relacin armnica).
Sin embargo, se puede admitir revisando la bibliografa que una alternativa muy interesante
al anlisis multi-resolucin es la segmentacin adaptativa, que aplica una longitud variable de
la trama de anlisis [Xiong97] [Prandoni97]. La ventaja de este mecanismo radica en la posi-
56
4000
amplitud
de seal
3000
3000
2000
2000
1000
1000
1000
1000
2000
2000
3000
5
0
(a) tiempo
(segundos) x 10
80
60
3000
0.04
0.04
0.02
(segundos)
80
23
60
40
40
amplitud
logartmica 20
(dB)
20
20
20
40
0
0.02
(b) tiempo
0.5
1
1.5
(c) frecuencia (Hz)
40
500
x 10
1000
1500
(d) frecuencia (Hz)
2000
Figura 3.4: Ventajas del anlisis multi-resolucin. Una trama, centrada en t = 0, con 10ms de duracin
se presenta en el apartado (a), mientras que su espectro de amplitud en dB se dibuja en el apartado (c).
Una trama ms larga de 80ms, centrada tambin en t = 0, aparece en el apartado (b), con su espectro en
dB en (d). Se compara la discriminacin de los tres primeros armnicos en las grficas (c) y (d).
bilidad de adaptar la longitud de la trama al comportamiento local de la seal. As, las partes
estacionarias de la seal de audio se deben modelar con tramas mayores, mientras que en las
partes no estacionarias las fronteras de las tramas se tienen que adaptar para evitar artefactos
del tipo pre-eco de la seal codificada. Sin embargo, el precio a pagar es el incremento de la complejidad computacional. Mediante el uso de segmentacin adaptativa, en [Painter01] se observa
que se pueden alcanzar mejores resultados en rgimen binario que con anlisis multi-resolucin
con tramas fijas para cada escala. Es ms, se puede incluso conseguir una distorsin mnima del
modelo sinusoidal aplicando este esquema [Heusdens02b]. Como se ha observado, el principal inconveniente de la segmentacin adaptativa es su alta complejidad computacional, especialmente
si se quiere obtener un tamao de segmento ptimo. Ante la necesidad de algoritmos de baja
complejidad para conseguir segmentacin adaptativa, han aparecido en la literatura las varias
propuestas [Gonzalez01] [Ruiz02].
Umbral de enmascaramiento para la componente tonal
En codificacin paramtrica de audio, el bajo rgimen binario deseable restringe generalmente
el nmero de tonos que se pueden codificar en el modelo sinusoidal. Para obtener una seal de
audio decodificada de alta calidad, es necesario seleccionar el conjunto de tonos a transmitir
de forma que la distorsin perceptual producida sea lo menor posible. En este sentido, si la
distorsin perceptual est por debajo del umbral de enmascaramiento, se considera que sta es
inaudible, siendo la seal decodificada una copia trasparente, desde el punto de vista perceptual,
de la seal original. Sin embargo, debido al bajo rgimen binario, este resultado es demasiado
57
ambicioso en los codificadores paramtricos, por lo que se reduce a conseguir la mejor calidad
perceptual posible.
En el clculo de la distorsin perceptual de un tono determinado se tiene en cuenta el umbral
de enmascaramiento de la componente tonal. A continuacin, se presenta un resumen de las caractersticas principales del umbral de enmascaramiento para la componente tonal. Una descripcin detallada de modelos de enmascaramiento se puede encontrar en [Zwicker90], [MPEG92],
[Painter00] o [Par02]. Hasta la aparicin de los codificadores paramtricos de audio, el umbral
de enmascaramiento calculado era el de ruido, puesto que la distorsin producida en el proceso
de codificacin era el ruido de cuantificacin de alguna transformada de la forma de onda. Sin
embargo, hace tiempo que se conocen las propiedades de enmascaramiento entre tonos y entre
ruido y tonos [Zwicker90]. En general, el clculo del umbral de enmascaramiento para los tonos
sigue el mismo algoritmo que para el caso del ruido, aunque tiene caractersticas propias. Este
umbral se calcula analizando segmentos de seal enventanada en el dominio de la frecuencia. Al
igual que en el caso del ruido, hay que clasificar la seal de entrada en mscaras tonales y ruidosas, puesto que los tonos son mscaras menos efectivas que el ruido [Hawkins50] [Zwicker82].
Para realizar esta clasificacin, se puede analizar la forma del espectro de la seal en cada banda
crtica [Johnston88b], o bien calcular la predictibilidad de cada pico espectral de la transformada
[MPEG92]. Sin embargo, en el caso de un codificador paramtrico, esta distincin es directa
si se aplica antes la extraccin tonal. Tras esta separacin, se evala el enmascaramiento que
produce cada mscara mediante la funcin de dispersin (spreading en la bibliografa en ingls).
Esta funcin de dispersin se utiliza para simular el efecto del banco de filtros paso banda del
sistema auditivo humano y expresa la potencia que produce la mscara a la salida de este banco
de filtros. El umbral de enmascaramiento final se calcula sumando las potencias de cada mscara
tras la funcin de dispersin [MPEG92].
Una vez obtenida la mscara, sta se utiliza para evaluar la distorsin perceptual producida
por el proceso de codificacin. Ahora bien, para realizar este clculo correctamente, hay que tener
en cuenta algunos principios psicoacsticos. En primer lugar, para deteminar si una distorsin
es audible, hay que compararla con el umbral de enmascaramiento en toda la frecuencia, puesto
que el odo integra todas las distorsiones del banco de filtros auditivos [Langhans92] [Buus86].
Adems, el sistema auditivo humano es capaz de integrar la informacin acstica a lo largo del
tiempo, ms all de la duracin de una trama. Este tiempo se estima en unos 300ms [Brink64].
Por lo tanto, la detectabilidad de una distorsin aumenta con su duracin, lo que debe ser tenido
en cuenta por el modelo psicoacstico [Par02].
En codificacin paramtrica de audio, la importancia perceptual de un pico espectral se
evala mediante la relacin seal-a-mscara (Signal-to-Mask Ratio, SMR), que es la distancia
entre la potencia del pico espectral y la mscara a esa frecuencia [Verma99b]. Sin embargo, esta
definicin no tiene en cuenta ni la integracin de la frecuencia tras el banco de filtros auditivos,
ni la integracin temporal, ms an cuando un tono representa la parte estacionaria de la seal
de audio. Ambas cuestiones se han tenido en cuenta en algunos modelos tonales propuestos. As
en [Heusdens02], se integra sobre toda la frecuencia para calcular la importancia perceptual.
En [Levine98], se da mayor importancia perceptual a aquellas trayectorias tonales de mayor
duracin. En cualquier caso, una vez calculada la importancia perceptual de cada tono mediante
el umbral de enmascaramiento de la componente tonal, esta informacin no slo puede servir
para determinar los tonos audibles, sino que se debe tener en cuenta para clasificar los tonos
58
3.1.2.
La componente sinusoidal de la seal de audio se divide en dos sub-componentes: una armnica y otra de tonos aislados. La sub-componente armnica se incluye por dos razones. La primera
es que los sonidos armnicos ocurren de forma natural en la seal de audio, unas veces aislados
y otras en combinacin con otros sonidos. La segunda razn hay que buscarla en la reduccin de
informacin que supone la representacin de la seal en: frecuencia fundamental y nmero de armnicos. Esta representacin es muy eficiente sobre todo cuando el nmero de armnicos es alto.
Los tonos aislados se tienen que incluir para modelar los tonos que no tienen relacin armnica.
Esta clasificacin de los tonos aparece en algunos codificadores de audio [Serra97] [Purnhagen98]
[Masri96]. Sin embargo, en otros, como el codificador PPC [Brinker02], dicha clasificacin no se
tiene en cuenta, puesto que en la seal de audio puede haber ms de un complejo armnico y
esto complica sobremanera el codificador.
En teora, las frecuencias con relacin armnica son mltiplos enteros de la frecuencia fundamental f . El modelo ms simple de un complejo armnico es aquel donde las amplitudes y
frecuencias de los tonos son constantes durante la duracin de una trama:
shc [n] =
Nh
X
k=1
Ak cos k f n + k
(3.2)
Nc
X
k=1
Ak cos k n + k
(3.3)
59
frecuencia fundamental con el tiempo, lo que afecta a todo el conjunto de armnicos. Un modelo
para este efecto [Sluijter99] se basa en suponer una variacin lineal de la frecuencia fundamental
(f + 2c n), donde c es el cambio de frecuencia y n el tiempo discreto. La estimacin del
parmetro de cambio de frecuencia c se realiza aplicando modificaciones sobre el eje temporal
(time warping) [Sluijter99].
En cuanto a las propiedades no lineales de algunos instrumentos de cuerda, como el piano, el
efecto en trminos de seal corresponde a que la relacin entre la frecuencia fundamental f y
el resto de frecuencias armnicas no es un nmero entero, sobretodo para los armnicos de alta
frecuencia. Este efecto, conocido como inharmonicity en la literatura, se puede predecir para el
armnico k mediante:
kf
donde el parmetro B vale
1 + Bk 2
(3.4)
3 d4 E
(3.5)
64T L2
y depende de las caractersticas fsicas de la cuerda como: el dimetro d, el factor de Young
o elasticidad del material E, su tensin T y su longitud L [Fletcher64]. Hay varias tcnicas en
la literatura para estimar el parmetro B. En [Lattard93], se obtiene aplicando la ecuacin (3.4)
a partir de las frecuencias estimadas. En [Galembo99], se realiza una bsqueda sobre un rango
especificado de valores de B. Los mismos autores en [Askenfelt00] aplican tcnicas basadas en el
cepstrum.
Pese a este desarrollo de mecanismos para utilizar el complejo armnico, el codificador
HILN [Purnhagen98] es el nico que distingue esta sub-componente, teniendo en cuenta las
propiedades de los instrumentos de cuerda. As, la frecuencia del armnico k-simo se calcula
como ([MPEG99b, anexo A])
B=
2)
kf (1 + Bk
(3.6)
60
3.1.3.
La obtencin ptima de los parmetros de un tono (amplitud, fase y frecuencia) es un problema difcil, debido a que frecuencia y fase estn contenidas dentro del argumento de la funcin
coseno. Como se ha visto anteriormente, el empleo de la transformada de Fourier es la primera
piedra de toque en el clculo de estos parmetros. La distribucin tiempo-frecuencia que desarrolla la transformada de Fourier para una seal segmentada se conoce como STFT (Short-Time
Fourier Transform) [Cohen95]. Esta distribucin es computacionalmente eficiente gracias al algoritmo FFT, aunque su resolucin es poco flexible. As, la descomposicin se realiza con funciones
base exponenciales complejas con amplitud constante y, por tanto, estacionarias en la trama de
anlisis. Si la seal de audio es no es estacionaria en un segmento (que para este caso es similar
a decir que la amplitud o frecuencia de los tonos varen en un segmento), la descomposicin
obtenida mediante la STFT es poco til. Sin embargo, para la mayora de los segmentos de audio, la estacionareidad es suficiente para la STFT. La asignacin de tonos a los picos espectrales
de la STFT es un algoritmo directo y simple de obtencin de parmetros del modelo sinusoidal.
Sin embargo, la exactitud del modelo, sobre todo en frecuencia, est limitada por el muestreo en
frecuencia de la DFT y es insuficiente. Se necesitan algoritmos de obtencin ms robustos, especialmente desde un punto de vista psicoacstico, por lo que han aparecido en la literatura una
serie de mtodos con aplicacin a codificacin paramtrica de audio para mejorar la extraccin
tonal de la STFT. Entre estos mtodos se destacan los siguientes:
Relleno con ceros e interpolacin. Si se rellena con ceros la seal enventanada antes de
realizar la DFT, el efecto en el espectro es la interpolacin. Como resultado el mximo de
los picos espectrales se puede obtener de una forma ms aproximada, lo que redunda en
una estimacin de frecuencia ms exacta. [Serra97].
Derivada de la seal. La aplicacin de la derivada de la seal para obtener una frecuencia
ms aproximada se realiza en [Desainte00].
Anlisis de la distorsin de fase. La forma de la fase del espectro en las zonas prximas a
un pico espectral permite estimar si el tono tiene una amplitud exponencial. Tambin es
posible determinar si se produce un cambio de frecuencia del tono durante la trama de
anlisis [Masri96] [Masri98].
Optimizacin no lineal restringida. En [Hamdy99] se formula un problema de optimizacin
no lineal con bsqueda limitada de soluciones. La funcin de coste a minimizar propuesta
es similar a
c = k(x[n] smodelo [n]) w[n]k2
(3.7)
donde x[n] es la seal original en la trama actual de tamao Ns , smodelo [n] es la seal
sinttica obtenida mediante los parmetros del modelo tonal y w[n] es la ventana utilizada.
61
Bs
Bs
< k,mejorada < k,inicial +
2
2
(3.8)
2
es la separacin de las muestras del espectro de la DFT en rad/s, k,inicial es
donde Bs = N
s
la estimacin inicial de la frecuencia, y k,mejorada la estimacin mejorada de la frecuencia.
Tambin se restringen las amplitudes de una manera similar. La soluciones aportadas por
este planteamiento conducen a una deteccin considerablemente exacta de los parmetros
de frecuencia y amplitud de cada tono.
Optimizacin por el mtodo de Gauss-Newton. En [Depalle97] se utiliza el mtodo numrico de Gauss-Newton para obtener una estimacin ms aproximada de frecuencia y fase. El
modelo usado es el ms sencillo, puesto que tanto frecuencia como amplitud son constantes
en la trama de anlisis. Los resultados obtenidos manifiestan una alta sensibilidad a la
forma de la ventana, por lo que se necesita el uso de ventanas sin lbulos laterales. En el
proceso iterativo de optimizacin los tonos muy prximos en frecuencia se llegan a fusionar
en uno solo.
Mtodo de Newton. En [Vos99] se realiza una bsqueda de soluciones ptimas haciendo uso
del gradiente o mtodo de Newton para mejorar la deteccin inicial de la DFT. Este mtodo
se ha extendido, permitiendo amplitudes exponenciales de los tonos en [Heusdens00].
Anlisis de la fase. El anlisis de la fase de la transformada como un polinomio de la forma
k [n] = k + k n + k n2 permite la deteccin bastante exacta de la frecuencia k y del
cambio de frecuencia k . La primera propuesta que aparece en la bibliografa [Tretter85]
tiene el inconveniente de tener que obtener una funcin de fase lineal (unwrapping). Este
inconveniente es evitado en [Kay89] mediante el uso de datos de fase diferenciales, por lo
que esta tcnica se ha incluido con xito en codificadores paramtricos de audio [Edler96].
Algoritmo matching pursuits. Este es uno de los mtodos ms utilizados en codificacin
paramtrica de audio. El origen de este enfoque hay que buscarlo en el empleo de descomposiciones atmicas, que se tratar con detenimiento en el prximo captulo. Bsicamente,
la idea es descomponer la seal enventanada en un conjunto de funciones que pertenecen
a un diccionario. Este diccionario debe tener un conjunto amplio de funciones, es decir,
debe ser sobre-completo. La ventaja que permite el empleo de un diccionario de estas caractersticas es la de descomponer la seal en slo unas pocas funciones (con el objetivo de
comprimir al mximo la seal). El algoritmo ms utilizado para realizar la descomposicin
es matching pursuits [Mallat93]. Este es un algoritmo iterativo que en cada iteracin elige,
para el caso del modelo sinusoidal, el tono ms correlado con la seal, es decir, aquel tono
que extrae ms energa de la seal. La principal ventaja del algoritmo matching pursuits
radica en que no se extraen picos espectrales debidos a lbulos laterales [Myburg04]. Sin
embargo, como inconveniente, es destacable que si se produce una extraccin errnea de
un tono, esta decisin puede afectar a otros tonos extrados posteriormente. Este algoritmo
ha sido extendido incluyendo informacin psicoacstica con el objetivo de extraer en cada
iteracin el tono ms importante perceptualmente [Verma99b] [Heusdens02b].
62
Estimacin por mxima semejanza. Este enfoque ha surgido en la literatura para otras aplicaciones; en concreto, para usos geofsicos. En esta tcnica se emplea un conjunto de ventanas ortogonales, llamadas ventanas discretas esferoidales, y usa adems el test estadstico
F-test para decidir si un tono existe en una frecuencia particular [Thomson82]. El test estadstico ayuda a la discriminacin entre picos espectrales y lbulos secundarios puesto que
da valores altos en el primer caso.
Minimizacin por mnimos cuadrados. Esta tcnica est diseada expresamente para reducir la complejidad, con el objetivo de evitar una bsqueda iterativa demasiado costosa
en ocasiones para la codificacin en tiempo real. Por lo tanto, se extraen todos los tonos
se forma simultnea, directamente a partir de los picos espectrales [Mcaulay86]. Posteriormente, en lugar de elegir los parmetros de amplitud y fase directamente del espectro,
se resuelve un conjunto de ecuaciones lineales que minimizan por el mtodo de mnimos
cuadrados el error entre la seal original y la obtenida por el modelo [George87]. La ventaja
de este enfoque es que no hay propagacin del error. Sin embargo, se pueden identificar
como tonos picos espectrales debidos a los lbulos laterales de la ventana de anlisis.
Otras distribuciones tiempo-frecuencia. Como se ha visto, el empleo de la STFT tiene
una serie de dificultades, siendo la principal de ellas que no est pensada para que la
frecuencia del tono cambie durante una trama. Por esta causa, han surgido en la literatura
una serie de distribuciones adaptadas al carcter no estacionario de la seal y que ofrecen
otras resoluciones tiempo-frecuencia. Cuando la seal de entrada tiene un nico tono, la
distribucin mejor adaptada para estima un cambio de frecuencia lineal es la distribucin de
Wigner (WD) [Cohen95]. Ahora bien, cuando hay varios tonos en la seal, esta distribucin
no es viable porque surgen productos cruzados en el plano tiempo-frecuencia. Como solucin
a este problema se pueden emplear las clases de Cohen, las cuales proporcionan un conjunto
de distribuciones tiempo-frecuencia [Cohen95]. El clculo de la transformada de Fourier
sobre un plano tiempo-frecuencia con una distribucin de este tipo permite la extraccin
de los parmetros tonales. Esta transformada se conoce como la funcin de ambigedad
(AF) para la distribucin de Wigner [Peleg91] o funcin de ambigedad de orden elevado
(HAF) para las distribuciones de Cohen. An calculando la funcin HAF, se producen
algunos trminos cruzados entre los tonos, por lo que en [Barbarossa98] se presenta una
modificacin llamada funcin ambigedad de orden elevado mediante producto (PHAF)
que suprime estos trminos. El nico problema residente con la funcin PHAF aparece
cuando las amplitudes de los tonos tienen un rango dinmico amplio. Un algoritmo iterativo
apropiado en codificacin paramtrica de audio que hace uso de estas tcnicas aparece en
[Ikram01]. Este algoritmo, al igual que matching pursuits, extrae en cada iteracin el tono
con mayor peso, aunque en la funcin PHAF en este caso, por lo que tiene el mismo
problema de propagacin de error.
A la vista de la revisin de mtodos realizada, se puede concluir que hay un gran nmero
de opciones a la hora de elegir el mtodo a utilizar en un codificador paramtrico de audio. Si
bien los mejores resultados subjetivos se han conseguido con el algoritmo matching pursuits con
adaptacin psicoacstica [Heusdens02b], ste tiene una complejidad demasiado elevada para su
63
implementacin en tiempo real. Las diferentes opciones elegidas por los codificadores paramtricos de audio propuestos en la bibliografa se comentarn posteriormente.
3.2.
Modelado de transitorios
3.2.1.
Como se ha visto anteriormente, el modelo sinusoidal extrae las componentes tonales que
tienen una lenta variacin en el tiempo, dejando como residuo aquellas componentes de seal
que no cumplen con esta premisa, como son las componentes transitoria y ruidosa de la seal
[George87][Serra89]. En cualquier caso, extrayendo un gran nmero de tonos mediante el modelado sinusoidal, es posible obtener las otras componentes, como hace la Transformada de Fourier,
aunque no es la manera ms eficiente, puesto que para representar un transitorio, corto en el
tiempo, con tonos de larga duracin se necesitan un gran nmero de frecuencias. En [George87]
el modelado sinusoidal est pensado para aplicarlo sobre la seal de voz. En este caso, el residuo
formado por transitorios y ruido es normalmente enmascarado por la componente tonal de la
seal en los segmentos sonoros de sta. Sin embargo, en aplicaciones de seal de audio de alta
calidad este residuo es necesario para la integridad perceptual de la seal. Codificadores posteriores [Serra89], diseados para seal de audio, incluyen un modelo explcito para el residuo.
Este modelo es tan simple como un ruido blando filtrado en tiempo y frecuencia a partir de
las caractersticas del residuo. Sin embargo, esta tcnica no se ajusta a las caractersticas de la
componente transitoria de la seal, lo que produce que los ataques se dispersen en el tiempo y
se perciban como una seal ruidosa. Por lo tanto, debido a que los transitorios no se pueden
modelar con alta calidad y de forma eficiente con los modelos sinusoidal y de ruido, es necesario
la inclusin de un modelo de transitorios que maneje de forma independiente esta componente
de la seal de audio.
3.2.2.
64
65
66
Distorsin
perceptual
Tonos
Tonos y ruido
16
24
64
Rgimen binario (kbits/s)
Figura 3.5: Esbozo de la distorsin perceptual en relacin al rgimen binario cuando se utiliza slo el
modelado sinusoidal o el modelado sinusoidal ms un modelo de ruido.
3.3.
Modelado de ruido
Como se ha visto anteriormente, un segmento estacionario de la seal de audio se puede descomponer en un conjunto de tonos mediante la aplicacin del modelado sinusoidal. Sin embargo,
por muchos tonos que se incluyan en la descripcin de la seal la calidad obtenida no es satisfactoria sin la inclusin de un modelo de ruido. La explicacin de este hecho hay que buscarla en
que tanto la componente sinusoidal como el ruido son dos entidades fundamentales en el campo
de la percepcin. Por ejemplo, el sonido producido por una flauta contiene estos dos elementos.
Por un lado hay un conjunto de tonos relacionados armnicamente, y por otro, est el silbido (o
ruido) producido por la corriente de aire. En el caso de la seal de voz, hay una distincin entre
fonemas sonoros (tonales) y sordos (ruidosos). Si no se incluye el modelo de ruido, el resultado de
la seal codificada no es natural, en cualquiera de los dos ejemplos. Esto conduce a la necesidad
de incluir un modelo de ruido para codificar la seal residual derivada de la aplicacin del modelo
sinusoidal y del modelo de transitorios. La figura 3.5 ilustra que la descomposicin de una seal
de audio en un modelo tonal ms un modelo ruidoso da como resultado una seal codificada de
mayor calidad que cuando slo se utiliza el modelo tonal, especialmente a bajo rgimen binario.
Los modelos de ruido utilizados en la literatura se ocupan de parametrizar la envolvente de la
seal en tiempo y frecuencia, ignorando la forma de onda como tal. Tanto la resolucin espectral
como la temporal del modelo deberan ajustarse a las propiedades de percepcin de ruido del
67
odo humano. El modelo de ruido en general es comn a las diversas propuestas encontradas
[Goodwin96] [Fitz95] [Ding97] [Lam99] [Purnhagen99]. As, en el decodificador, lo primero que
se hace es generar ruido blanco, de donde se deriva el nombre de modelo estocstico asignado
con frecuencia al modelo de ruido. En la literatura aparece un ejemplo donde incluso se genera
una excitacin multipulso [Ding97]. Esta seal estocstica se conforma despus en tiempo y
frecuencia. La conformacin temporal se consigue tpicamente dividiendo la seal de entrada en
tramas cuyo tamao se aproxima a la resolucin temporal del odo humano [Goodwin97], si bien
esta resolucin depende de la frecuencia de la seal (4 ms a 1 KHz, 1 ms a 4 KHz) [Schijndel99].
Para la conformacin espectral, se obtiene la envolvente espectral de la seal, aunque en este caso
hay un gran nmero de opciones en la literatura. A continuacin, se tratan ms detenidamente
las tcnicas ms utilizadas para modelar el ruido en frecuencia.
3.3.1.
3.3.2.
68
odo humano. Este tipo de banco de filtros se disea basndose en el hecho de que el odo humano
es sensible al conjunto de la energa de ruido en cada banda crtica, independientemente de su
distribucin dentro de cada banda crtica [Zwicker90]. Teniendo esto en cuenta, si el residuo es
ruido de banda ancha, se puede generar una rplica, indistinguible psicoacsticamente, a partir
de ruido blanco filtrado, de forma que cada banda del filtro establezca la energa original de la
seal residual en cada banda crtica. Sin embargo, el elevado nmero de bandas crticas hace
que el rgimen binario de un modelo de este tipo, que obtenga como parmetros la potencia de
ruido de cada banda crtica, sea demasiado elevado. Para poder llevar a la prctica un modelo
con estos principios, es necesario reducir el nmero de bandas del banco de filtros. Siguiendo
este criterio, en [Goodwin97] se utiliza el concepto de ERB (Equivalent Rectangular Bandwidth)
[Goodwin96], que proviene del concepto de bandas crticas, en el sentido de que el ancho de banda
de cada banda es proporcional al de la banda anterior y crece en frecuencia. Este enfoque ha
sido utilizado en algunos codificadores de audio [Verma99], porque es particularmente apropiado
para la compresin de la seal.
3.4.
Codificadores paramtricos
3.4.1.
Codificadores hbridos
69
Input
data
Masking
Encode
model
side information
Harmonic
Harmonic
Encode
analysis
reconstruction
harmonics
Residual
Wavelet
Tracking of
Encode
Bit
analysis
transients
transients
packing
Remove
Encode
transients
as noise
Coded
data
Figura 3.6: Esquema del funcionamiento del codificador hbrido propuesto en [Ali95].
mnimos cuadrados para la deteccin tonal. En este caso, se hace uso de una tcnica, no utilizada previamente en audio sino en aplicaciones geofsicas, descrita en [Thomson82]. Al residuo
obtenido, que contiene transitorios y ruido, se le aplica una transformada wavelet. Se consideran
como ruidosas aquellas bandas wavelet por encima de 11 KHz, codificndose como ruido. Los
parmetros codificados son la potencia de cada banda y la cada exponencial de su distribucin
de amplitudes. Las dems bandas se consideran transitorios y se cuantifican directamente los
coeficientes de la transformada.
En cuanto a resultados, el codificador de Ali obtiene un rgimen binario de 1 bit/muestra, que
equivale a 44 Kbits/s, suponiendo seales mono con calidad CD. El autor etiqueta su codificador
de alta calidad o casi transparente, lo que equivaldra a un valor de 4 en la escala MOS, segn
la recomendacin BS.1116-1 del ITU-R. Adems, se admite que la seal con peor resultado
subjetivo es la correspondiente a las castauelas, que est incluida dentro del conjunto de seales
de test para codificacin de MPEG [MPEG03b], debido a la aparicin de pre-ecos en la seal
decodificada .
Codificador de Levine [Levine98]
Este codificador, propuesto por [Levine98] en su tesis doctoral, tiene como finalidad conseguir
ciertos tipos de procesado de seal en el dominio comprimido, como son: modificaciones en el
pitch y en la escala temporal. Para ello, es necesario conseguir separar las diferentes componentes
(transitorios, tonos y ruido) de la seal de audio. Por ejemplo, para el cambio de tempo, hay que
realizar la modificacin de la duracin de los tonos y el ruido de la seal en el tiempo, mientras
que los transitorios slo deben ser trasladados en el eje temporal. Como se observa en la figura
3.7, para conseguir esta separacin, un determinado segmento de la seal de audio se etiqueta
como transitorio o como estacionario. Si se tiene un segmento transitorio, se aplica codificacin
por transformada, mientras que si el segmento es estacionario, se aplica un modelo tonal seguido
de otro de ruido. El codificador proporciona las herramientas necesarias para que un cambio de
etiquetado no produzca distorsiones en la seal codificada.
En cuanto a las tcnicas utilizadas, la codificacin por transformada se realiza mediante la
70
transient
detector
Input signal
multiresolution
sinusoidal
modeling
Sines
Transients
transform-coded
transients
Bark-band
noise modeling
Noise
Figura 3.7: Esquema del funcionamiento del codificador hbrido propuesto en [Levine98].
transformada de coseno modificada MDCT, con un tamao de ventana muy reducido, puesto que
se aplica slo en segmentos transitorios de la seal. Para realizar el modelado sinusoidal, se aplica
un modelo multi-resolucin, con tamaos de ventana decrecientes en la frecuencia para adaptarse
a las caractersticas del odo. Una caracterstica destacable de este codificador es que el modelado
sinusoidal se aplica por debajo de 5 KHz, suponiendo que por encima de esta frecuencia la seal
se puede modelar mediante ruido. La estimacin de las frecuencias se realiza de la misma forma
que en el codificador de Ali, mediante estimacin de mxima semejanza [Thomson82]. En cuanto
al modelo de ruido, se utiliza un modelado en banda de bark, es decir, se calcula en el codificador
la potencia en cada banda de bark, sintetizndose el residuo en el decodificador mediante un
banco de filtros con esta distribucin en frecuencia.
En cuanto al anlisis de resultados, el codificador de Levine est diseado para proporcionar
un rgimen binario entre 20 y 32 Kbits/s. En lo relativo a la calidad subjetiva, como afirma el
autor, se introducen necesariamente algunos artefactos de codificacin. En esta tesis se proporcionan una serie de ficheros codificados a 32 Kbit/s para comparar los resultados entre AAC y
este codificador. Con los ficheros elegidos no se aprecian excesivas diferencias, aunque la calidad
del codificador AAC es algo mejor. En cualquier caso, es de esperar que al reducirse el rgimen
binario, el codificador de Levine tenga un menor descenso de calidad perceptual que el codificador
AAC, al tratarse este ltimo de un codificador por transformada.
3.4.2.
Como se ha visto, los codificadores hbridos dejan entrever las posibilidades de la codificacin
paramtrica. Sin embargo, el paso a un codificador completamente paramtrico se puede considerar demasiado ambicioso, por el simple hecho de que en los comienzos de la codificacin
paramtrica no exista un modelo apropiado para manejar los transitorios de seal. Como consecuencia, en las seales donde est presente esta componente, los codificadores por transformada
obtienen mejores resultados frente a los paramtricos. Adems, hay que tener en cuenta que, en un
codificador completamente paramtrico, los modelos de seal deben complementarse. Por ejemplo, el modelo sinusoidal no debe dejar componentes tonales en el residuo, aunque estos tonos
no se escuchen, porque si se sintetizan como ruido el resultado perceptual es bastante pobre
[Heusdens02b]. Como contrapartida, la completa parametrizacin de la seal de audio permite la
realizacin, de manera directa y en el dominio comprimido, de modificaciones en la seal como
71
Model Based
Audio Decomposition
Signal
Parameter
Estimation
Parameter
Coding
Harmonic
Components
Quant
Sinusoidal
Components
Quant
Noise
Components
Quant
selection of
relevant
components
Mux
Bit
Stream
Figura 3.8: Esquema del funcionamiento del codificador paramtrico HILN [Purnhagen00].
el cambio de pitch o de tempo. Se realiza, a continuacin, un estudio ms pormenorizado de los
codificadores paramtricos que han sido estandarizados por MPEG-4.
Codificador HILN
El codificador HILN [Purnhagen00] es el primer codificador de audio paramtrico estandarizado, ya que est incluido en la versin 2 de MPEG-4 [MPEG99c]. La seal de entrada se descompone en los siguientes parmetros, como se observa en la figura 3.8:
Tonos sin relacin armnica o tonos individuales. Se modelan con su amplitud y frecuencia.
Tonos con relacin armnica. Se describen por su frecuencia fundamental, amplitud y envolvente espectral de los parciales. Para todas las componentes tonales se utiliza el esquema de
caminos tonales de [Mcaulay86] con una estimacin por mxima semejanza [Purnhagen02].
Ruido. Se modela por su amplitud en el tiempo y su envolvente en frecuencia. En este caso,
la envolvente frecuencial es parametrizada mediante prediccin lineal (LPC).
Adicionalmente, cuando un transitorio est presente, se incluyen los parmetros que describen
la envolvente de la seal, siendo esta simple herramienta el modelo de transitorios usado. Debido
a que el rgimen binario para el que est diseado va de 6 a 16 Kbits/s, slo se puede transmitir un
pequeo conjunto de parmetros. Por lo tanto, se produce una seleccin de parmetros mediante
criterios perceptuales. Respecto a la definicin inicial, el codificador HILN ha sido mejorado
[Purnhagen00], introduciendo cuantificacin entrpica, cuantificacin dependiente de criterios
psicoacsticos e, incluso, escalabilidad en rgimen binario.
En cuanto a los resultados perceptuales, aunque pobres, se pueden comparar a los proporcionados por los codificadores por transformada estandarizados a similar rgimen binario. Esta
afirmacin se verifica analizando la figura 3.9, donde se incluyen los resultados de HILN no escalable a 6 Kbits/s, HILN escalable a 6 Kbits/s, AAC con TwinVQ (cuantificacin vectorial) a
6 Kbits/s, HILN no escalable a 16 Kbits/s, HILN escalable a 16 Kbits/s y AAC a 16 Kbits/s.
72
good
fair
poor
bad
H
IL
N
6+
10
H
IL
N
excellent
Ba
se
Tw
in
VQ
6
H
H
I
L
IL
N
N
16
6+
10
En
ha
AA
C
16
Figura 3.9: Resultados de los test subjetivos para el codificador HILN. Para el mismo rgimen binario,
se ha usado HILN no escalable y escalable. Se comparan codificacin HILN no escalable a 6 Kbits/s
(HILN 6), codificacin HILN escalable a 6 Kbits/s (HILN 6+10 Base), Twin VQ a 6 Kbits/s, HILN no
escalable a 16 Kbits/s (HILN 16), codificacin HILN escalable a 16 Kbits/s (HILN 6+10 Enha) y AAC
a 16 Kbits/s. [Purnhagen00].
Notar que la seal de entrada tiene un ancho de banda de 8 KHz. Es destacable que la calidad
desciende slo un poco cuando se introduce la escalabilidad.
Codificador paramtrico de Philips (PPC)
El codificador PPC ha sido estandarizado en la versin 3 de MPEG-4. La necesidad de este
codificador surge para aplicaciones de audio con alta calidad y un rgimen binario muy reducido.
Ante este problema, MPEG realiz una llamada a propuestas [MPEG01] para estandarizar un
codificador paramtrico con mejor calidad que AAC a un rgimen binario alrededor de 24 Kbits/s.
Pese a que el objetivo inicial era muy ambicioso, al final del proceso se ha conseguido estandarizar
un codificador completamente paramtrico.
La tecnologa utilizada por este codificador viene limitada por la complejidad, de forma
que las tcnicas elegidas obtienen una buena relacin calidad/complejidad. Para describir el
funcionamiento del codificador PPC, se detallan las tcnicas utilizadas para cada una de las
componentes del audio:
Los transitorios se clasifican en dos tipos: transitorios de paso que no son tratados de forma
especial, slo se segmenta la seal en ese instante temporal; y transitorios propiamente
dichos, los cuales son parametrizados mediante la envolvente de Meixner [Brinker95] y un
modelado sinusoidal.
Los tonos son extrados, sin una bsqueda iterativa sino de forma paralela, siguiendo un
algoritmo que minimiza una funcin de coste no perceptual similar a la optimizacin no
lineal restringida [Hamdy99]. Se emplea un anlisis multi-resolucin, aunque no se agrupan
las componentes armnicas [Myburg04].
Informal tes
73
100
Excellent
80
Good
60
Fair
40
Poor
20
Bad
0
AAC24
AAC32
Par24
Figura 3.10: Resultados de los test subjetivos para el codificador PPC. Se comparan los resultados a 24
Kbit/s de PPC (Par en la figura) con AAC [Breebaart04].
3.4.3.
74
x[n]
Sinusoidal sinusoidal
Analysis parameters
Block
DCT
Sinusoidal sinusoids
Synthesis
Sinusoidal transient
Analysis parameters
Sinusoidal
Synthesis
Optional Transient
location Information
Noise
Analysis
noise
parameters
Noise
Synthesis
1st residual:
transients+noise
Block transients
IDCT
2nd residual:
noise
noise
Figura 3.11: Esquema del funcionamiento del codificador paramtrico de Verma [Verma99].
escalable es deseable desde varios aspectos. La reduccin del rgimen binario, con una lenta y
progresiva reduccin de la calidad, puede permitir una robustez del codificador muy til en la
prctica. Por ejemplo, el codificador se puede adaptar de antemano a las caractersticas de la
red o medio de transmisin utilizado, enviando la seal de audio con la mayor calidad posible.
Un escenario para este funcionamiento es la telefona mvil. An ms, un codificador escalable
puede ser utilizado de forma que se adapte en tiempo real a los requerimientos de la red utilizada,
especialmente en internet. Para lograr este objetivo, el codificador usado debe cambiar el rgimen
binario de forma fina y sin incrementar la complejidad, de modo que se pueda usar en un escenario
a tiempo real.
A continuacin, se detallan las propuestas que aparecen en la bibliografa acerca de codificadores paramtricos escalables. Estos codificadores han sido diseados especialmente para
lograr alta escalabilidad en rgimen binario, consiguiendo un ajuste fino del rgimen binario, si
es necesario.
Codificador de Verma [Verma99]
El codificador propuesto por Verma en su tesis doctoral [Verma99] es una adaptacin del codificador de Levine para incluir escalabilidad en rgimen binario. En este sentido, el autor realiza
un esfuerzo para clasificar los diferentes parmetros de audio segn su importancia perceptual, de
forma que se consiga una prdida lenta de la calidad conforme se reduce el rgimen binario en el
codificador. Adems, Verma realiz un importante esfuerzo en la actualizacin de los algoritmos
de extraccin de parmetros de la seal, destacable sin duda al introducir el primer mecanismo
de parametrizacin de los transitorios.
El esquema general del codificador de Verma se introduce en la figura 3.11. Como se observa,
es un codificador paramtrico clsico de transitorios, tonos y ruido. Para la extraccin de transitorios, Verma introduce la aplicacin del modelo sinusoidal sobre el dominio de la transformada
de coseno [Verma98], eliminando por completo la codificacin por transformada que empleaba
Levine. El modelo tonal se mejora mediante el empleo del algoritmo matching pursuits [Mallat93]
con un diccionario de exponenciales complejas. En el caso del modelo de ruido, Verma reduce el
nmero de bandas en frecuencia en el banco de filtros de Levine, hablndose ahora de un banco
de filtros ERB.
75
Bit-stream:
S QL 1L, N
Sinusoidal coder
..
.
Bit-rate scalability
S QL 1&2, N
s[n]
S QL 1, N
MUX
Noise coder
Figura 3.12: Esquema del funcionamiento del codificador paramtrico de Myburg [Myburg04].
El rgimen binario obtenido vara desde 6 a 80 Kbits/s, aunque slo a partir de 16 Kbits/s el
fichero codificado contiene las tres componentes de la seal de audio. Segn el autor, el codificador
escalable propuesto a 80 Kbits/s obtiene una calidad similar al codificador AAC de MPEG-4 a
64 Kbits/s [Verma00], mientras que cuando el rgimen binario se reduce a 16 Kbits/s la calidad
de ambos codificadores es muy similar. Como consecuencia, la calidad obtenida por el codificador
de Verma es algo menor que la alcanzada por AAC para todos los regmenes binarios, excepto
cuando se baja a 16 Kbits/s, pero teniendo la ventaja de ser un codificador escalable.
Codificador de Myburg [Myburg04]
El codificador implementado por Myburg [Myburg04] es una adaptacin del codificador PPC
de Philips para conseguir escalabilidad. En este sentido, el autor estudia, adems de la escalabilidad en rgimen binario, la escalabilidad en complejidad del codificador para su uso en aplicaciones
en tiempo real. El resultado es que, bsicamente, el codificador de Myburg simplifica o elimina
algunas de los algoritmos utilizados en el codificador PPC de Philips.
El esquema de funcionamiento del codificador de Myburg se esboza en la figura 3.12. La
principal particularidad del codificador radica en que nunca se descarta como no audible ninguna
parte (de la energa total) de la seal de audio. Esto se consigue enviando al codificador siempre
los parmetros del ruido correspondientes al rgimen binario menor o capa bsica (basic layer ).
Los tonos enviados dependen del rgimen binario objetivo y estn separados por capas. Para
conseguir el ruido final en el decodificador, se elimina de la potencia de ruido (de la capa bsica) la
potencia de los tonos de las capas superiores. Como consecuencia, la potencia de ruido sintetizado
para capas superiores (alto rgimen binario) es la resultante de restar a la potencia de la capa
bsica la potencia de los tonos de las capas superiores. De esta forma, nunca se elimina potencia
de seal; eso s, a bajo rgimen binario, habr informacin tonal generada por el modelo de ruido,
que generar una distorsin ruidosa en el decodificador.
En relacin a las tcnicas utilizadas para implementar los modelos de seal, se producen algunas variaciones con respecto al codificador PPC de Philips. La extraccin tonal es simplificada
para reducir la complejidad, aplicando una extensin del mtodo de Gauss-Newton [Myburg01]
76
MUSHRA score
70
60
50
40
30
20
10
Figura 3.13: Calidad perceptual obtenida por el codificador de Myburg a diferentes regmenes binarios. Las
seales de comparacin son una seal filtrada paso bajo a 3,5 KHz, otra filtrada a 7 KHz y la codificada
mediante PPC. Se representa el valor medio y el intervalo del 95 % de confianza [Myburg04].
para la extraccin de forma paralela de los tonos. Adems, se incluye un agrupamiento de los
tonos en conjuntos armnicos con la finalidad de reducir el rgimen binario. El modelo de ruido no cambia sustancialmente, pero el principal inconveniente del codificador es la eliminacin
del tratamiento para los transitorios. Si bien se realiza con la idea de reducir al mximo la
complejidad, el impacto que tiene en la calidad perceptual hace cuestionable esta decisin.
Un resumen de la calidad obtenida por el codificador de Myburg se presenta en la figura 3.13.
Como se puede observar, el principal inconveniente de este codificador es que, debido a la ausencia
de un modelo de transitorios, la calidad perceptual no crece cuando se incrementa el rgimen
binario por encima de 24 Kbits/s, estando siempre por debajo de la calidad del codificador PPC
de Philips. Cuando el rgimen binario se reduce de 24 a 16 Kbits/s, tambin se reduce la calidad,
pero de una forma progresiva. Este intervalo de funcionamiento es, por tanto, el idneo para el
codificador de Myburg.
Captulo 4
Descomposiciones atmicas
4.1.
Introduccin
I
X
i=1
(4.1)
donde m(i) son los coeficientes asociados a cada funcin gm(i) [n] y el nmero de funciones
es I. De forma general, para tratamiento digital de la seal, la longitud de la seal x[n] ha de
ser finita, de valor N . Para la mayora de las aplicaciones de tratamiento de seal se utilizan
descomposiciones basadas en transformadas, como las de Fourier o wavelet. En estos casos, las
funciones forman una base y el nmero de funciones para descomponer la seal es I = N . Una
forma de expresar el mtodo de clculo de estas transformadas es mediante la notacin matricial,
x = D
(4.2)
(4.3)
77
(4.4)
78
Debido a esta fcil manera de calcular la descomposicin, las transformadas han sido ampliamente usadas en tratamiento de la seal. El principal problema de las transformadas es que no
proporcionan un modelo compacto para seales arbitrarias [Goodwin97]. Para aplicaciones de
anlisis y codificacin es importante modelizar la seal a partir de un nmero muy reducido de
funciones, que representen las caractersticas principales de la seal a tratar. En este sentido, se
ha trabajado con transformadas para determinar aquella base que mejor represente la seal. Este
algoritmo conocido como la seleccin de la mejor base (Best Orthogonal Basis, BOB) [Coifman92]
ha sido utilizado en los ltimos aos en la codificacin de audio con bases wavelet packet. En
codificacin de audio, se ha utilizado la medida de la entropa perceptual para seleccionar la
mejor base [Ruiz01]. Sin embargo, para la seal de audio, que es una seal excepcionalmente
variable, no se consigue mediante la seleccin de la mejor base la mxima reduccin del nmero
de coeficientes significativos.
Para resolver los inconvenientes de las transformadas, mejorando la capacidad de compresin de la descomposicin, una solucin es incrementar el nmero de funciones en que se puede
descomponer la seal. Aplicando este principio, cuando el nmero de funciones del diccionario
D es M > N , queda una matriz (N M ) en la ecuacin 4.2, y no se puede hablar ya de base
ortogonal, sino que se dice que el diccionario es sobrecompleto . El diseo del diccionario debe
incorporar, a priori, un amplio rango de comportamientos tiempo-frecuencia, para adaptadarse
a las caractersticas de la seal a tratar. El principal problema de las descomposiciones sobrecompletas es el mtodo de clculo de los coeficientes [Davis94]. En este caso, ya no es posible el
uso de la matriz inversa del diccionario D1 , puesto que, pese a que el diccionario debe estar
formado por funciones linealmente independientes entre s, la matriz D no es singular, lo que
quiere decir que la solucin no es nica. Como consecuencia, han aparecido varios mtodos para
el clculo de una descomposicin atmica. En cualquier caso, la seleccin de aquellas funciones
o tomos y el clculo asociado de sus coeficientes es un problema no lineal, donde se busca que
unos pocos tomos describan el comportamiento de la seal. El principal inconveniente de las
descomposiciones atmicas es la alta complejidad asociada a su clculo, lo que limita en gran
medida su uso.
Un problema derivado de la complejidad en el clculo de las descomposiciones atmicas es la
necesaria limitacin del tamao del diccionario. As, conociendo la seal a tratar, o realizando un
preprocesamiento de la misma, se utiliza un tipo de diccionario u otro, con el fin de extraer las
caractersticas de la seal en un tiempo de computacin razonable. En el campo del audio, esto
se traduce, por ejemplo, en etiquetar cada segmento de la seal de audio con un preprocesado
sencillo que clasifique la seal en transitoria o tonal. En base a este valor, se puede elegir un
diccionario formado por seales impulsivas u otro formado por seales sinusoidales. Ms adelante,
se tratar con detenimiento el diseo del diccionario.
A continuacin, se revisan los mtodos ms usuales para la obtencin de las descomposiciones
atmicas, con sus ventajas e inconvenientes, as como algunos ejemplos de su funcionamiento.
4.2.
Mtodos de clculo
En general, las diferentes estrategias para seleccionar las funciones y calcular los coeficientes
de stas, con el fin de obtener una descomposicin atmica, se pueden clasificar en dos categoras
79
4.2.1.
Mtodos paralelos
Los mtodos paralelos se caracterizan generalmente por llegar a soluciones ptimas basadas
en una medida global a optimizar y por su gran carga computacional. El nombre de mtodos
paralelos es debido a que en el clculo de la solucin se determina a la vez el valor de todos los
coeficientes.
Mtodo de tramas (MOF)
El mtodo de tramas (Method Of Frames, MOF) [Daubechies88] escoge, de entre todas las
soluciones, aquella en la que los coeficientes en su conjunto tienen norma l 2 mnima, es decir, en la
que los coeficientes tienen energa mnima. La notacin matricial del problema queda expresada
como,
min||||2
para D = x
(4.5)
80
Una ventaja del mtodo MOF es que existe una manera directa de calcular la descomposicin [Daubechies88], mediante la matriz pseudo-inversa de Moore Penrose D + , que vale
D+ = DH (DDH )1 . Con esta matriz, se calcula la solucin de mnima longitud de un sistema
de ecuaciones lineales de la forma,
M OF = D+ x = DH (DDH )1 x
(4.6)
(4.7)
Este mtodo resuelve el principal problema del MOF, al cambiar la norma. Ahora, los coeficientes con valores pequeos tienen una penalizacin mayor y tienden a desaparecer de la
solucin, quedando como solucin, para el caso de la seal formada por un slo tomo, el mismo tomo. Una prueba de este hecho se puede observar en la figura 4.3, pudiendo afirmarse
que este mtodo tiene gran capacidad de concentracin de la solucin en unos pocos tomos
81
1
0.8
Frequency
Frequency
0.8
0.6
0.4
0.2
0
0
0.6
0.4
0.2
0
0
1
2
3
|FFT(WaveletPacket(3,3,7))|
WaveletPacket(3,3,7)
0.5
Time
0.5
-0.5
0
0.5
Time
Figura 4.1: Plano de fase ideal de una funcin wavelet-packets. Figura obtenida mediante el toolbox
atomizer de Matlab disponible en la direccin de Internet http://www-stat.stanford.edu/atomizer/.
0.4
0.2
0
-0.2
-0.4
0
0.5
1
0.8
Frequency
Frequency
0.8
0.6
0.4
0.2
0
0
0.6
0.4
0.2
0.5
Time
0
0
0.5
Time
Figura 4.2: Ejemplo de funcionamiento del mtodo de tramas o MOF. Figura obtenida mediante el toolbox
atomizer de Matlab.
82
Frequency
0.8
0.6
0.4
0.2
0
0
0.5
Time
Figura 4.3: Ejemplo de funcionamiento del mtodo basis pursuits (BS) para una seal formada por un
tomo wavelet packets. Se dibuja el plano de fase de la solucin mediante BS con un diccionario wavelet
packets que incluye al tomo de la seal. Figura obtenida mediante el toolbox atomizer de Matlab.
[Chen96]. El principal inconveniente del BS radica en que los algoritmos a utilizar para calcular
la descomposicin son excesivamente complejos, sobre todo para aplicaciones de compresin.
La solucin al problema de optimizacin planteado por el mtodo BS es nica, aunque no
existe una formulacin matemtica asociada para su clculo, es decir, se trata de un mtodo
heurstico. La descomposicin mediante BS habra que calcularla, en el peor de los escenarios,
siguiendo una bsqueda exahustiva. Esta no es una aproximacin vlida en la prctica, por lo
que Chen al presentar BS en [Chen95] sugiri algunos de los algoritmos que pueden ayudar a
encontrar la solucin. En este sentido, en [Chen96] se revisan las relaciones del mtodo BS con las
estrategias de programacin lineal, con el objetivo de encontrar un algoritmo cuya complejidad
crezca linealmente (y no exponencialmente) con el tamao de la seal de entrada. Como resultado,
Chen propone usar dos algoritmos alternativos, cuyas diferencias se estudian a continuacin:
Simplex . Este algoritmo llega a la solucin ptima a costa de una gran complejidad. El
algoritmo comienza con una solucin no ptima al problema de la minimizacin con norma
l1 ; por ejemplo, la solucin del mtodo MOF. A continuacin, comienza un proceso iterativo
en el que se cambia a otra solucin (o conjunto de coeficientes) que reduce la norma. Existen
reglas que garantizan la convergencia hacia la solucin ptima [Gill91] y evitan procesos
cclicos. El proceso continua hasta que no hay mejora posible, es decir, cuando se halla la
solucin ptima.
Interior-point. Este algoritmo es menos complejo y, adems, se puede parar en cualquier
momento, obtenindose una solucin subptima reducida a un subgrupo de tomos. Bsicamente, es una modificacin del algoritmo anterior para reducir su complejidad. Ahora, se
comienza considerando un slo tomo en el diccionario; por ejemplo, el ms correlado con
la seal. Esto no es una solucin al problema, porque el diccionario es menor que el tamao
de la seal. En cada iteracin, se aade un tomo y se encuentran los coeficientes que
minimizan la norma l1 para ese nmero de tomos, por ejemplo va simplex. La solucin
ptima se encuentra cuando se incluyen todos los tomos. Las ventajas de este mtodo se
hacen evidentes cuando el diccionario es capaz de modelizar con unos pocos tomos a la
seal, ya que en este caso el tiempo de computacin es reducido. Adems, este mtodo es
el indicado cuando est limitado el tiempo de computacin. Aunque se detenga el proceso
de bsqueda antes de llegar a la solucin ptima, se puede representar la mayor parte de
la seal con unos pocos tomos. Est especialmente indicado en aplicaciones de denoising,
83
2
0
-2
0
0.5
0.5
0.5
Time
(d) PhasePlane: BOB
Figura 4.4: Seal FM y su plano de fase ideal. Figura obtenida mediante el toolbox atomizer de Matlab.
Frequency
0.5
0
0
1
0.5
0
0
0.5
Time
0.5
1
Time
Phase Plane: BP Iteration = 3
0.5
0
0
0.5
1
Time
Phase Plane: BP Iteration = 4
0.5
0
0
0.5
1
Time
Phase Plane: BP Iteration = 2
Frequency
1
Frequency
0.5
0
0
Frequency
1
Frequency
Frequency
0.5
1
Time
Phase Plane: BP Termination
0.5
0
0
0.5
Time
Figura 4.5: Ejemplo de funcionamiento del algoritmo interior-point para el mtodo basis pursuits (BS)
para una seal FM con un diccionario de cosine packets. Figura obtenida mediante el toolbox atomizer
de Matlab.
determinando una parada anterior a la solucin final, o en la bsqueda de los tomos que
mejor representan la seal, por ejemplo, para la solucin de direcciones de llegada [Chen96].
En la figura 4.4 se muestra una seal FM y su plano de fase ideal. Aplicando un diccionario
de cosine packets y el algoritmo interior-point, el resultado de cada iteracin se muestra
en la figura 4.5. Se puede observar como el algoritmo es, por decirlo de alguna manera,
embebido, porque en cada iteracin va refinando el plano de fase, obtenindose una idea
del mismo desde las primeras iteraciones.
La implementacin de ambos algoritmos para desarrollar el mtodo BP, as como la posibilidad de elegir entre varios tipos de diccionario, se encuentra en una toolbox de Matlab en
la direccin de internet: http://www-stat.stanford.edu/atomizer/. Adems, se incorpora en estos programas la posibilidad de obtener otro tipo de mtodos para calcular descomposiciones
atmicas, como el MOF y algunos ms que se tratarn posteriormente.
La complejidad de los diferentes mtodos es un factor importante a la hora de evaluar la
aplicacin prctica de los mismos. En el caso del mtodo MOF, la complejidad es de orden
O(M log(M )) (donde M es el tamao del diccionario) y viene determinada por la expresin 4.6.
Sin embargo, la complejidad del mtodo BS depende del algoritmo utilizado en el clculo, de la
84
seal de entrada y del tipo de diccionario. As, lo ms que se puede hacer en este caso es calcular el
lmite superior de complejidad del mtodo. Aplicando el algoritmo interior-point, la complejidad
mxima est limitada a O(M log(M )) por etapa. Teniendo en cuenta que el nmero de etapas
puede llegar a ser tan grande como el tamao del diccionario, la complejidad se torna prohibitiva.
Como conclusin, cabe decir que el mtodo basis pursuits slo ha sido empleado con xito en
aplicaciones donde el nmero de tomos necesarios para modelizar la seal es limitado, con el
objetivo de no incrementar demasiado la complejidad. Un ejemplo de este tipo de aplicaciones
es la eliminacin de ruido o denoising de la seal [Chen95].
FOCUSS
Como se ha dejado entrever en el mtodo anterior, en muchas aplicaciones no es necesario
encontrar una solucin que describa la seal de entrada por completo, a partir de los tomos del
diccionario, sino que basta con que los coeficientes encontrados aproximen, de forma suficiente,
la seal de entrada
x[n]
I
X
i=1
(4.8)
o en notacin matricial,
x D
(4.9)
Este sera el resultado, por ejemplo, de parar el mtodo basis pursuits calculado mediante el
algoritmo interior-point en una iteracin intermedia. Adems, desde un punto de vista prctico,
debido a que las seales suelen estar contaminadas por ruido, no tiene mucho sentido encontrar
soluciones exactas, porque se estar representando en la descomposicin la parte ruidosa, y eso
se pretende evitar en aplicaciones de anlisis de seal.
Una vez tenido en cuenta que las soluciones prcticas pueden ser aproximaciones de la seal,
se puede introducir la definicin del mtodo FOCUSS (FOCal Underdetermined System Solver),
como aparece en [Gorodnitsky97]. Este mtodo se utiliza cuando se supone que el nmero de
tomos del diccionario para representar la mayor parte de la seal es pequeo con respecto al
tamao del diccionario. El mtodo FOCUSS necesita una inicializacin de los coeficientes de
los tomos 0 , como ocurra en la implementacin del algoritmo simplex para basis pursuits.
Sin embargo, la inicializacin de este mtodo debe ser algo particular. Se deben dejar a cero los
coeficientes de aquellos tomos de los que se tenga la constancia que no forman parte de la solucin
y evaluar slo aquellos que puedan formar parte de la misma. Como se ver porteriormente, el
algoritmo funciona con cualquier inicializacin, pero si esta no es correcta, la complejidad crece
demasiado. En cada iteracin del algoritmo, el mtodo FOCUSS implementa una minimizacin
del subespacio que forman los I tomos con coeficientes iniciales distintos de cero. Sin embargo,
a diferencia del mtodo MOF, esta minimizacin est pesada por una matriz W i , por lo que se
minimiza en cada iteracin,
min||Wi 1 ||2
para D = x
(4.10)
85
La solucin a la expresin 4.10 se realiza de la misma forma que para el mtodo MOF mediante
la pseudo-inversa de Moore Penrose,
i+1 = Wi (DWi )+ x
(4.11)
(4.12)
por lo que, desde un punto de vista de seales, se minimiza en cada iteracin la funcin,
M
X
l=1, i [l]6=0
[l]
i [l]
2
(4.13)
El mtodo FOCUSS converge en el sentido de que lleva hacia cero aquellos tomos que no
corresponden a la solucin final y refuerza el subconjunto, dentro de los I inicializados, que
describen la solucin final. Se puede decir que el mtodo FOCUSS focaliza la posible solucin
dentro de un subconjunto de tomos. Adems, este mtodo est exclusivamente diseado para
aplicaciones que concentren la solucin slo en un pequeo grupo de tomos. Una pregunta que
surge en este momento es cuando parar el algoritmo. Las propuestas encontradas en la literatura
[Gorodnitsky97] se limitan a detener el algoritmo cuando haya dos grupos claros de tomos, un
grupo cercano a cero y otro con valores representativos, que formar la solucin final.
Est claro que el mtodo FOCUSS conduce a soluciones subptimas, pero, en aplicaciones
prcticas, estas son admisibles para reducir la complejidad. La medida de la carga computacional
del algoritmo es sencilla, puesto que se puede deducir a partir del mtodo MOF. As, el orden
de complejidad por iteracin es O(Ilog(I)), siendo I el nmero de tomos distintos de cero en
la inicializacin 0 . Notar que la complejidad depende en gran medida de este valor inicial.
Adems, segn las referencias [Lee87] [Gorodnitsky97], el nmero de iteraciones necesario para
lograr un resultado satisfactorio es altamente dependiente de la eleccin de 0 . Se puede afirmar,
visto su funcionamiento, que el mtodo FOCUSS extiende un puente entre los mtodos paralelos
globales y los mtodos iterativos, puesto que proporciona una solucin subptima, aunque en
cada iteracin optimice los tomos inicializados en su conjunto.
Las aplicaciones del mtodo FOCUSS son variadas, pero se encuentra casi siempre relacionado
en la bibliografa con la resolucin de direcciones de llegada [Lee87] y del tratamiento de la seal
elctrica o magntica que produce el cerebro, seales EEG o MEG, respectivamante.
4.2.2.
Mtodos iterativos
86
de clculo es que las soluciones obtenidas slo pueden aproximarse a la seal de entrada segn
la ecuacin 4.8.
Matching pursuits
El primer mtodo iterativo para la obtencin de descomposiciones atmicas encontrado en la
bibliografa es matching pursuits [Mallat93]. Posteriormente, han surgido una serie de modificaciones sobre la base de este mtodo para intentar solucionar los inconvenientes que ste introduce.
En cualquier caso, estos intentos no han tenido el xito esperado, porque incrementan demasiado
la carga computacional del mtodo, que es una de sus grandes ventajas.
La definicin del mtodo matching pursuits es muy sencilla. Es un mtodo iterativo que en
cada iteracin extrae de la seal el tomo que minimiza la energa del resto. Por lo tanto, en
cada iteracin i se extrae un tomo gm(i) con su coeficiente (o peso) asociado m(i) ,
i
r =
x
i=0
ri1 m(i) gm(i) i > 0
(4.14)
gm D
para ri = ri1 im gm
(4.15)
donde los valores im son los coeficientes asociados a cada uno de los elementos gm del
diccionario D. De entre todos los valores im , se elige el que minimiza la norma l 2 de ri , que es el
coeficiente del tomo ptimo, m(i) . A partir de esta definicin, se obtiene, adems, la expresin
para calcular los coeficientes im . El problema planteado se resuelve mediante la introduccin
del valor de ri en el clculo del mnimo.
mngm D ||ri ||2
=
i1
i
2
mngm D ||r
m gm ||
=
i1
2
i
2
i
2
i1
i1
i
mngm D ||r || + |m | ||gm || < m gm , r
> < r , m gm >
(4.16)
(4.17)
gm D
para im =
(4.18)
87
A partir de ahora, y sin prdida de generalidad, se supondr que los elementos del diccionario
tienen energa unidad, es decir, ||gm ||2 = 1. La ecuacin inicial del mtodo se puede re-escribir
como,
ri =
x
i=0
i1
i1
r < r , gm(i) > gm(i) i > 0
(4.19)
(4.20)
En vista de la ecuacin 4.20, se comprueba que el mtodo matching pursuits (MP) trabaja
con las correlaciones como valor para obtener la descomposicin. En cada iteracin se escoge
como tomo ptimo, y por lo tanto se elige en la descomposicin, el tomo ms correlado con el
residuo. Se puede comprobar, observando la ecuacin 4.4, que este mtodo utiliza exactamente la
misma medida que las transformadas, lo que redunda en el uso de algoritmos de clculo rpidos,
ya desarrollados para stas. Aunque el principal problema parezca el clculo de la correlacin (que
debe realizarse en cada iteracin), se puede simplificar este clculo relacionando las correlaciones
entre iteraciones sucesivas. As, aplicando la relacin obtenida en la ecuacin 4.19, se puede
escribir,
< ri , gm >=< ri1 , gm > < ri1 , gm(i) >< gm(i) , gm >
(4.21)
(4.22)
Como consecuencia de esta propiedad, se puede decir que el mtodo MP extrae la proyeccin
del tomo ptimo en el espacio, como se observa en la figura 4.6.
Un resultado derivado a tener en cuenta es que la energa del residuo en la iteracin i se
puede expresar como,
||ri ||2 = ||ri1 ||2 + |m(i) |2
(4.23)
88
*,+.-/!0+2143)5 607
8 -!9146
89
0.2
0.1
0
-0.1
-0.2
0
0.5
(c) MP Coefs
Amplitude
1.5
1
0.5
0
-0.5
0.1
Figura 4.7: Descomposicin en un plano de fase de dos tonos prximos en frecuencia con el mtodo MP.
Figura obtenida mediante el toolbox atomizer de Matlab.
x[n]
I
X
i=1
(4.24)
90
91
gm D a
(4.25)
Para cada tomo del diccionario con baja resolucin, no se puede utilizar directamente la
correlacin, porque puede modificar el comportamiento local de la seal. En su lugar, como se
muestra a continuacin, hay que utilizar la similaridad, que se va a definir mediante la correlacin
con los tomos de alta resolucin y la correlacin cruzada entre stos y el tomo de baja resolucin
en cuestin. Para realizar este proceso, se define un subconjunto de tomos g m Lm asociado
a cada tomo con baja resolucin gm Db . Los tomos del subconjunto Lm se eligen de entre
los tomos de alta resolucin que tienen un soporte temporal incluido en el soporte del tomo
gm y estn modulados en la misma frecuencia.
En general, para los tomos pertenecientes al subconjunto Lm , la correlacin hri , gm i representa la cantidad de energa de ri localizada en la seccin tiempo-frecuencia de gm . Por lo
tanto, la medida que se utilice en HRP para representar el peso de g m Db no debe daar la
energa local de la seal, es decir debe cumplir,
|hS(ri1 , gm )gm , gm i| |hri1 , gm i|
(4.26)
92
mn
gm Lm
|hri1 , gm i|
,
|hgm , gm i|
gm D b
(4.27)
donde se incluye para no daar a ninguno de los componentes del subconjunto L m . Aunque
se escoja el valor mnimo de todos los valores del subconjunto, la eleccin es vlida siempre que
todas las correlaciones cruzadas tengan el mismo signo, dado se evala segn:
Si hri1 , gm i tiene el mismo signo para todos los tomos gm Lm , entonces es el signo
comn.
En otro caso = 0.
En MP, el producto interno usado no tiene en cuenta si el tomo elegido tiene o no una
resolucin adecuada, por lo que al utilizar esta medida se puede variar el comportamiento local
de la seal. Sin embargo, en HRP se utiliza el producto interno slo para los tomos con alta
resolucin, usando para los tomos con baja resolucin la similaridad definida en la ecuacin
(4.27). Esto evita crear energa donde no la haba en la seal original y, adems, permite distinguir
caractersticas con alta resolucin temporal.
La implementacin del mtodo se puede resumir, a partir de la ecuacin inicial como,
(
x
i=0
i
(4.28)
r =
ri1 S(ri1 , gm(i) )gm(i) i > 0
Para elegir el tomo ptimo gm(i) en la iteracin i-sima, es necesario calcular el valor de la
medida de la similaridad para todos los tomos del diccionario S(r i1 , gm ). Este valor se calcula
dependiendo de la resolucin propia de cada tomo:
S(r
i1
, gm ) =
hri1 , gm i,
mngm Lm
|hri1 ,gm i|
|hgm ,gm i| ,
gm D a
gm D b
(4.29)
(4.30)
93
a. Carbon Signal
0.8
Frequency
0.5
0.6
0.4
0.2
0.5
0
0.5
0
0
c. BP Phase Plane
0.6
0.4
0.2
0
0
d. MP Phase Plane
0.8
Frequency
Frequency
0.8
0.5
Time
0.6
0.4
0.2
0.5
Time
0
0
0.5
Time
Figura 4.8: Descomposicin de una seal formada por cuatro elementos del diccionario. (a) Seal en el
tiempo. (b) Descomposicin con HRP. (c) Descomposicin con BP. (d) Descomposicin con MP. Figura
obtenida mediante el toolbox atomizer de Matlab.
94
como tamao tenga el subconjunto Lm , por lo que el nmero de operaciones depende de este
valor.
El algoritmo HRP ha sido utilizado con xito en la extraccin de caractersticas, en la resolucin de direcciones de llegada [Jaggi98], as como en audio con un diccionario compuesto de
con tomos de Gabor [Gribonval96] .
4.2.3.
Resultados
A continuacin, se incluyen una serie de ejemplos tomados de [Chen95], en los que se pretende
analizar el rendimiento de algunos mtodos para la obtencin de descomposiciones atmicas. En
general, cabe decir que el rendimiento de cada mtodo es muy dependiente de la aplicacin y la
seal de entrada a analizar. Sin embargo, cada mtodo tiene una serie de problemas, que pueden
aparecer para cualquier seal de entrada. La finalidad de este apartado es mostrar grficamente
los problemas comentados previamente en la explicacin de cada mtodo.
En primer lugar, se presenta la figura 4.9, que pretende mostrar los problemas que se producen
con el mtodo matching pursuits cuando la seal de entrada est formada por elementos del
diccionario con alta correlacin cruzada entre ellos. La seal de prueba en este caso est formada
por dos senos muy prximos en frecuencia, y se analiza con un diccionario DST (Discrete Sine
Transform) . Como se observa en la figura, el mtodo MOF obtiene una representacin muy poco
compacta, puesto que la energa de la seal se reparte entre muchos elementos del diccionario.
Adems, el mximo de energa no est en los tomos que forman la seal sino en un mximo
intermedio a ambos. Para el caso de matching pursuits, se produce un error en la primera iteracin
del diccionario, al extraer un tomo intermedio entre los dos que forman la seal. Se puede
observar que este error no tiene solucin, al tratarse de un mtodo iterativo, y, en las iteraciones
siguientes, el algoritmo simplemente trata de arreglar esta mala eleccin inicial. Por su parte, el
algoritmo BP obtiene la descomposicin ideal, pudiendo discriminar los dos tomos que forman
la seal. Como conclusin, cabe decir que el mtodo BP, al tratarse de un mtodo paralelo, tiene
una mayor resolucin que los mtodos iterativos y el mtodo MOF, a costa de incrementar la
complejidad computacional.
A continuacin, se analiza la descomposicin obtenida por los distintos mtodos revisados, con
seales sintticas generadas, para comprobar la adaptacin de cada mtodo a sus caractersticas.
En primer lugar, en la figura 4.10 se analiza una seal formada por una delta de Dirac, un tono y
cuatro tomos wavelet packets. Para todos los mtodos, se utiliza un diccionario wavelet packets.
El plano de fase obtenido por el mtodo MOF es muy difuso e incluye gran cantidad de elementos
del diccionario. El mtodo MP ofrece un buen resultado para la delta y el tono, pero comete
errores al descomponer los cuatro tomos wavelet packets, al estar muy prximos en el plano
tiempo-frecuencia. La descomposicin obtenida bajo las siglas BOB (Best Orthogonal Basis) se
consigue determinando la base wavelet packets ortogonal que obtiene la mejor descomposicin
bajo un criterio dado. En este caso, se puede observar como esta descomposicin tiene problemas
en distinguir correctamente la delta temporal del tono en el plano de fase, por lo que obtiene un
resultado ms pobre que MP. El mejor resultado, de nuevo, se obtiene con el mtodo BP.
El siguiente ejemplo es el de la figura 4.11. En este caso, la seal no est formada por
elementos del diccionario, ya que la seal se sintetiza mediante la suma de un tono puro y una
seal FM obtenida mediante la modulacin de un tono. El diccionario se forma a partir de un
95
0.2
1.5
Amplitude
0.1
0
-0.1
0.5
0.5
-0.5
(c) MP Coefs
0.1
2
1.5
Amplitude
1.5
Amplitude
-0.2
0
1
0.5
0
-0.5
1
0.5
0
0.1
-0.5
0.1
96
1
Frequency
2
1
0
1
Frequency
0.5
0
0
0.5
Time
(e) Phase Plane: MP
0.5
Time
0.5
Time
(d) Phase Plane: BOB
0.5
Time
(f) Phase Plane: BP
0.5
Time
0.5
0
0
0.5
0
0
0.5
0
0
Frequency
Frequency
0.5
Frequency
-1
0
0.5
0
0
Figura 4.10: Comparacin del resultados de mtodos para obtener descomposiciones con una seal formada por una delta de Dirac, un tono y cuatro funciones wavelet-packets. Se utiliza un diccionario wavelet
packets. Figura obtenida mediante el toolbox atomizer de Matlab.
97
2
0
0.5
Time
(e) PhasePlane: MP
0.5
Time
0.5
Time
(d) PhasePlane: BOB
0.5
Time
(f) PhasePlane: BP
0.5
Time
0.5
0
0
0.5
0
0
0.5
0
0
Frequency
Frequency
Frequency
0.5
Frequency
-2
0
0.5
0.5
0
0
Figura 4.11: Comparacin del resultados de mtodos para obtener descomposiciones con una seal formada un tono ms una seal tonal modulada en FM. Se utiliza un diccionario cosine packets. Figura
obtenida mediante el toolbox atomizer de Matlab.
rbol cosine packets. Debido a que ahora el diccionario no puede representar de forma exacta la
seal con unos pocos tomos, los planos de fase obtenidos no se corresponden en ningn caso
con el plano de fase ideal. Pese a ello, se puede afirmar que el plano de fase del mtodo BP es el
ms parecido al plano ideal, obteniendo un resultado similar a efectos prcticos los mtodos MP
y BOB, mientras que el mtodo MOF vuelve a producir el resultado ms pobre.
Como conclusin, cabe decir que, en general, el mtodo BP obtiene una descomposicin ms
apropiada, a costa de incrementar el coste computacional. El mtodo MP obtendr una descomposicin mejor que la determinacin de la mejor base ortogonal (BOB) cuando el diccionario
sea altamente sobrecompleto, puesto que en este caso el mtodo MP dispone de muchos tomos
para realizar la descomposicin, y el mtodo BOB, al fin y al cabo, es la mejor transformada
posible (que tiene tantas funciones base como longitud tenga la seal). El mtodo MOF no tiene
aplicacin prctica, puesto que los resultados que se obtienen no son satisfactorios en ningn
caso.
Para finalizar los ejemplos de seales, se introduce la figura 4.12 donde se analiza una seal
transitoria de audio con un diccionario de cosine-packets. El plano de fase ideal de esta seal debe
reflejar altas frecuencias en el momento del golpe del instrumento y, despus, la frecuencia debe
acercarse cada vez ms a la frecuencia de resonancia producida. Como se observa en la figura,
este plano de fase se obtiene con todos los mtodos, sin que haya una diferencia apreciable entre
ellos (salvo para MOF). Quizs, la descomposicin con BP proporcione un resultado ms claro,
aunque las diferencias son mnimas. As pues, para seales prcticas, que no estn formadas por
98
1
0
-1
0
0.5
(c) Phase Plane: MOF
0.5
0
0.5
0.5
0.55
Time
0.6
0.5
0.5
0
0.5
0
0.65
Frequency
0.55
0.6
Time
(e) Phase Plane: MP
1
Frequency
Frequency
Frequency
0.65
0.55
0.6
Time
(f) Phase Plane: BP
0.65
0.5
0
0.5
0.55
Time
0.6
0.65
Figura 4.12: Comparacin del resultados de mtodos para obtener descomposiciones con un transitorio de
audio. Se utiliza un diccionario cosine packets. Figura obtenida mediante el toolbox atomizer de Matlab.
elementos del diccionario, y que no tienen un plano tiempo frecuencia conocido, los resultados
obtenidos son similares para todos los mtodos (salvo para MOF).
Por ltimo, es interesante incluir un ejemplo prctico de aplicacin para las descomposiciones
atmicas. Para varios mtodos de descomposicin como BP o MP, se puede obtener una aproximacin de la seal en pocas iteraciones de los algoritmos de clculo. Por lo tanto, una aplicacin
ideal para probar la validez de estos mtodos es la eliminacin de ruido o denoising. En el caso de
matching pursuits, al utilizar la correlacin como herramienta de clculo, la potencialidad para
eliminar ruido blanco de la seal (incorrelado con la misma y con los tomos del diccionario)
es enorme. En el caso de basis pursuits, si se utiliza como algoritmo de clculo interior point,
se puede detener el algoritmo en una iteracin temprana con una aproximacin basada en unos
pocos tomos de la seal. En general, para todas las descomposiciones, la eliminacin de ruido
se realiza mediante umbralizacin, ya sea de la transformada obtenida mediante BOB, de la descomposicin por el mtodo MOF, o deteniendo el clculo de la descomposicin en una iteracin
dada en MP o BP con interior point.
En la figura 4.13 se dibuja la seal resultado para las diferentes formas de obtener una
descomposicin. Como se observa en la parte de seal donde est el transitorio, los resultados
son similares para BP y MP, y algo peores para BOB, siendo realmente malos para MOF.
Para aplicaciones prcticas, los diferentes mtodos obtienen resultados similares. No obstante,
conforme ms complejo es el mtodo, tiende a obtener mejores resultados. En la literatura ha sido
muy utilizada la descomposicin BOB (que estrictamente hablando no es una descomposicin
atmica), por ejemplo en audio [Ruiz01]. Sin embargo, dentro de una complejidad razonable,
99
20
20
0
-20
0
20
0.5
20
0.5
0.5
(e) Recovered: MP
-20
0
20
0
-20
0
-20
0
20
0
-20
0
0.5
(f) Recovered: BP
0.5
-20
0
0.5
Figura 4.13: Comparacin del resultados de mtodos de descomposiciones para eliminacin de ruido en
un transitorio de audio. Figura obtenida mediante el toolbox atomizer de Matlab.
est siendo utilizado cada vez ms el mtodo MP [Heusdens02] [Verma99], que obtiene una
descomposicin atmica y, por tanto, puede ser aplicado para obtener codificadores paramtricos
de audio.
4.3.
Para el desarrollo de un modelo general de descomposicin de seal, los tomos han de ser
elegidos de forma que se correspondan con las caractersticas bsicas de la seal. Este enfoque
se recomienda especialmente para aplicaciones de anlisis y codificacin de seal, porque cada
tomo puede describir un comportamiento concreto de la seal de entrada. Adems, si el diseo
del diccionario es paramtrico, en el sentido de que cada tomo est definido por parmetros con
significado fsico, tales como localizacin temporal, frecuencia de modulacin o escala, la relacin
entre estos parmetros y las caractersticas propias de la seal puede ser muy directa.
Caben distinguir dos enfoques en el diseo del diccionario. Por un lado, los primeros trabajos
en descomposiciones atmicas siguieron el camino de utilizar un gran diccionario generalista
que incluyera una gran variedad de comportamientos en la definicin paramtrica de los tomos
[Mallat93]. Sin embargo, esta aproximacin no es ptima desde el punto de vista de la complejidad
por el gran tamao del diccionario. Como consecuencia, se suele disear el diccionario en funcin
de la aplicacin para la que se utilice la descomposicin. Por ejemplo, para realizar un modelado
sinusoidal parece lgico implementar un diccionario compuesto de exponenciales complejas, sin
100
4.3.1.
tomos de Gabor
Este tipo de tomos se utiliza cuando se disea un diccionario de grandes dimensiones para
proporcionar una representacin tiempo-frecuencia de la seal, siendo la representacin resultante
paramtrica y compacta [Mallat93]. Los tomos de Gabor [Gabor46] son funciones con una buena
localizacin tiempo-frecuencia, que permiten modelar un gran rango de comportamientos de la
seal a analizar. Debido a esta propiedad, los tomos de Gabor se han convertido en un clsico en
la bibliografa sobre el tema, siendo su uso recurrente en descomposiciones de carcter general.
En tiempo continuo, los tomos de Gabor se obtienen, a partir de una ventana g(t), realizando
una modulacin en frecuencia y un desplazamiento y escalado en el tiempo:
1
g{s,, } (t) = g
s
t
s
ej(t )
(4.31)
Esta definicin se puede extender a tiempo discreto muestreando los tomos. Una forma de
escribir este muestreo es la siguiente:
g{s,, } [n] = fs [n ]ej(n )
(4.32)
donde fs [n] es una ventana de energa unidad que se puede escalar mediante el parmetro s.
Como se puede observar, aparte de normalizar la energa de cada tomo, un diccionario
formado por tomos de Gabor se indexa a partir de los parmetros {s, , }. Esta estructura
permite una descripcin muy simple de cada tomo, siendo muy valiosa en aplicaciones de anlisis
o compresin. Un diccionario compuesto por tomos de Gabor suele ser altamente sobre-completo
e incluir bases de Fourier (al variar la frecuencia) y wavelet (al variar la escala). Sin embargo, este
tipo de diccionario tiene unos importantes inconvenientes. Por un lado, debido al gran tamao
necesario para abarcar un conjunto suficientemente representativo de comportamientos tiempofrecuencia, la complejidad requerida para el clculo de la descomposicin es demasiado elevada
para la mayora de las aplicaciones de compresin, aunque se hayan ideado algunos algoritmos
para reducir la complejidad [Goodwin97]. Adems, el resultado de la descomposicin es altamente
dependiente de la ventana utilizada. De forma general, se utilizan ventanas simtricas. La figura
4.14 representa varios tomos a diferente frecuencia y escala para este caso concreto de ventana
simtrica.
Sin embargo, en aplicaciones donde la seal tiene un comportamiento transitorio, los tomos
de Gabor pueden no ser la mejor eleccin. En la figura 4.15 se aprecia el pre-eco producido por
la eleccin de una ventana simtrica en una seal formada por una exponencial amortiguada.
Una solucin a este problema puede consistir en el empleo del algoritmo high resolution
pursuits para el clculo de la descomposicin, aunque para seales transitorias puede haber
otros diccionarios ms apropiados, como por ejemplo el formado por sinusoides amortiguadas.
Este problema, surgido de la imposibilidad de un diccionario de representar correctamente
aquellas seales cuyo comportamiento no se adapta a los tomos que lo forman, puede aparecer
en funcin de las caractersticas de la seal. As, para el caso de la seal de audio o de la seal
101
Figura 4.14: tomos de Gabor con ventana simtrica variando la frecuencia de modulacin y la escala
de la ventana.
1
(a)
0
1
0
1
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
(b)
0
1
0
1
(c)
0
1
0
Figura 4.15: Representacin de un efecto de pre-eco producido al utilizar tomos de Gabor simtricos. (a)
Seal formada por una exponencial amortiguada. (b) Primer tomo de Gabor elegido mediante matching
pursuits. (c) Residuo tras la primera iteracin donde se aprecia el efecto de pre-eco.
radar, es comn encontrar ejemplos donde la frecuencia de la seal cambia con el tiempo, algo
no contemplado en la definicin de los tomos de Gabor. Esta modulacin en frecuencia o chirp
se puede incluir implementando un diccionario an ms amplio [Gribonval01]. Sin embargo, este
enfoque, basado en generalizar el diccionario para responder a cualquier comportamiento de la
seal de entrada, no parece la solucin ms idnea cuando la complejidad de la descomposicin
se incrementa exponencialmente con el tamao del diccionario. Al contrario, para poder realizar
descomposiciones acordes al problema a solucionar, se disean diccionarios a medida, donde se
mantienen slo las propiedades a analizar, reduciendo as el nmero de tomos y por tanto la
complejidad. A continuacin, se presentan una serie de diccionarios menos generalistas, adaptados
a aplicaciones concretas, a partir de los cuales se analizarn los problemas que aparecen en la
descomposicin de la seal de audio.
4.3.2.
Sinusoides amortiguadas
102
un diccionario formado por tomos de Gabor con tres parmetros, que ahora son: el factor de
amortiguamiento a, la frecuencia de modulacin y el tiempo de comienzo :
g{a,, } [n] = Sa a(n ) ej(n ) u[n ]
(4.33)
donde el factor Sa se incluye para conseguir norma unidad. Ejemplos de tomos de este tipo
se dibujan en la figura 4.16. Lgicamente, este tipo de tomos se puede definir tambin a partir
de tomos de Gabor con una ventana basada en una exponencial multiplicada por la funcin
impulso unidad.
En la literatura han aparecido diversos enfoques que utilizan tomos tiempo-frecuencia con
comportamiento exponencial. En [Friedlander95], las sinusoides amortiguadas se utilizan para
proporcionar una representacin tiempo-frecuencia a partir de la cual los transitorios de la seal
se pueden identificar fcilmente. Sin embargo, en esta referencia se supone un cierto conocimiento a priori del factor de amortiguamiento, que es razonable para aplicaciones de deteccin, pero
inapropiado para obtener descomposiciones de seales arbitrarias. En cualquier caso, un diccionario con sinusoides amortiguadas obtiene una descomposicin adecuada para seales transitorias [Goodwin97b]. En el caso concreto de la seal de audio, cuando se desea aplicar una
descomposicin atmica, este diccionario obtiene una descomposicin adecuada para representar
la parte transitoria [Nieuwenhuijse98]. El precio a pagar es una complejidad muy alta para el
modelado de los transitorios de audio, lo que ha hecho que su uso sea reducido en codificadores
paramtricos de audio.
4.3.3.
Exponenciales complejas
Cuando la descomposicin atmica se va a realizar sobre una seal muy tonal, como una
seal armnica de audio, los tomos a extraer deben estar basados en sinusoides. En el caso
particular de una seal real, el conjunto de tomos debera estar formado por un conjunto de
tonos de diferente frecuencia y fase :
g{,} [n] = Sc cos (n + )
(4.34)
donde Sc es una constante para obtener potencia unidad. Con estos tomos, el tamao del
diccionario viene determinado por el nmero de frecuencias y fases, siendo el tamao total la
multiplicacin de ambos valores. Sin embargo, haciendo uso de la matemtica compleja, el tamao
del diccionario se puede reducir significativamente. As, definiendo los tomos como exponenciales
complejas:
g [n] = Se ejn
103
(4.35)
no es necesario incluir la fase en la definicin de los tomos, puesto que sta se calcula por
medio de la matemtica discreta. Por ejemplo, si se aplica matching pursuits, la correlacin con
nmeros reales es un valor real de amplitud, mientras que para nmeros complejos, la correlacin
de la seal con cada tomo es ahora un valor complejo con amplitud y fase. Con esta definicin
de los tomos como exponenciales complejas, se reduce por tanto el tamao del diccionario a
slo el nmero de frecuencias que necesite la descomposicin atmica.
En el caso particular de emplear matching pursuits para el clculo de la descomposicin atmica, es posible realizar una modificacin del algoritmo que permite un funcionamiento apropiado
con tomos complejos y seales reales. Esta modificacin del algoritmo se basa en extraer en
cada iteracin un subespacio de seal, por lo que se conoce en la bibliografa como subspace
pursuits [Verma99] [Goodwin97]. Un subespacio de seal se define como una suma ponderada de
varios tomos, siendo estos subespacios la seal que se extrae en cada iteracin. En el caso de
exponenciales complejas, el subespacio de seal est formado por la suma de cada tomo y su
complejo conjugado. De esta forma, cada subespacio es real y, como estos subespacios son los que
se extraen de la seal, el residuo final tambin lo es. Esta definicin de subespacios para tomos
exponenciales complejos se denomina en ingls conjugate subspaces. Para esta situacin, en cada
iteracin i, se extrae un tomo g(i) con su coeficiente (o peso) asociado (i) y su conjugado,
i
r =
x
i=0
i1
r
((i) g(i) + (i) g(i) ) i > 0
(4.36)
donde el coeficiente (i) = |(i) |ej es un valor complejo con mdulo y fase, pudindose
escribir el residuo en funcin del coseno para el caso de tomos exponenciales complejos como,
ri =
x
i=0
i1
r
2Se |(i) |cos(n + ) i > 0
(4.37)
4.3.4.
104
(4.38)
donde la secuencia g{s,p} [n] es la versin en el tiempo de la funcin en el dominio z, G{s,p} (z).
Esta funcin se puede calcular directamente a partir de las funciones de transferencia de los filtros
de sntesis paso bajo y paso alto, G0 (z) y G1 (z), respectivamente, de la transformada WPT. Estos
filtros son los que implementan la transformada WPT inversa. Resumiendo, la funcin G {s,p} (z)
se puede expresar como [Vera04a]:
G{s,p} (z) =
p1
Y
d=0
G((bs/2d c))2 (z 2 )
(4.39)
donde ((k))L representa (k modulo L). Como se puede observar, una vez que se decide la
transformada a utilizar, los tomos de la descomposicin son las respuestas al impulso de cada
coeficiente de la transformada. De esta forma, el clculo de la correlacin se simplifica a calcular
la transformada directa.
105
Para el caso del mtodo matching pursuits, la ventaja adicional de utilizar un diccionario
estructurado en una transformada es la obtencin sencilla de las correlaciones cruzadas entre
tomos necesarias para la actualizacin de las mismas. Por ejemplo, en el caso de diccionario
wavelet packets, la memoria para guardar las correlaciones cruzadas se reduce a la necesaria
para almacenar las respuestas al impulso de cada funcin base o coeficiente [Vera04a]. Debido a
esta caracterstica, los diccionarios basados en transformadas necesitan menos requerimientos de
memoria que otros diccionarios previamente revisados, como los tomos de Gabor o las sinusoides
amortiguadas. En general, los diccionarios basados en una transformada precisan un nmero de
tomos reducido. En el caso de la WPT, dicho nmero viene determinado por la profundidad de
la transformada. Adems, estrictamente hablando, no se trata de diccionarios paramtricos, en
el sentido de que los parmetros del diccionario no tienen sentido fsico en relacin a la seal a
analizar.
4.3.5.
Diccionarios mixtos
106
4
2
0
2
4
6
0.2
0.4
0.6
0.8
10
10
0.2
0.4
Posicion
0.6
0.8
10
20
0.2
0.4
0.6
Frecuencia discreta
0.8
5
0
5
10
15
20
10
0.2
0.4
Posicion
0.6
0.8
25
0.2
0.4
0.6
Frecuencia discreta
0.8
Figura 4.17: Ejemplo de uso de un diccionario mixto. (a) Seal formada por un seno ms dos impulsos
unidad retardados en el tiempo . (b) Coeficientes obtenidos mediante BP con un diccionario de impulsos
unidad. (c) Coeficientes con BP y un diccionario DST (Discrete Sine Transform). (d) Coeficientes de la
parte de impulsos unidad del diccionario mixto (impulsos unidad ms DST) con BP. (e) Coeficientes de
la parte DST del diccionario mixto (impulsos unidad ms DST) con BP.
107
108
Parte II
Desarrollo y Metodologa de la
Investigacin
109
Captulo 5
Modelado sinusoidal
A partir de la revisin realizada anteriormente acerca del modelado sinusoidal, se llega a la
conclusin de que hay una gran cantidad de posibles opciones a la hora de mejorar los resultados
de este modelo implementado mediante una simple deteccin de picos espectrales en la DFT.
A la hora de elegir la opcin ms apropiada es muy importante tener en cuenta las siguientes
consideraciones:
Tiempo computacional Cuando el funcionamiento en tiempo real es un requisito indispensable a la hora de implementar el modelado tonal, es necesario evitar algoritmos con carcter
iterativo [Myburg04]. Bajo esta premisa, los mtodos de clculo disponibles son aquellos
que optimizan los parmetros sinusoidales de manera global. Para este grupo de algoritmos,
se utiliza como primera aproximacin los valores calculados mediante la DFT y la deteccin
de picos espectrales para, posteriormente, utilizar algn tipo de mtodo numrico para minimizar las desviaciones que se producen en el cmputo de los parmetros sinusoidales. Los
mtodos ms utilizados en codificacin paramtrica de audio son la estimacin por mxima semejanza propuesta en [Thomson82] y utilizada en el codificador HILN [Purnhagen02]
y en los codificadores hbridos de Ali [Ali95] y Levine [Levine98], y la minimizacin por
mnimos cuadrados propuesta en [George87] y usada en la versin escalable del codificador
PPC [Myburg04].
Inclusin de informacin perceptual Los mejores resultados prcticos a la hora de implementar un modelo sinusoidal se consiguen mediante el algoritmo matching pursuits [Myburg04].
El precio a pagar es el incremento de la complejidad computacional debido al uso de un
algoritmo de carcter iterativo. Sin embargo, el uso de matching pursuits aporta como ventaja adicional la posible modificacin del algoritmo para incluir informacin psicoacstica
en la seleccin del tono ms importante en cada iteracin. As, por definicin [Mallat93],
el mtodo MP elige en cada iteracin el elemento del diccionario que extrae mayor energa del residuo actual. Esta medida de energa, que se calcula mediante la correlacin,
se puede modificar [Verma99b] [Heusdens02b] para extraer el tomo perceptualmente ms
importante con la simple introduccin en las ecuaciones del umbral de enmascaramiento
calculado para los tonos. Con esta modificacin, el algoritmo MP tiene una gran potencialidad como herramienta para calcular el modelo tonal en aplicaciones de codificacin de
audio, de tal forma que en este apartado se revisar con detalle la forma de implementar
111
112
5.1.
2k
n
2L
k = 0, . . . , L,
n = 0, . . . , N 1
(5.1)
donde la constante Sw se elige para obtener tomos de norma unidad, w[n] es la ventana de
anlisis de longitud N y L + 1 el nmero de frecuencias dentro del diccionario.
En cada iteracin, el residuo se calcula a partir de la expresin (en notacin matricial),
(
x
i=0
i
(5.2)
r =
i1
r
(k(i) gk(i) + k(i) gk(i) ) i > 0
donde el coeficiente k(i) = |k(i) |ej es un valor complejo con mdulo y fase, pudindose
escribir en funcin del coseno como,
(
x
i=0
(5.3)
ri =
2k
i1
r
2Sw w|k(i) |cos( 2L n + ) i > 0
Para conocer el tomo ptimo y su coeficiente asociado, se minimiza la energa del residuo
en cada iteracin,
mn ||ri ||2
gk D
(5.4)
En cada iteracin se elige el peso que minimiza la norma l 2 de ri , que se corresponde con
el coeficiente del tomo ptimo i(k) . Introduciendo el valor de ri y minimizando la funcin, se
obtiene que lo anterior equivale a maximizar
max 2Re{(ik ) < ri1 , gk >} |ik |2 kgk k2 Re{(ik )2 < gk , gk >}
gk D
(5.5)
113
gk D
||ik ||2
para
ik
(5.6)
> = 0
< ri , gk(i)
(5.7)
Se puede comprobar que el clculo de los pesos de cada tomo cumple el principio de ortogonalidad, y que ahora el residuo en la iteracin i, ri , es ortogonal al tomo ptimo gk(i) y a su
conjugado,
De la misma forma que para el algoritmo matching pursuits con un diccionario simple, para
el caso de subespacios de complejos conjugados, es tambin posible la obtencin de una ecuacin
para actualizar las correlaciones de forma rpida,
< ri , gk >=< ri1 , gk > k(i) < gk(i) , gk > k(i) < gk(i)
, gk >
5.1.1.
(5.8)
Implementacin eficiente
N
1
X
n=0
xw [n]ej
2k
n
2L
= Sw Xw [k]
(5.9)
donde xw [n] = x[n] w[n] es la seal de entrada multiplicada por la ventana, Xw [k] es la
DFT de longitud 2L de la seal de entrada enventanada y L > N , siempre que se quiera tener
un diccionario sobre-completo. Para calcular las correlaciones iniciales, como se expresa en (5.9),
es necesario, por tanto, aplicar la FFT a la seal de entrada enventanada, rellenando con ceros
hasta llegar a una longitud 2L.
La misma consideracin se puede hacer a la hora de pre-calcular las correlaciones cruzadas
entre los tomos del diccionario,
2(kk(i))
PN 1
< gk(i) [n], gk [n] > = |Sw |2 n=0
u[n]ej 2L n
= |Sw |2 U [((k k(i)))2L ]
2(k+k(i))
PN 1
j
n
[n], g [n] > = |S |2
2L
< gk(i)
w
k
n=0 u[n]e
= |Sw |2 U [((k + k(i)))2L ]
(5.10)
(5.11)
donde u[n] = |w[n]|2 and U [k] la DFT de longitud 2L de u[n] y ()2L denota modulo 2L. Al
ser u[n] una seal real basta con almacenar L + 1 valores de la transformada U [k] para aplicar
la actualizacin de correlaciones.
A partir de las ecuaciones (5.10) y (5.11), se deduce que las correlaciones entre el tomo
ptimo gk(i) [n] en la iteracin i-sima y el resto de tomos gk [n] D tambin se pueden calcular
mediante la FFT, en este caso conociendo la transformada de la ventana al cuadrado (u[n] =
114
|w[n]|2 ). Por lo tanto, dicha transformada se tiene que pre-calcular y guardar en memoria para
actualizar las correlaciones de forma directa.
El uso de un diccionario de exponenciales complejas permite [Verma99]: 1) calcular las correlaciones iniciales entre la seal y los tomos del diccionario mediante una FFT de longitud
2L; 2) que las correlaciones cruzadas entre tomos del diccionario slo requieran una memoria
compleja de longitud L + 1.
5.1.2.
Las seales no estacionarias se pueden analizar trama a trama, de forma que la seal se
enventana en cada trama donde posee caractersticas estacionarias o, al menos, cambian poco.
Una condicin suficiente para asegurar la convergencia del modelo tonal mediante matching
pursuits se expresa a continuacin,
X
l
(5.12)
w[n lP ] = 1
donde P N representa el salto de seal entre tramas. Se pueden utilizar varios tipos
de ventanas. La ventana ms extendida es la ventana triangular [Verma99], pero esta eleccin
conlleva un solapamiento que en la prctica provoca el incremento del nmero de tonos por
muestra.
En esta tesis se propone el uso de ventanas que eviten por completo el solapamiento en (5.12).
Para ello, se consideran ventanas rectangulares en el modelo tonal. Esta eleccin trae consigo la
apariencia de un efecto de bloque (artefactos audibles) en las fronteras entre tramas, inconveniente que se solventa si en el receptor, a la hora de sintetizar la seal tonal, hay un pequeo
solapamiento entre tramas adyacentes [Vera04b]. La forma de implementar esta idea es extendiendo en sntesis las tramas ms all de su duracin en anlisis, usando ventanas trapezoidales que
suavicen la transicin entre tramas. Con estas ventanas de sntesis, se consigue que los tonos que
desaparecen de una trama a la siguiente no lo hagan de forma brusca, o los tonos que empiezan lo
hagan de una forma suave. La mayor ventaja de este enfoque es que se evita el solapamiento en
la etapa de anlisis, siendo sta una propiedad muy interesante para aplicaciones de codificacin
que usen el model tonal.
Una forma alternativa al uso de ventanas es el empleo de la interpolacin de parmetros
sinusoidales entre tramas de la seal de audio [George97]. Esta tcnica hace uso de las trayectorias
tonales que surgen en el modelo tonal, lo que significa que generalmente muchos tonos de una
trama continan generalmente en la siguiente, puesto que el modelo tonal trabaja con la parte
armnica de la seal de audio. Para conseguir que el modelo pueda seguir las variaciones de la
seal de entrada, se introduce la interpolacin de parmetros en la ecuacin (5.13),
x[n] x
[n] =
K
X
k=1
(5.13)
es decir, los valores Ak [n], k [n] y k [n] se detectan en cada trama, se relacionan los tonos
entre tramas adyacentes para formar trayectorias, y se modifican los parmetros entre una trama
y otra siguiendo un procedimiento de interpolacin que, generalmente, es lineal para la amplitud
y polinmico para la frecuencia y fase [George97].
115
Anlisis
sinusoidal
Parmetros
sinusoidales
Descripcin
Clavicordio
Diapasn
Gaita
Punteos de guitarra
Sntesis
sinusoidal
residuo
Figura 5.1: Esquema experimental usado para comparar de forma objetiva diferentes mtodos de implementacin del modelo tonal.
A continuacin, se comparan ambos mtodos de sntesis tonal, pero antes es necesario poner
de manifiesto que, desde el punto de vista de la implementacin, el tratamiento de ventanas
es ms rpido, puesto que es posible realizar la implementacin en frecuencia mediante la FFT
[Goodwin97]. Esta implementacin se realiza sumando en frecuencia la transformada de cada
tono extrado de la seal, realizando, una vez sumados todos los tonos, la transformada inversa y
obteniendo la seal en el tiempo. Sin embargo, mediante la interpolacin de parmetros, esto no
es posible, puesto que al variar los parmetros (amplitud, frecuencia y fase) de cada tono con el
tiempo n, es necesario realizar la sntesis de la seal en el tiempo mediante un oscilador. Como
resultado, es necesario para implementar la interpolacin de parmetros un banco de osciladores,
donde hay un oscilador por cada frecuencia a sintetizar.
Para determinar el mejor mtodo de anlisis/sntesis para implementar el modelo sinusoidal,
se han llevado a cabo varios experimentos con un conjunto de seales de prueba mono de calidad
CD y alto contenido tonal. Las seales de audio elegidas son un subconjunto de las seales de
prueba de MPEG-4 y se listan en la tabla 5.1.
La medida objetiva para comparar los diferentes mtodos ser la relacin residuo a seal
(RSR, Residual to Signal energy Ratio). Esta relacin se calcula comparando la energa de la
seal de entrada con el residuo obtenido tras aplicar el modelo tonal. Este residuo es el resultado
de restar a la seal de entrada la seal salida del modelo tonal, es decir, la seal sintetizada tras
extraer los parmetros con el modelo tonal. Un esquema de la obtencin de esta seal residuo
aparece en la figura 5.1.
Los diferentes mtodos evaluados para las etapas de anlisis y sntesis sinusoidal son:
A. Extraccin tonal mediante bsqueda de picos espectrales en la DFT (spectral peak picking),
y sntesis mediante interpolacin de parmetros [Mcaulay86].
B. Extraccin tonal mediante matching pursuits, y sntesis mediante interpolacin de parmetros del modelo tonal.
C. Extraccin tonal mediante matching pursuits, y uso de enventanado con ventana triangular
tanto en anlisis como en sntesis [George97][Verma99].
116
14
12
12
10
10
14
8
6
4
6
4
50
20
30
40
10
Nmero de frecuencias por segmento
SM01
14
12
12
10
10
14
2
0
8
6
4
2
0
SI03
40
50
10
20
30
Nmero de frecuencias por segmento
SM03
8
6
4
2
40
50
10
20
30
Nmero de frecuencias por segmento
40
50
10
20
30
Nmero de frecuencias por segmento
Figura 5.2: Variacin de la relacin residuo a seal RSR( %) conforme aumenta el nmero de frecuencias
extradas para los cuatro mtodos considerados: A (rombos), B (tringulos), C (crculos), D (cuadrados).
D. Extraccin tonal mediante matching pursuits, y uso de enventanado con ventana rectangular en anlisis y trapezoidal (con un solapamiento del 10 %) en sntesis (mtodo propuesto).
Los resultados que se muestran a continuacin se han obtenido con un diccionario de exponenciales complejas con L + 1 = 4097 frecuencias y una longitud de trama de N = 1024
muestras.
En primer lugar, se comparan resultados con valores objetivos obtenidos por los mtodos
anteriormente citados. As, en la figura 5.2 se muestran los valores medios de la relacin residuo
a seal, expresados en porcentaje RSR( %), conforme aumenta el nmero de frecuencias extradas
por el modelo sinusoidal.
Como se observa en la figura 5.2, los mtodos C y D mejoran claramente los resultados de los
mtodos A y B. La diferencia entre ambos grupos est en el empleo de interpolacin en sntesis
(mtodos A y B) frente al empleo de un esquema de enventanado (mtodos C y D). Por lo tanto,
una conclusin importante es que el uso de la interpolacin de parmetros limita los resultados
del modelo sinusoidal. En este sentido, la interpolacin no es capaz de seguir las variaciones de
la seal de entrada, lo que hace imposible reducir la relacin residuo a seal. Al contrario, el
enventanado es una tcnica de reconstruccin perfecta, es decir, cuando el nmero de frecuencias
tienda a infinito la relacin residuo a seal tender a cero.
Una vez que se ha comprobado la ventaja de utilizar enventanado en trminos objetivos, se
pasa a comprobar qu ventanas es recomendable utilizar. En la bibliografa, es generalizado el uso
de ventanas triangulares tanto en anlisis como en sntesis cuando matching pursuits se utiliza
60
40
20
0
40
20
6
RSR (%)
40
20
10
6
RSR (%)
10
10
SM03
80
60
60
10
SM01
80
No. de frecuencias en media
6
RSR (%)
SI03
80
No. de frecuencias en media
80
117
60
40
20
0
6
RSR (%)
Figura 5.3: Nmero de frecuencias necesarias para conseguir un valor fijo de relacin residuo a seal
RSR( %) para los mtodos C (crculos) y D (cuadrados).
como algoritmo de clculo [Verma99] [Goodwin97]. Sin embargo, el inconveniente de este enfoque
es el solapamiento producido por la ventana triangular, que es del 50 %. Este solapamiento
incrementa el nmero de frecuencias por muestra y, como consecuencia, el rgimen binario en
aplicaciones de codificacin. Como se ha dicho anteriormente, se propone el uso de ventanas
rectangulares en anlisis, que eviten el solapamiento, y trapezoidales en sntesis, que eviten el
efecto de bloque entre segmentos. La comparacin objetiva entre ambos mtodos de ventanas se
representa en la figura 5.3. Ahora, se dibuja el nmero de frecuencias que hay que extraer para
lograr un valor dado de relacin residuo a seal RSR( %) para los mtodos C y D. Se puede
apreciar como l mtodo D propuesto consigue los mejores resultados.
La explicacin de este resultado hay que buscarla en las ventanas de anlisis. Parece lgico
que la ventana rectangular en anlisis consiga extraer ms energa de la seal que la ventana
triangular, lo que se traduce en una menor relacin residuo a seal. Esto ocurre pese a que para
el mtodo D se cambie la ventana de sntesis a ventana trapezoidal. Claramente, este hecho debe
de incrementar la relacin RSR final, puesto que en las fronteras entre segmentos no se est
sintetizando con la misma ventana con la que se analiz la seal. Finalmente, se puede afirmar
que el empleo de la ventana rectangular en anlisis compensa con creces el hecho de usar ventana
trapezoidal en sntesis.
Para comprobar la calidad subjetiva del mtodo propuesto, se propone cuantificar los parmetros tonales del bloque de anlisis, segn el esquema presentado en [Vera04b]. Para que la comparacin entre mtodos sea justa, se utilizar este mismo esquema de cuantificacin para todos
los mtodos de modelado sinusoidal. El diagrama de bloques del sistema usado para comparar
118
trama de
audio
Anlisis
Sinusoidal
parmetros
sinusoidales
Modelo
Perceptual
Sntesis
Sinusoidal
residuo
Sntesis
Sinusoidal
Cuantificacin
eliminacin
de tonos no
audibles
tonos
parmetros
tonales
cuantificados
Figura 5.4: Esquema experimental usado para comparar de forma subjetiva diferentes mtodos de implementacin del modelo tonal.
la calidad subjetiva de los diferentes mtodos aparece en la figura 5.4. Para medir la calidad
subjetiva con este sistema, se comparar la seal original con la suma del residuo y la seal
procedente del modelo tonal con parmetros cuantificados.
Los test de calidad subjetiva se han realizado entre 10 personas del departamento siguiendo
la recomendacin ITU-R BS.1116-1 [ITU-R97] para la evaluacin de pequeas desviaciones de
calidad en seales de audio. Esta recomendacin proporciona un resultado en una escala de 0 a
5 (escala MOS), tras escuchar el sujeto evaluador 3 veces las seales de test, 2 veces el original
y 1 la seal evaluada, con referencia ciega, es decir, sin informarle de cul es la seal original.
En la figura 5.5 se comparan los resultados subjetivos de los cuatro mtodos considerados para
el modelado sinusoidal, extrayendo 25 tonos por trama. Los valores subjetivos se han presentado
en M OS, que es la variacin en calidad subjetiva entre el original y la suma de los tonos
cuantificados y el residuo. Las mayores diferencias en calidad subjetiva aparecen con el uso de
la interpolacin (mtodos A y B), puesto que este enfoque para la sntesis tonal no es capaz de
seguir las variaciones rpidas de la seal de audio. Las variaciones entre mtodos de enventanado
son inapreciables.
Como conclusin, cabe decir que el uso de exponenciales complejas como elementos del diccionario del algoritmo matching pursuits permite una implementacin eficiente basada en la
FFT. Adems, el uso del enventanado permite usar la FFT en la sntesis del modelo tonal. Se
ha demostrado que el uso de ventana rectangular en anlisis y trapezoidal en sntesis da lugar a
los mejores resultados del modelo tonal y evita el solapamiento entre segmentos de anlisis. Este
esquema de funcionamiento proporciona una herramienta rpida y eficiente de implementar el
modelo tonal, pero no tiene en cuenta en ningn momento principios psicoacsticos para extraer
los tonos de la seal.
5.2.
Una modificacin deseable del mtodo MP es la seleccin en cada iteracin del tomo perceptualmente ms importante. En el caso del modelo sinusoidal, esta estrategia se puede basar en
119
0,7
0,6
0,5
mtodo A
mtodo B
mtodo C
mtodo D
0,4
0,3
0,2
0,1
0
si01
si03
sm01
sm03
Figura 5.5: Resultados subjetivos en M OS comparando los mtodos evaluados de modelado sinusoidal.
principios psicoacsticos, ya que estn bien estudiadas las propiedades del odo cuando la seal
que lo excita es un tono estable [Zwicker90].
En todos los casos, el algoritmo matching pursuits escoge el tomo que tiene un peso asociado
con mayor energa, por lo que se dice que est guiado por energa,
max ||ik ||2
gk D
(5.14)
ya sea para el mtodo MP simple o extrayendo un subespacio conjugado, como ocurre con
un diccionario de exponenciales complejas para implementar el modelo tonal.
Se define un algoritmo matching pursuits con guiado perceptual como aquel que escoge en
cada iteracin el tomo ms importante psicoacsticamente, es decir,
max ||ik ||perceptual
gk D
(5.15)
Por lo tanto, es necesario definir una medida perceptual, a partir del valor del peso de cada
tomo en el mtodo MP convencional (guiado por energa). En este sentido, han aparecido en la
bibliografa varias propuestas, cada una de ellas con problemas asociados, que se comentarn a
continuacin.
5.2.1.
|ik |2 |G[k]|2
T [k]
(5.16)
donde G[k] es transformada discreta de Fourier del tomo gk y T [k] el umbral de enmascaramiento en la frecuencia k. Esta medida perceptual simplemente modifica la energa por la
relacin seal a mscara en la frecuencia de la exponencial compleja k. Uno de los inconvenientes
120
de este enfoque es que slo est pensado para su uso con exponenciales complejas, ya que slo
evala la relacin seal a mscara en el valor de la frecuencia k. Como ventaja, est la rapidez
en el clculo de la medida perceptual.
5.2.2.
Una mejora con respecto a WMP se presenta en [Heusdens02] y es conocida como PsychoacousticAdaptive Matching Pursuits (PAMP). La mejora consiste en sustituir la relacin seal a mscara
a la frecuencia del tono por el rea comprendida entre el tono y la mscara, puesto que el odo
es un elemento que evala la seal en todas las frecuencias, no slo en la frecuencia del tono de
entrada. De esta forma, la medida perceptual PAMP queda,
||ik ||P AM P
1
0
(5.17)
121
Figura 5.6: Ejemplo de funcionamiento de las medidas perceptuales WMP y PAMP para el caso de dos
tonos de 1KHz y 1, 1KHz [Heusdens02]. Se presenta primero el espectro de potencia de un tono de
1KHz junto con la mscara generada por el tono de 1, 1KHz, despus la medida perceptual WMP tras
extraer el tono de 1, 1KHz y, por ltimo, la medida perceptual PAMP.
122
x
e
n
b
r a
i t a
c
n
e
e
s
x
u
t e
e
r n
s
o
t a
y
d
m
e
e
o
d
B
o
e
i o
n
b
c
a
d
d
r a
f i l t r o
r t i c
s
a
i l a
p
i n
o
t e
i c
r n
e
a
n
u
s
d
a
i t i v
5.2.3.
A la vista de estos problemas, una forma de mejorar los resultados de la medida perceptual
PAMP es realizar la integracin en banda de Bark en lugar de en frecuencia [Vera06b]. De
esta forma, se consigue tener en cuenta el procesado que se produce en el odo interno y, a la
vez, reducir la complejidad computacional. La medida perceptual propuesta se ha llamado PMP
Perceptual Matching Pursuits, y se calcula mediante la ecuacin (5.18),
||ik ||P M P
B
0
(5.18)
donde b denota banda de Bark, B es la mxima banda de Bark de la seal de entrada (este
valor depende de la frecuencia de muestreo de la seal), |Gk (b)|2 es el espectro de potencia del
tomo gk en banda de Bark y T (b) es la mscara en banda de bark.
Para verificar el correcto funcionamiento de la medida perceptual propuesta PMP, se realiza
primero la prueba de los dos tonos para comprobar que realiza la seleccin correctamente y,
tambin, para analizar las diferencias de resultados entre ambas estrategias. En la figura 5.8 se
representa en (a) los pesos ||2k ||2 , tras extraer el tono de 1,1 KHz. Como es lgico, el valor de el
peso para la frecuencia de 1,1 KHz ha de ser cero para cumplir la ortogonalidad que se produce
en MP entre el tomo extrado y el residuo de la siguiente iteracin. Se puede observar cmo
normalizado en dB
(a)
dB SPL
normalizado en dB
(b)
(c)
60
40
20
0
123
0.5
2.5
1.5
2
Frecuencia (KHz)
3.5
0.5
1.5
2
2.5
Frecuencia (KHz)
3.5
0.5
2
2.5
1.5
Frecuencia (KHz)
3.5
0
20
40
0
20
40
Figura 5.8: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso de dos
tonos de 1KHz y 1, 1KHz. (a) Peso de los tomos y mscara para la iteracin i = 2, (b) medida
perceptual PAMP para la iteracin i = 2 y (c) medida perceptual PMP para la iteracin i = 2.
el mtodo MP extrae toda la correlacin de la seal con la frecuencia de 1,1 KHz, que para el
ejemplo corresponde al tono inicial de 1,1 KHz, ms el valor que produce la frecuencia de 1 KHz
en 1,1 KHz debido a la transformada de la ventana. En (b) se dibujan la medida perceptual que
proporciona PAMP integrando en frecuencia, ||k2 ||P AM P , tras extraer el primer tono, mientras
que en (c) se dibuja la medida perceptual de PMP integrando en banda de bark, || k2 ||P M P . En
general, para ambas medidas se extraer correctamente el tono de 1 KHz. Se observa como en
la medida PMP en banda de bark las bajas frecuencias tienen un mayor peso perceptual que las
altas frecuencias en relacin a la medida en PAMP.
La medida PMP, al estar definida en banda de Bark, simula mejor el comportamiento del
odo, lo que debe redundar en un mejor funcionamiento, sobre todo, en relacin al ruido, como
se ver ms adelante. Pero, adems, esta definicin disminuye considerablemente el nmero de
operaciones para obtener la medida perceptual. As, para la medida PAMP, por cada exponencial compleja es necesario, segn la ecuacin (5.17), la suma de todos los valores en frecuencia
resultantes de multiplicar el peso por la transformada al cuadrado y dividirlo entre la mscara.
Es importante notar que la frecuencia debe ser muestreada en una implementacin prctica. Si
se realiza la inversa de la mscara en frecuencia a priori, para cada exponencial compleja hay
que realizar dos multiplicaciones por cada muestra en frecuencia y sumar todos estos valores. El
problema viene determinado por el muestreo que hay que realizar en frecuencia para implementar la ecuacin (5.17). Como la resolucin en frecuencia del odo es logartmica, para tener una
resolucin aceptable haciendo un muestreo uniforme en frecuencia, es necesario coger una separacin en frecuencia que da lugar a un gran nmero de muestras. As, el valor de Just Noticeable
124
(a)
dB SPL
60
40
(c)
normalizado en dB
(b)
normalizado en dB
20
6
4
Frecuencia (KHz)
10
6
4
Frecuencia (KHz)
10
6
4
Frecuencia (KHz)
10
0
20
40
0
20
40
Figura 5.9: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal
vocal sonora. (a) Espectro de energa de la seal de entrada, (b) medida perceptual PMP para la iteracin
inicial y (c) medida perceptual PAMP para la iteracin inicial.
Difference para distinguir dos frecuencias es de 0,2 Bark para 10 ms y 0,01 Bark para 500 ms
[Zwicker90]. En la prctica estos valores son de 4096 muestras para un tamao de segmento de
45 ms y una frecuencia de muestreo de 44.100 KHz. Sin embargo, de acuerdo con la seleccin
PMP, el muestreo segn la ecuacin (5.18) se realiza en banda de Bark. Como la resolucin se
adapta ahora en la misma forma en que escucha el odo humano, el nmero de muestras se reduce
considerablemente. Por ejemplo, para el modelo de enmascaramiento de MPEG [MPEG92], la
resolucin empleada al realizar el muestreo es de 3 muestras por banda de Bark, lo que resulta
en menos de 60 muestras para una frecuencia de muestreo de 44.100 KHz. Como consecuencia de
todo esto, la complejidad de calcular la medida PMP es, en la prctica, bastante menor que para
PAMP. Bsicamente, esto es debido al alto nmero de muestras que debe utilizar PAMP para implementar un muestreo lineal de la seal en frecuencia, que no est adaptado al comportamiento
del odo humano.
A continuacin, se comentan las diferencias entre los resultados obtenidos por ambos mtodos, sin entrar en la complejidad que conllevan, sino para analizar el comportamiento cuando la
seal de entrada es una seal vocal sonora, as como para comprobar la capacidad de discriminacin frente al ruido de cada forma de calcular la medida perceptual. En primer lugar, se van a
presentar los resultados de ambos mtodos cuando la seal a analizar es una seal vocal sonora
masculina. En la figura 5.9, se representa en (a) el espectro de potencia de la seal vocal, en
(b) la medida perceptual PMP (en banda de Bark) en la iteracin inicial, || k1 ||P M P , y en (c) la
medida perceptual PAMP (en frecuencia) en la iteracin inicial, ||k1 ||P AM P . La nica diferencia
apreciable es que para PMP la importancia perceptual de las altas frecuencias se reduce, puesto
que su energa se concentra en unas pocas bandas de Bark.
(a)
dB SPL
60
40
normalizado en dB
(c)
normalizado en dB
20
(b)
125
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
0
20
40
0
20
40
Figura 5.10: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora ms ruido blanco. (a) Espectro de energa de la seal de entrada, (b) medida perceptual
PMP para la iteracin inicial y (c) medida perceptual PAMP para la iteracin inicial.
El siguiente paso es comprobar la discriminacin frente al ruido de ambas medidas perceptuales. Para ello, se suma a la seal anterior la misma energa de ruido blanco (relacin seal
a ruido de 0 dB) y se comprueban los valores de las medidas perceptuales correspondientes en
la figura 5.10. En este caso, la cantidad de ruido hace indistinguibles los tonos del ruido en las
frecuencias de 2 a 4 KHz para PMP y PAMP, aunque para PMP los valores perceptuales en
esta banda son menores que para PAMP, en relacin a los tonos que se aprecian de 0 a 2 KHz.
Adems, las altas frecuencias tienen valores perceptuales menores para PMP. En particular, se
aprecia una mayor cada de la medida perceptual con la frecuencia.
En las diferentes estrategias de clculo de una medida perceptual aparece el umbral de enmascaramiento como parte integrante de la definicin. Sin embargo, de momento, no se ha
comentado nada acerca de cmo calcular este umbral. Como primera aproximacin, se podra
pensar en utilizar el clsico umbral de enmascaramiento de ruido que utilizan los codificadores
por transformada. Es umbral informa de cunto ruido de cuantificacin es posible inyectar en
cada frecuencia o banda del codificador. Sin embargo, para la aplicacin que nos ocupa este
umbral no es el idneo, puesto que se trata de determinar los tonos perceptualmente ms importantes. La solucin utilizada en la bibliografa para calcular las distintas medidas perceptuales
consiste en utilizar el umbral de silencio como punto de partida, es decir, el umbral de silencio
es el umbral que se utiliza en la iteracin inicial del mtodo matching pursuits [Heusdens02].
El umbral para las siguientes iteraciones se actualiza a partir de la mscara que genera el tono
extrado en cada iteracin, k(i) gk(i) . As pues, esta definicin del umbral de enmascaramiento
para medidas perceptuales queda de la forma,
126
T i (b) =
Tquiet (b)
T i1 (b) + Tk(i) gk(i)
i=0
i>0
(5.19)
donde Tquiet (b) es el umbral de silencio, Tk(i) gk(i) es la mscara debida al tono extrado en la
iteracin i y b denota banda de Bark. Es preciso tener en cuenta que ahora el umbral de enmascaramiento se escribe T i (b), puesto que depende de la iteracin en que se encuentre el mtodo
matching pursuits. Se ha escrito el umbral en banda de bark, puesto que es la forma general
de calcularlo, aunque para WMP y PAMP sea preciso posteriormente cambiarlo a frecuencia
lineal. Se ha utilizado la suma para la composicin de umbrales, por ser la forma ms fcil de realizar la notacin, aunque existen otras opciones ms conservadoras de calcular esta composicin
[Zwicker90]. Este clculo de la mscara es el que se ha utilizado en todas las figuras presentadas
hasta ahora en este captulo. Por eso, en la figura 5.6, el umbral, una vez extrado el primer tono,
incluye el tringulo centrado en la frecuencia 1,1 KHz, que representa la mscara de este tono.
El umbral de silencio es mucho mayor para esta figura en las frecuencias cercanas a cero. Para
la figura 5.6, el umbral se calcula directamente en frecuencia, mientras que para la figura 5.8 ya
se calcula en banda de Bark, por lo que al dibujar la mscara en un eje de frecuencias, queda
una seal escalonada con tamaos de escaln mayores para alta frecuencia. Con esta definicin
del umbral la ecuacin que define la medida PMP se puede escribir como,
||ik ||P M P
B
0
(5.20)
Anlogamente, la misma modificacin para el umbral habra que realizarla en las ecuaciones
(5.16) y (5.17).
La inicializacin de la mscara al umbral de silencio no proporciona, sin embargo, una caracterstica deseable para la extraccin tonal, que es una parada psicoacstica. Esto quiere decir
que el mtodo MP debe detenerse cuando se hayan extrado todos los tonos audibles. Para saber
cundo parar el algoritmo, segn [Zwicker90], un tono puede ser enmascarado por el umbral de
silencio, otro tono con mayor intensidad sonora o por ruido. Si se inicializa al umbral de silencio,
no se extraern los tonos enmascarados por este umbral, y con el paso de las iteraciones los
tonos extrados enmascararn a otros tonos de la seal, pero los tonos enmascarados por ruido
se extraern como tonos audibles. La solucin a este inconveniente consiste en inicializar la mscara al umbral de silencio ms el umbral de ruido sobre tonos, NMT (Noise-is-Masking-Tone).
En general, en la mayora de los modelos perceptuales, para discriminar entre la parte tonal
(o predecible) de la seal y la parte ruidosa (o impredecible) se utiliza un ndice de tonalidad
[Brandenburg90]. Este ndice de tonalidad se usa por un lado para generar la mscara producida
por los tonos, y por otro, para obtener la mscara producida por el ruido. Para calcular correctamente una mscara de ruido sobre tonos, NMT, se aplica el ndice de tonalidad del modelo
de enmascaramiento, para posteriormente generar slo la mscara de ruido sobre tonos, no incluyendo la mscara de tonos sobre tonos. Por lo tanto, la inicializacin de la mscara a utilizar
propuesta queda expresada de la forma,
i
T (b) =
(5.21)
(a)
dB SPL
60
40
normalizado en dB
(c)
normalizado en dB
20
(b)
127
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
6
4
Frecuencia (KHz)
10
0
20
40
0
20
40
Figura 5.11: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora con mscara inicial que incluye el umbral NMT. (a) Espectro de energa de la seal
de entrada, (b) medida perceptual PMP para la iteracin inicial y (c) medida perceptual PAMP para la
iteracin inicial.
En primer lugar, se incluyen de nuevo las figuras correspondientes a las medidas perceptuales
PMP y PAMP para voz sonora y para voz sonora ms ruido, con el objetivo de comprobar las
variaciones que se producen en las medidas perceptuales al incluir el umbral NMT. En todas
las figuras se calcula el umbral NMT, realizando las modificaciones explicadas anteriormente al
modelo de enmascaramiento propuesto por MPEG [MPEG92]. En la figura 5.11 se aprecia el
resultado de aplicar la mscara NMT en la inicializacin. La nica diferencia con respecto a los
resultados de la figura 5.9 es la disminucin de la importancia perceptual de los tonos a partir de
7 KHz. Esta disminucin se debe a que en esta zona de frecuencia el valor del umbral NMT tiene
relativa importancia respecto al umbral de silencio. Esto ocurre porque el ndice de tonalidad ha
estimado una seal ruidosa en estas frecuencias.
Estos resultados se ven con mayor nfasis cuando se aade ruido blanco a la seal. As, en
la figura 5.12, donde se incluye la mscara NMT con respecto a lo presentado en la figura 5.10,
la importancia perceptual baja en ciertas bandas que es donde el ndice de tonalidad estima
que predomina el ruido sobre los tonos. Sin embargo, el ndice de tonalidad no estima ruido en
bandas de alta frecuencia donde s lo hay. En general, puede afirmarse que s permite una mejor
discriminacin de la seal con respecto al ruido para las medidas perceptuales PMP y PAMP.
Sera interesante, a la vista de los resultados, estimar la mscara inicial mediante modelos de
enmascaramiento que no utilizan un ndice de tonalidad, como para el modelo propuesto en
[Par02]. En un modelo de este tipo, debera obtener una mejor discriminacin entre tonos y
ruido.
La ventaja fundamental de incluir en la mscara el umbral NMT es la posibilidad de imple-
128
(a)
dB SPL
60
40
(c)
normalizado en dB
(b)
normalizado en dB
20
4
6
Frecuencia (KHz)
10
6
4
Frecuencia (KHz)
10
6
4
Frecuencia (KHz)
10
0
20
40
0
20
40
Figura 5.12: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal
vocal sonora ms ruido blanco con mscara inicial que incluye el umbral NMT. (a) Espectro de energa de
la seal de entrada, (b) medida perceptual PMP para la iteracin inicial y (c) medida perceptual PAMP
para la iteracin inicial.
mentar una parada psicoacstica. Aunque en algunas aplicaciones no es posible tener un rgimen
binario que permita extraer todos los tonos perceptualmente significativos, esta posibilidad es
interesante si se desea conocer el nmero mximo de tonos a extraer para conseguir la mxima
calidad posible en un codificador paramtrico. La parada perceptual del mtodo matching pursuits guiado perceptualmente se debe producir cuando se extraen todos los tonos que estn por
encima de la mscara. En general, esta parada se produce en la iteracin en la que todos los
tonos estn por debajo de la mscara, es decir, cuando se cumple,
|ik |2 |Gk (b)|2 T i1 (b),
b = [0, B] gk D
(5.22)
Cuando esta condicin es cierta, los tonos que quedan en el residuo no son audibles y se
detiene el mtodo MP.
Para comprobar la viabilidad de la parada perceptual, se probar con una seal vocal sonora
para las medidas perceptuales PMP y PAMP. Para PMP, en la figura 5.13, se dibuja en (a)
el espectro de energa de la seal en la primera columna y la medida perceptual en banda de
bark para la primera iteracin ||k1 ||P M P en la segunda columna. En (b) se presentan los mismos
resultados correspondientes a la iteracin i = 2, donde se ha aadido adems marcado con
un crculo el tono extrado. Es curioso observar las variaciones que se producen tanto en energa
como en medida perceptual. En energa, al utilizar matching pursuits, desaparece del residuo todo
el lbulo del tono extrado, siendo sustituida esta informacin por los parmetros de amplitud,
frecuencia y fase del tono. En medida perceptual los cambios son mucho mayores. Al sumarse a la
mscara actual la mscara debida al tono extrado, todos los valores en frecuencia inmediatamente
normalizado en dB
(a)
dB SPL
60
40
20
2
6
4
Frecuencia (KHz)
60
40
20
2
4
6
Frecuencia (KHz)
60
40
20
2
4
6
Frecuencia (KHz)
10
40
0
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
0
20
40
0
20
40
60
70
60
dB SPL
(d)
dB SPL
20
60
10
normalizado en dB
(c)
dB SPL
60
10
normalizado en dB
(b)
dB SPL
129
40
60
50
40
20
0
4
6
Frecuencia (KHz)
10
Figura 5.13: Ejemplo de funcionamiento de la parada perceptual con la medida PMP para el caso una
seal vocal sonora. (a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual
inicial (segunda columna), (b) espectro de energa del residuo (se incluyen los parmetros del tono extrado
usando una recta terminada en crculo) y medida perceptual PMP para la iteracin i = 2, (c) iteracin
i = 11 y (d) residuo final y tonos extrados aplicando la parada perceptual .
posteriores sufren una importante bajada en medida perceptual. Esto se debe a que la mscara
de un tono tiene forma triangular en frecuencia, pero con una cada mucho ms suave para las
frecuencias mayores que la del tono extrado. En la grfica no se han dibujado aquellos tonos
que estn por debajo de la mscara, segn la condicin de la ecuacin (5.22). Los tonos que no
tienen dibujada medida perceptual se corresponden con esta situacin. En (c) se presentan los
mismos resultados para la iteracin i = 11. Se puede apreciar cmo se reduce el nmero de tonos
por encima de la mscara conforme se extraen tonos, debido a las mscaras generadas por los
tonos ya extrados. Se observa, adems, cmo los tonos de alta frecuencia (entre 8 y 9 KHz en
la grfica) no resultan enmascarados por los tonos de baja frecuencia extrados. Finalmente, en
(d) se representa el residuo final de la iteracin i = 47 (en la primera columna), que es cuando
todos los tonos estn por debajo de la mscara; en la segunda columna se representan todos los
tonos extrados, donde se aprecia que se han extrado tambin los tonos de alta frecuencia.
La parada perceptual tambin funciona para el caso de la medida perceptual en frecuencia
PAMP. Los resultados con este enfoque se han representado en la figura 5.14. Aunque se extrae
130
normalizado en dB
dB SPL
(a)
60
40
20
2
6
4
Frecuencia (KHz)
60
40
20
2
4
6
Frecuencia (KHz)
60
40
20
2
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
0
20
40
0
20
40
60
70
60
dB SPL
(d)
dB SPL
40
60
10
normalizado en dB
(c)
dB SPL
20
60
10
normalizado en dB
(b)
dB SPL
40
60
50
40
20
0
4
6
Frecuencia (KHz)
10
Figura 5.14: Ejemplo de funcionamiento de la parada perceptual con la medida PAMP para el caso una
seal vocal sonora. (a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual
inicial (segunda columna), (b) espectro de energa del residuo (se incluyen los parmetros del tono extrado
usando una recta terminada en crculo) y medida perceptual PAMP para la iteracin i = 2, (c) iteracin
i = 11 y (d) residuo final y tonos extrados aplicando la parada perceptual .
primero el mismo tono, es significativo que los caminos de ambas medidas son diferentes, no
extrayndose los tonos en el mismo orden. Incluso en la iteracin final, que en este caso se
produce en la iteracin i = 49, se observa que los tonos extrados no han sido exactamente los
mismos, si bien esto ocurre para tonos de baja energa muy cercanos en frecuencia a otros tonos
de mayor energa. Una diferencia importante est en las altas frecuencias, se aprecia como para
PAMP se extrae algn tono ms de alta frecuencia.
Una vez analizado el comportamiento de las medidas perceptuales en las sucesivas iteraciones,
es el momento de comprobar cmo afecta el ruido blanco a PMP y PAMP. Con este fin, se incluye
la figura 5.15, donde se dibuja el residuo y la medida perceptual en frecuencia para la iteracin
(a) inicial, (b) i = 2, y (c) i = 5. Se observa cmo tras extraer el primer tono la importancia
perceptual de las frecuencias en torno a 2 KHz cae bruscamente. Para las frecuencias de 5 a 6
KHz la medida perceptual ya tena un valor bajo debido al ndice de tonalidad. Sin embargo,
la zona entre 6 y 9 KHz tiene una importancia perceptual relativamente alta, por lo que en la
quinta iteracin ya se ha extrado un supuesto tono de alta frecuencia debido al ruido que se ha
normalizado en dB
(a)
dB SPL
60
40
6
4
Frecuencia (KHz)
dB SPL
60
40
10
20
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
10
0
10
20
30
20
0
4
6
Frecuencia (KHz)
10
10
normalizado en dB
70
60
dB SPL
10
normalizado en dB
(c)
10
30
20
(b)
131
50
40
30
0
10
20
30
20
0
4
6
Frecuencia (KHz)
10
Figura 5.15: Ejemplo de funcionamiento de la medida PAMP para el caso una seal vocal sonora ms
ruido. (a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual inicial
(segunda columna), (b) espectro de energa del residuo (se indican los parmetros del tono extrado usando
una recta terminada en crculo) y medida perceptual PMP para la iteracin i = 2, (c) iteracin i = 5.
sumado a la seal. Este tono se extrae antes que varios de los tonos de 0 a 2 KHz, que an se
distinguen en la seal con ruido.
Para tratar el caso de PMP en una seal vocal con ruido, se ha incluido la figura 5.16.
En este caso, se ha dibujado la misma seal en las mismas iteraciones, siendo, el resultado
diferente. Ya en la medida perceptual inicial, los valores de importancia perceptual de 6 a 9 KHz
son significativamente menores que en el caso anterior. El cambio de la medida perceptual de
frecuencia (PAMP) a banda de Bark (PMP) permite la extraccin de tonos de baja frecuencia
en las primeras cuatro iteraciones. Incluso despus, como se aprecia en la figura 5.16 (c), se va a
extraer otro tono de baja frecuencia, lo que se puede afirmar al localizar el mximo de la medida
perceptual. En las siguientes iteraciones, ser inevitable la extraccin de algn tono en la zona
de ruido, aunque esto se producir ms tarde que en el caso de PAMP, y cuando ya se han
extrado casi todos los tonos de baja frecuencia. Como conclusin, cabe decir que, en general, el
clculo de la medida perceptual en banda de bark (PMP) proporciona una medida ms adecuada
para discriminar tonos de ruido, puesto que en las seales de audio los tonos ms importantes se
encuentran en la media y baja frecuencia.
132
normalizado en dB
(a)
dB SPL
60
40
4
6
Frecuencia (KHz)
dB SPL
60
40
20
6
4
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
4
6
Frecuencia (KHz)
10
10
0
10
20
30
20
0
4
6
Frecuencia (KHz)
10
10
normalizado en dB
70
60
dB SPL
10
10
normalizado en dB
(c)
30
20
(b)
10
50
40
30
0
10
20
30
20
0
4
6
Frecuencia (KHz)
10
Figura 5.16: Ejemplo de funcionamiento de la medida PMP para el caso una seal vocal sonora ms ruido.
(a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual inicial (segunda
columna), (b) espectro de energa del residuo (se indican los parmetros del tono extrado usando una
recta terminada en crculo) y medida perceptual PMP para la iteracin i = 2, (c) iteracin i = 5.
133
Tabla 5.2: Preferencia en ( %) de PMP (banda de Bark) sobre PAMP (frecuencia) cuando se aplica un
modelo tonal con 25 tonos por segmento.
Seal
Suzanne Vega
German male speech
English female speech
Harpsichord
Castanets
Pitch pipe
Bagpipes
Glockenspiel
Plucked strings
Trumpet solo
Orchestra piece
Contemporary pop
Preferencia ( %)
70
100
90
100
60
70
70
60
100
70
90
100
134
5.3.
Estrategias de cuantificacin
El modelo sinusoidal ha sido la primera herramienta de anlisis paramtrico que se ha introducido en la codificacin de audio [George92] [Goodwin98]. Debido a esta temprana adopcin
del modelo tonal, en la literatura aparecen una serie de esquemas que permiten cuantificar los
parmetros del modelo teniendo en cuenta criterios psicoacsticos. La mayora de estas formas
de cuantificacin hacen uso de la redundancia en los parmetros del modelo entre tramas adyacentes. Como el modelo tonal extrae la parte estacionaria de la seal de audio, la redundancia
entre tramas es enorme y, aplicando este principio, es posible cuantificar los parmetros con un
bajo rgimen binario.
En la mayora de las aplicaciones del modelo tonal para codificacin de audio, la forma de
aprovechar esta redundancia es la codificacin diferencial inter-trama de los parmetros tonales
con una interpolacin en sntesis de estos parmetros [Ali95] [Levine98] [Verma99] [Myburg01]. El
modelado tonal, implementado de esta forma, realiza el anlisis con el objetivo de crear una serie
de caminos tonales o trayectorias que indican la duracin de un tono en la seal. La trayectoria
de un tono se mantiene de una trama a la siguiente si su frecuencia y amplitud no difieren
demasiado de los valores estimados en la trama anterior. Cuando los parmetros de un tono no
es posible relacionarlos con los de otro de la trama anterior se crea una nueva trayectoria, aunque
este caso es minoritario en las seales de audio. Con esta premisa, es posible implementar una
codificacin diferencial de los parmetros del modelo tonal: amplitud, fase y frecuencia de cada
tono en cada trama.
Sin embargo, al aplicar una codificacin diferencial entre tramas, aparecen una serie de problemas que es preciso evitar, si se quiere que el codificador funcione en una aplicacin de streaming
por Internet:
Al relacionar la informacin de una trama con la de tramas anteriores, la prdida de una
trama en la transmisin provoca un fuerte impacto en la calidad de la seal decodificada,
ya que este error se puede propagar a un gran nmero de tramas. As pues, la codificacin
inter-trama hace al codificador muy sensible frente a los errores en transmisin.
Si se quiere potenciar la editabilidad, es decir, la posibilidad de comenzar la decodificacin
en cualquier momento, es preciso evitar en la manera de lo posible la codificacin intertrama, al depender los datos de una trama de los de tramas anteriores, que para esta
aplicacin en concreto no se conocen.
Adems, cuando se utiliza como herramienta de anlisis el mtodo matching pursuits, se ha
demostrado que es mejor evitar la interpolacin entre parmetros, necesaria por otra parte para
aplicar la codificacin diferencial inter-trama.
Si bien es posible mejorar la resistencia a errores y la editabilidad, marcando un tiempo
mximo para la codificacin diferencial y codificando de forma absoluta la informacin cada
cierto nmero de tramas, en esta tesis se va a evitar este tipo de codificacin. La idea es buscar
nuevas soluciones para la codificacin, de forma que slo se utilice en la codificacin informacin
intra-trama, lo que viene a significar hacer uso de la redundancia que aparece entre los parmetros
del modelo tonal en la trama actual. Se va a tratar por separado la codificacin de diferentes
tipos de parmetros del modelo tonal.
5.3.1.
135
Cuantificacin de la frecuencia
136
5.3.2.
Cuantificacin de la fase
Aunque el odo no es sensible a la fase para un tono simple o un par de tonos, es capaz de
distinguir las diferencias de fase para tres o ms tonos presentes en la seal de audio [Zwicker90].
Esta afirmacin, derivada de estudios psicoacsticos, implica que la fase debe ser cuantificada
con precisin. As, en [Ali95], se utiliza un cuantificador uniforme de 6 bits para la cuantificacin
de la fase.
Cuando se utiliza un enfoque de codificacin inter-trama, se han desarrollado estrategias
de cuantificacin de las fases que consiguen reducir de manera notable la cantidad de recursos
binarios dedicados a este parmetro del modelo tonal. Por ejemplo, en [Levine98b], no se enva
la fase, salvo cuando un segmento de audio es etiquetado como transitorio. Si esto no es as,
se aplica una reconstruccin sin envo de la fase en el modelo tonal, usando un algoritmo que
evita discontinuidades de fase basado en la interpolacin cbica de la misma. Sin embargo, la
calidad de audio conseguida dista mucho de ser transparente, afirmando algunos autores [Ali95]
[Jensen02] que es necesario enviar la fase para conseguir alta calidad.
En esta tesis se ha utilizado la codificacin uniforme de todas las fases como mtodo de cuantificacin. Este enfoque se ha tomado ante la imposibilidad de utilizar informacin psicoacstica
relativa a la fase. Sin embargo, una lnea de futuro se abre ante la posibilidad de discriminar
qu tonos de los perceptualmente importantes son sensibles a la variacin de la fase y cules
no. Parece lgico pensar que estos tonos sern aquellos con mayor importancia perceptual, los
cuales pueden ser discriminados gracias al guiado perceptual del mtodo MP. Un mayor estudio
se necesita realizar en esta tarea.
5.3.3.
Cuantificacin de la amplitud
Una vez tratados los problemas relacionados con la cuantificacin de frecuencia y fase como
parmetros del modelo tonal, se pasa a considerar la amplitud de los tonos. En este caso, se cuenta
con una ventaja, que es la posible utilizacin de informacin perceptual para la cuantificacin
de estos valores. Como es lgico, la cuantificacin de las amplitudes es un tema ya abordado en
la bibliografa, aunque el enfoque comnmente adoptado se basa en la codificacin diferencial
inter-trama.
Si se desea utilizar la informacin perceptual derivada de un modelo de enmascaramiento,
lo primero a realizar es calcular la mscara de tonos de la trama actual y eliminar los tonos no
audibles (por debajo de la mscara). En general, la amplitud de cada tono debera ser cuantificada de forma que el error de cuantificacin est lo ms cercano posible, pero siendo menor, que
el umbral de enmascaramiento estimado. Con esta premisa, se conseguir asegurar que la seal
codificada sea perceptualmente idntica a la original, sacando as mximo provecho del fenmeno
de enmascaramiento simultneo del sistema auditivo humano. El inconveniente de este enfoque
reside en que resulta un nmero variable de bits por cada amplitud tonal, lo que conlleva informar al decodificador del nmero de bits asignados a cada amplitud. Adems, el decodificador
necesitar el valor mximo y mnimo de cada cuantificador. Al final, este enfoque de codificacin
intra-trama (aprovechando la mscara simultnea generada por la seal de audio en la trama
actual) ha sido descartado en la literatura por la gran cantidad de informacin lateral que es
preciso enviar al decodificador.
As, para evitar el envo de informacin lateral, la estrategia de cuantificacin establecida
137
A 14,5 b 22 + min
i
b < bi
b = bi
230
fi , 10 0,2Ai (bi b), b > bi
(5.23)
138
Qi
Qi
Tqi (b)(dB SPL) =
Qi
i
2
i
2
i
2
b < bi
b = bi
230
fqi , 10 0,2Qi (bi b), b > bi
(5.24)
donde Qi , i y fqi representan la amplitud cuantificada (en dB SPL), el tamao del escaln
de cuantificacin (en dB) y la frecuencia cuantificada (en Hz) correspondientes al i-simo tono
audible, respectivamente.
El umbral de enmascaramiento compuesto para cuantificacin de las amplitudes C i , una vez
se ha enviado el tono i-simo, se compone a partir del umbral compuesto anterior, C i1 , y del
umbral del tono actual, Ti , de la forma,
Ci (b)(dB SPL) = max Tqi (b), Ci1 (b)
(5.25)
El problema de inicializar el umbral de enmascaramiento compuesto C0 depende de la informacin que tenga el decodificador. En principio, el nico umbral que es posible inicializar en el
decodificador es el umbral de silencio. Sin embargo, en el caso de un codificador completamente
paramtrico, si el decodificador tiene la informacin de la potencia de ruido (por bandas en la
trama actual), puede generar el umbral NMT y aadirlo al umbral de silencio. Por simplicidad,
se supondr que el umbral C0 se inicializa al umbral de silencio. Como se puede deducir de
(5.25), en el umbral de enmascaramiento compuesto se incluye la interaccin entre los umbrales
individuales de los tonos en las sucesivas iteraciones.
En [Zwicker90], el umbral de enmascaramiento compuesto se estima usando el operador suma
sobre los valores lineales (no en dB SPL). Aunque el umbral as calculado da lugar a valores
menos conservadores que los obtenidos con el mximo en la ecuacin (5.25), el uso del mximo
se justifica por la reduccin de la complejidad conseguida, al evitar la conversin de valores dB
SPL a unidades lineales. Como contrapartida, se obtiene una menor eficiencia de codificacin.
Como se puede observar, los umbrales de enmascaramiento se calculan en la escala de banda de
Bark.
Una vez explicado cmo se obtienen los umbrales en codificador y decodificador, es necesario
determinar los valores de configuracin del cuantificador para cada amplitud. Estos valores de
configuracin se tienen que conocer antes de cuantificar sin enviar informacin lateral. Los valores
de configuracin para el cuantificador del tono i-simo son el rango dinmico de la amplitud (v mini
y vmaxi ), y la mnima relacin seal a ruido (SNR) necesaria para lograr codificacin trasparente,
que se denotar como Ri a partir de ahora. Estos valores, que variarn de un tono a otro, se
deben calcular teniendo en cuenta el umbral de enmascaramiento compuesto.
El proceso que se sigue en el algoritmo propuesto para el clculo de los valores de configuracin de cada cuantificador se explica a continuacin. En un codificador perceptual de audio, la
SNR necesaria Ri para cuantificar el tono i-simo, de forma que el error de cuantificacin no sea
audible, se debe obtener como la diferencia entre la amplitud del tono A i y el umbral de enmascaramiento compuesto evaluado en la banda de Bark bi del tono actual. Bajo este enfoque, en
este esquema de cuantificacin, la SNR requerida Ri se debera calcular como Ai Ci (bi ). Sin embargo, esta aproximacin no se puede utilizar porque el decodificador desconoce la amplitud del
139
tono actual Ai . Para resolver este inconveniente, se propone el uso del umbral de enmascaramiento individual que aparece en la ecuacin (5.23), en vez de usar el umbral de enmascaramiento
compuesto. Con esta solucin, la SNR Ri se calcula como,
Ri (dB) = Ai Ti (bi ) = 14,5 + bi
(5.26)
(5.27)
Este valor se justifica debido a que si el tono es audible su amplitud ser siempre mayor que
el umbral de enmascaramiento.
Para finalizar, queda por determinar el valor mximo vmaxi del cuantificador de la amplitud
del tono i-simo. En principio, para este propsito se puede aplicar el mximo valor posible de la
amplitud de un tono, que es de 96 dB SPL. Sin embargo, la inmensa mayora de las amplitudes
de los tonos son mucho menores que este valor. La solucin es emplear el valor de 96 dB SPL
para el primer tono y tomar la amplitud de este tono como el valor mximo del cuantificador
para los dems. Esto se podr realizar siempre que se enve, en primer lugar, el tono de mayor
amplitud al decodificador. El valor mximo de los cuantificadores queda,
(
96
i=1
(5.28)
vmaxi (dB SPL) =
Q1
i>1
donde Q1 es la amplitud cuantificada del primer tono. Esta seleccin del valor mximo obliga
a cuantificar primero el tono de mayor amplitud.
A partir de la expresin (5.28), hay que tener en cuenta que el primer tono debe ser cuantificado con mucha precisin para evitar que se propague el error de cuantificacin para el resto de
tonos. La forma de evitar este inconveniente consiste en utilizar una SNR para el primer tono,
R1 , mucho mayor que la mxima posible SNR para el resto de tonos. Como la mxima banda
de Bark para una frecuencia de muestreo de 44, 1 KHz es de bi |max = 26, la mxima SNR para
el resto de tonos ser: Ri |max = 14,5 + bi |max = 14,5 + 26 = 40,5 dB, segn la ecuacin (5.26).
Basndose en este resultado, se elige para el primer tono una SNR mucho mayor que la mxima
posible, quedando R1 = Ri |max + 10dB = 50,5 dB.
Una vez conocidos los valores de configuracin del cuantificador i-simo, es posible determinar
el tamao del escaln de cuantificacin i y, por consiguiente, el nmero de bits ni asignados
a la amplitud de tono i-simo. Estos valores se van a determinar teniendo en cuenta que la
cuantificacin es uniforme y que se trabaja directamente con las amplitudes expresadas en dB
SPL.
El tamao del escaln de cuantificacin i se calcula para obtener, al menos, la relacin seal
a ruido Ri entre la amplitud del tono actual Ai y la amplitud de la seal de error ei . El mximo
140
error en la amplitud ei |max se obtiene cuando la amplitud cuantificada del tono actual Qi toma
el mximo error de cuantificacin:
Qi |max (dB SPL) = Ai (dB SPL) +
i
(dB)
2
(5.29)
El mximo error se expresa en dB SPL como la diferencia entre la amplitud cuantificada con
mximo error de cuantificacin y la amplitud original:
|Qi |max (dB SPL)
Ai (dB SPL)
20
20
10
(5.30)
ei |max (dB SPL) = 20 log10 10
Segn (5.29), la expresin (5.30) se puede simplificar de la forma:
i /2(dB)
ei |max (dB SPL) = Ai (dB SPL) + 20 log10 10 20 1
(5.31)
La relacin seal a ruido que se obtiene cuando el error es mximo ei |max es el mnimo valor
posible de SNR. Sustituyendo este mnimo valor por Ri , para conseguir al menos este valor de
SNR, el mximo error de la amplitud ei |max se puede expresar en dB como:
ei |max (dB SPL) = Ai (dB SPL) Ri (dB)
(5.32)
Ri (dB)
i
(dB) = 20 log10 1 + 10 20
(5.34)
2
El nmero de bits asignados al tono actual, ni , se obtiene a partir del valor del tamao del
escaln de cuantificacin i y de los valores de configuracin del cuantificador del tono i-simo
como:
v
l
m
maxi (dB SPL) vmini (dB SPL)
ni = log2
i (dB)
(5.35)
Todo lo expresado hasta ahora se escribe de forma algortmica a continuacin. Se expresa detalladamente la obtencin de los valores de configuracin de los cuantificadores de cada
amplitud:
1. Se inicializa el umbral de enmascaramiento C0 al umbral de silencio.
2. Para el primer tono, i = 1, que es el tono de mxima amplitud, entonces:
a) Los valores de configuracin del primer cuantificador son:
vmax1 = 96 dB SPL (el mximo valor posible); vmin1 = C0 (b1 ).
R1 = |Ri |max + 10 = 50,5 dB, ya que Q1 se usa ms tarde como valor mximo
para el resto de cuantificadores.
141
dB SPL
100
R2= 23.5 dB
2= 1.1239 dB
n2= 7 bits
100
Q1
50
R1= 50.5 dB
1=0.0518 dB
n1=11 bits
v
0
0
C0
Dcima iteracin
Segunda iteracin
vmax 2= Q1
50
100
50
vmax 10= Q1
R10= 23.5 dB
10= 1.1239 dB
n10= 5 bits
= C (b )
min 1
10 b1=12 20
Banda de Bark
0
26
C1
0 C
9
vmin 2= C1(b2)
b2=9 12
20
Banda de Bark
26
b10=9 12
20
Banda de Bark
26
Figura 5.17: Ejemplo de funcionamiento del algoritmo propuesto para la cuantificacin de las amplitudes.
b) Se calcula el escaln 1 mediante (5.34), y el nmero de bits n1 a partir de (5.35), y
se cuantifica A1 obteniendo la amplitud cuantificada Q1 .
c) El umbral de enmascaramiento C1 se compone con el umbral individual del primer
tono mediante (5.24) y (5.25).
3. Para i = 2, . . . , K, siendo K el nmero de tonos audible, entonces:
a) Los valores de configuracin de los cuantificadores son:
vmaxi = Q1 ; vmini = Ci1 (bi ).
Ri = 14,5 + bi .
b) Se calcula el escaln i mediante (5.34), y el nmero de bits ni a partir de (5.35), y
se cuantifica Ai obteniendo la amplitud cuantificada Qi .
c) El umbral de enmascaramiento Ci se compone con el umbral individual del tono actual
mediante (5.24) y (5.25).
Una ilustracin del funcionamiento del algoritmo se presenta en la figura 5.17. En esta figura,
la lnea superior representa el valor mximo de cada cuantificador, mientras que la inferior el
valor mnimo en cada banda de bark. Como se observa, este valor mnimo siempre coincide con
el umbral de enmascaramiento compuesto en la banda de bark bi del tono actual. En la primera
iteracin, el nmero de bits asignado al primer tono, n1 = 11 bits, es mayor que para el resto
puesto que tanto vmax1 = 96dB SP L como R1 = 50, 5dB son especialmente grandes slo para
esta primera iteracin. As, el nmero de bits asignados para el resto de tonos es menor que
n1 debido a: 1) vmaxi se fija a Q1 y 2) Ri se obtiene a partir del umbral de enmascaramiento
individual de cada tono. An ms, el nmero de bits ni tiende a ser menor conforme el ndice i
aumenta, porque vmini tiende a crecer al aumentar el umbral de enmascaramiento compuesto.
El algoritmo que se acaba de explicar es preciso aplicarlo tanto al codificador como al decodificador para evitar el envo de informacin lateral. En realidad, el codificador debe enviar el
nmero de tonos audibles como informacin lateral para que el algoritmo funcione. Adems, es
preciso tener en cuenta que se ha supuesto que ya se conocen, cuando se ejecuta este algoritmo,
las frecuencias de los tonos en el decodificador. Es importante resear que, como el algoritmo
es muy sensible a errores de cuantificacin, parece lgico protegerlo de alguna forma ante este
142
problema. Una manera simple de realizar este cometido es enviando al decodificador el nmero
de bits resultante de la cuantificacin de las amplitudes. Con este valor, se evita la propagacin
de un error de transmisin al resto de informacin del codificador (por ejemplo a otras tramas
de seal codificada).
El siguiente paso ser comparar los resultados del algoritmo propuesto con otras opciones
presentes en la literatura, con el objetivo de mostrar su buen funcionamiento. Para ello se ha
utilizado el esquema experimental mostrado en la figura 5.4. La extraccin tonal se ha implementado mediante matching pursuit (guiado por energa) con ventana rectangular en anlisis y
trapezoidal en sntesis. Como modelo perceptual se ha usado el descrito en [MPEG92]. Con este
esquema, se pretende verificar tanto el rgimen binario obtenido como la calidad subjetiva del
algoritmo propuesto para la cuantificacin de las amplitudes.
En la figura 5.18 se comparan los resultados en rgimen binario del algoritmo propuesto y del
algoritmo presentado en [Ali95] para cuantificar las amplitudes, el cual siempre utiliza el mismo
nmero de bits (10 bits) por amplitud. En la figura 5.18 se representa el rgimen binario que se
obtiene cuando se vara el nmero de tonos extrados segn la relacin RSR (Residual to Signal
Ratio). Las seales de prueba utilizada son un subconjunto de las propuestas por MPEG, donde
se incluyen seales muy tonales (ver tabla 5.1). En esta figura se observa que la mejora en rgimen
binario del mtodo propuesto es tanto mayor cuanto menor es el valor de RSR. Esto es debido a
las siguientes razones: 1) Los primeros tonos extrados son normalmente aquellos ms relevantes
perceptualmente, y 2) El esquema de cuantificacin de amplitudes propuesto asigna un nmero
variable de bits a cada tono dependiendo de su importancia perceptual. Cabe destacar que el
mtodo propuesto consigue un rgimen binario muy bajo para la cuantificacin de las amplitudes
de los tonos (menor de 0, 16 bits/muestra en media).
Para verificar el correcto funcionamiento del algoritmo propuesto se han llevado a cabo unos
tests psicoacsticos. La seal evaluada ha sido la obtenida al sumar la seal cuantificada del
modelo tonal con el residuo, de acuerdo con el esquema de la figura 5.4. En la figura 5.19 se
comparan los resultados de estos tests medidos en la escala MOS, aplicando por un lado el
algoritmo propuesto de codificacin de amplitudes y el algoritmo descrito en [Ali95] por otro.
Como se observa en la figura, el esquema propuesto logra una alta calidad perceptual, cercana a
la transparencia, mientras que el mtodo de [Ali95] da lugar a sonidos metlicos al cuantificar las
amplitudes, lo que resulta en una calidad perceptual mucho menor. Este efecto es muy comn
cuando se utiliza un nmero fijo de bits por amplitud y este valor no es suficiente para los tonos
perceptualmente ms importantes. Concretamente, estos tonos son aquellos que el odo detecta
con mayor detalle, lo que provoca un derrumbe en la calidad medida en la escala MOS. Para
concluir es posible afirmar que el mtodo propuesto para cuantificar las amplitudes, basado en
principios psicoacsticos, consigue una alta calidad perceptual en el proceso de cuantificacin sin
aumentar el rgimen binario necesario.
143
0.15
0.1
0.05
0
6
RSR (%)
10
SM01
0.2
0.15
0.1
0.05
0
6
RSR (%)
10
SI01
0.2
SI03
0.2
0.15
0.1
0.05
0
6
RSR (%)
10
10
SM03
0.2
0.15
0.1
0.05
0
6
RSR (%)
Figura 5.18: Variacin del rgimen binario (bits/muestra) en media para la cuantificacin de las amplitudes conforme la relacin RSR( %) aumenta. Mtodo en [Ali95] (rombos), mtodo propuesto (cuadrados).
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
algoritmo
propuesto
algoritmo
referenciado
si01
si03
sm01
sm03
Figura 5.19: Comparacin de resultados subjetivos (valores de M OS) obtenidos por el algoritmo de
cuantificacin de las amplitudes de los tonos propuesto y por el presentado en [Ali95]
144
Captulo 6
Modelado de transitorios
En relacin al modelado de transitorios, el nmero de trabajos relacionados con el tema
que puede encontrarse en la bibliografa especializada es muchsimo menor que en el caso del
modelado tonal. La razn hay que buscarla primero en que la presencia de fuertes transitorios
en la seal de audio es bastante reducida, por lo que un codificador compuesto simplemente por
un modelo tonal ms un modelo de ruido es capaz de dar una calidad aceptable para un amplio
conjunto de seales de audio. En segundo lugar, el problema de los transitorios reside en que
representan un conjunto dispar de comportamientos de la seal. Si en el caso de modelo tonal,
la seal a modelizar est formada por tonos estables, en el caso de los transitorios la seal puede
estar formada por los incrementos bruscos de energa de una amplia variedad de instrumentos,
lo que dificulta el diseo de un modelo simple. Como consecuencia de esta propiedad de los
transitorios, el modelo que mejor funciona es un modelo generalista, que pueda caracterizar un
amplio rango de comportamientos tiempo-frecuencia. Esta es la causa principal de que el modelo
con mayor xito en la literatura sea el mtodo matching pursuits con diccionarios adaptados a
las caractersticas transitorias de la seal [Goodwin97b] [Nieuwenhuijse98].
Si se consigue un modelo de transitorios con una calidad aceptable, sus aplicaciones no slo
estarn en el mbito de la codificacin, sino que tambin se podrn realizar interesantes aplicaciones en el campo del tratamiento digital de seales de audio con esta herramienta. As, si se
dispone de un modelo de transitorios, es posible realizar un amplio rango de modificaciones sobre
la seal, as como, incluso, clasificar los transitorios de seal o extraer propiedades del ritmo de
la misma. Se puede afirmar, por tanto, que una herramienta de modelado de transitorios eficiente
puede ser de gran utilidad en mltiples aplicaciones del audio.
6.1.
Para el mtodo MP, al igual que para otras descomposiciones atmicas, el diseo del diccionario es la clave para adaptar la descomposicin a la aplicacin en cuestin. En general, est
claro que cuanto mayor es el diccionario, y ms comportamientos tiempo-frecuencia se incluyen
en su definicin, mayor es la capacidad de compresin del mtodo, aunque, como contrapartida,
mayor ser su complejidad, que crece de forma exponencial con respecto al tamao del diccionario.
Una caracterstica deseable para un modelo de transitorios es que la definicin del diccionario
est basada en parmetros con significado fsico. Slo cuando los parmetros de los tomos tienen
145
146
6.1.1.
tomos de Gabor
Los tomos localizados en tiempo-frecuencia fueron introducidos por Gabor [Gabor46] y estn
diseados de forma que tienen una buena discriminacin tanto en tiempo como en la frecuencia.
Volviendo a escribir la definicin de estos tomos en tiempo discreto segn,
g{s,, } [n] = fs [n ]ej(n )
(6.1)
6.1.2.
Una forma de evitar el problema de la simetra par de los tomos de Gabor es redefiniendo
los tomos de forma que no posean esta caracterstica. La forma ms usual encontrada en la
bibliografa de realizar este cambio es proporcionar a los tomos de una cada exponencial mediante sinusoides amortiguadas exponencialmente (Exponentially Damped Sinusoids, EDS). Ahora
la definicin de los tomos es ms directa,
g{a,, } [n] = Sa a(n ) ej(n ) u[n ]
(6.2)
quedando stos definidos a partir de la terna {a, , }, que representa el factor de amortiguamiento, la frecuencia y la localizacin temporal, respectivamente. La ventaja de estos
parmetros aparece en dos sentidos. Por un lado, la localizacin temporal se refiere exactamente
al comienzo del transitorio, y por otro, el factor de amortiguamiento define la cada exponencial
de la seal. Es importante tener en cuenta que, adems, estos tomos se corresponden con la
respuesta al impulso de filtros lineales definidos por un polo.
:<; =>
147
(a)
0
1
0
: ? ; =>
<
@BA4CDFEHG
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
(b)
0
1
0
: ? ; =>
<
I&JKA4CDFEHG
(c)
0
1
0
: ? ; =>
<
L,JKA4CDFEHG
(d)
0
1
0
:<? ; =>
MNJKA4CDFEHG
(e)
0
1
0
OQP ESRUT.GA
EBVFW RXG/Y
Figura 6.1: Modelado de seal con MP y tomos de Gabor. La seal es un transitorio de audio de un
gong. Se reconstruye la seal modelada con 5, 10, 20 y 40 tomos [Goodwin97].
148
Figura 6.2: Interpretacin mediante bancos de filtros de varias estructuras de diccionario EDS. Los
tomos del diccionario se corresponden con la respuesta al impulso de los polos marcados en el plano z.
Z\[ ]_^
(a)
0
1
0
1
Z ` [ ]_^
\
acb
d/e)fBg
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
(b)
0
1
0
1
Z\` [ ]_^
h4icb
d/e)fBg
(c)
0
1
0
1
Z ` [ ]_^
\
jFicb
d/e)fBg
(d)
0
1
0
1
Z\` [ ]_^
k)icb
d/e)fBg
(e)
0
1
0
Figura 6.3: Modelado de seal con MP y diccionario EDS. La seal es un transitorio de audio de un
gong. Se reconstruye la seal modelada con 5, 10, 20 y 40 tomos [Goodwin97].
}|
10
symmetric atoms
____
z{
20
damped sinusoids
oooo
xy
30
40
50
10
15
20
25
30
35
40
Figura 6.4: Error cuadrtico medio de mtodo MP con tomos de Gabor y exponenciales amortiguadas
para un transitorio de audio [Goodwin97].
149
Figura 6.5: tomos compuestos variando la frecuencia de modulacin y los factores de amortiguamiento.
6.1.3.
tomos compuestos
Se ha mostrado en las figuras anteriores que tanto el diccionario de tomos de Gabor simtricos como el diccionario EDS no incluyen en su definicin la gran cantidad de comportamientos
que se pueden encontrar en las seales transitorias de audio. Para seales reales, que pueden
ser generadas por sistemas no lineales complejos, parece lgico implementar un diccionario que
presente tanto tomos simtricos (Gabor) como asimtricos (EDS). Si se incluyen en un slo
diccionario los tomos de los diccionarios simples, tal y como son, el diccionario resultante se
suele llamar diccionario mixto. Sin embargo, este enfoque no es apropiado cuando se utiliza MP,
puesto que la actualizacin de correlaciones se complica, al incluir en el diccionario tomos de
diversa naturaleza. Como resultado, todas las correlaciones cruzadas deben ser guardadas en
memoria, lo que supone una complejidad excesiva.
Otra alternativa, consiste en redefinir los tomos de forma que incluyan diversos comportamientos [Goodwin98]. Esta forma de disear el diccionario lleva a un diccionario compuesto por
tomos de diversa naturaleza con una misma definicin (composite atoms). El enfoque aplicado
en [Goodwin98] se basa en considerar tomos compuestos por funciones causales y anticausales,
que se pueden definir como,
g{a,b,, } [n] = Sa,b (a(n ) u[n ] + b(n ) u[n + ] [n ])ej(n )
(6.3)
150
~\ _
(a)
0
1
0
~\ _
/NK
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
20
40
60
80
100
120
140
160
180
200
(b)
0
1
0
~ _
\
4
)K
(c)
0
1
0
~ _
\
F
)K
(d)
0
1
0
~ _
\
)
)K
(e)
0
1
0
$ Kqr,)2Xr
Figura 6.6: Modelado de seal con MP y diccionario de tomos compuestos. La seal es un transitorio
de audio de un gong. Se reconstruye la seal modelada con 5, 10, 20 y 40 tomos [Goodwin97].
20
composite atoms
____
damped sinusoids
oooo
40
60
10
15
20
25
r0))0\
30
35
40
Figura 6.7: Error cuadrtico medio del mtodo MP con exponenciales amortiguadas y tomos compuestos
para un transitorio de audio [Goodwin97].
6.2.
151
(6.4)
por lo que es fcil de determinar la posicin de los transitorios modelados con un diccionario
WP. Para obtener en el tiempo cada tomo g{s,p} [n], es necesario recorrer el rbol de sntesis de
un banco de filtros wavelet-packets. Siendo G{s,p} (z) la transformada z de cada tomo, sta se
construye directamente a partir de los filtros G0 (z) y G1 (z), que se corresponden con las funciones
de transferencia del filtro paso bajo y paso alto de los filtros de sntesis, respectivamente. El banco
de filtros de sntesis se implementa, como indica la figura 6.8 (para el caso de P = 3), mediante la
insercin de bloques de interpolacin. Como resultado, cada tomo G {s,p} (z) se puede expresar
como
G{s,p} (z) =
p1
Y
d=0
G((bs/2d c))2 (z 2 )
(6.5)
(6.6)
152
s =
p =
g
[ n
0
]
+
s =
1
2
[ n
1
s =
p =
g
2
[ n
s =
+
s =
2
2
g
2
s =
[ n
0
[ n
+
]
s =
g
2
[ n
1
g
2
[ n
0
+
g
2
s =
[ n
0
]
+
g
2
s =
[ n
1
s =
g
2
[ n
0
]
+
s =
6
2
[ n
0
]
+
s =
7
2
g
1
[ n
s =
3
2
g
1
[ n
s =
1
2
g
1
[ n
(6.7)
donde se supone p1 p2 sin prdida de generalidad. Con esta expresin, se logra reducir el
nmero de correlaciones cruzadas a calcular (de las correlaciones entre todos los tomos) a slo
las correlaciones entre tomos con diferente sub-banda s y profundidad p, al eliminar el retardo
r de la definicin.
El proceso de simplificacin de las correlaciones cruzadas no es sencillo, por lo que se tratar
con detalle, pero, en cambio, el resultado es claro y contundente. Teniendo en cuenta que slo
1
c) son diferentes de cero,
las correlaciones entre tomos con relacin de herencia (s2 = b 2p1sp
2
cuando los tomos se construyen a partir de una transformada ortonormal, la expresin (6.7) se
153
s 1 = s 2 , p1 = p 2
[r2 r1 ]
1
hg{s1 ,p1 ,r1 } [n], g{s2 ,p2 ,r2 } [n]i =
0
s2 =
6 b 2p1sp
c
2
g
s1
{s,p,r1 } [r2 ] s2 = b 2p1 p2 c
(6.8)
6.2.1.
(6.9)
(6.10)
Usando la expresin (6.5), suponiendo que p1 p2 , y teniendo en cuenta slo los tomos con
1
relacin de herencia (s2 = b 2p1sp
c), la ecuacin (6.10) se puede expresar de la forma:
2
pY
1 1
d1 =p2
d1
G((bs1 /2d1 c))2 (z 2 ) G{s2 ,p2 } (z 1 )
(6.11)
154
Sabiendo que C{s2 ,p2 },{s2 ,p2 } (z) es la autocorrelacin de g{s2 ,p2 } [r2 ] en el dominio Z, la expresin (6.11) puede escribirse como:
C{s1 ,p1 },{s2 ,p2 } (z) = C{s2 ,p2 },{s2 ,p2 } (z)
pY
1 1
d1 =p2
d1
(6.12)
C{s1 ,p1 },{s2 ,p2 } (z) = C{s2 ,p2 },{s2 ,p2 } (z)
p1
Y
d=0
G((bs/2d c))2 (z 2
d+p2
p2
(6.14)
Es preciso tener en cuenta que la autocorrelacin c{s2 ,p2 },{s2 ,p2 } [r2 ] es cero cuando 2rp22 Z,
porque g{s2 ,p2 } [r2 ] es ortogonal a traslaciones de 2p2 r2 muestras. Por lo tanto, al diezmar la
expresin (6.14) por 2p2 muestras, el resultado es g{s,p} [r2 ]. Finalmente, la correlacin que se
expresaba en la ecuacin (6.7) para tomos con relacin de herencia se simplifica a:
c{s1 ,p1 },{s2 ,p2 } [2p2 r2 2p1 r1 ] = g{s,p} [r2 2p r1 ] = g{s,p,r1 } [r2 ]
(6.15)
6.2.2.
Una vez se ha explicado cmo implementar el mtodo matching pursuits con un diccionario
WP y su complejidad asociada, el siguiente paso consiste en verificar su validez para el modelado
de transitorios de seales de audio. En los experimentos que se han desarrollado para llevar
a cabo esta tarea, se ha utilizado una trama de audio transitoria con un impulso de energa
localizado en la mitad de la trama. Este impulso pertenece a un golpe de castauela procedente
de la seal de castauelas (calidad CD mono), que es una de las seales propuestas por el grupo
MPEG para su uso en actividades de estandarizacin [MPEG01]. Se ha implementado el modelo
de transitorios con el diccionario wavelet-packets (WP) y con el diccionario de exponenciales
amortiguadas (EDS) y comparado los resultados obtenidos.
En la figura 6.9, se presentan los resultados del modelado con el mtodo matching pursuits
y un diccionario EDS en iteraciones sucesivas. Como se observa en la figura, en las primeras
iteraciones se extraen los transitorios fuertes de la seal, puesto que el diccionario est formado
por seales que comienzan de esta forma. En las siguientes iteraciones, estos transitorios son
suavizados para obtener la forma de la seal, lo que requiere un gran conjunto de tomos. Como
consecuencia, se escogen muchos tomos de pequea amplitud para refinar los errores cometidos
por los primeros tomos. El diccionario EDS se define a partir de los parmetros: factor de
amortiguamiento, frecuencia y retardo. La simulacin se ha llevado a cabo con 10 factores de
155
(d)
(e)
5 tomos
10 tomos
(c)
20 tomos
(b)
40 tomos
(a)
Seal
1
0
1
0
1
10
15
20
10
15
20
10
15
20
10
15
20
15
20
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
10
Tiempo (ms)
Figura 6.9: La seal transitoria de un golpe de castauela se modela mediante matching pursuits con un
diccionario EDS. La seal original se presenta en (a) y la seal aproximada por este modelo en sucesivas
iteraciones en: (b) 5 tomos, (c) 10 tomos, (d) 20 tomos y (e) 40 tomos.
156
(d)
(e)
5 tomos
10 tomos
(c)
20 tomos
(b)
40 tomos
(a)
Seal
1
0
1
0
1
10
15
20
10
15
20
10
15
20
10
15
20
15
20
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
10
Tiempo (ms)
Figura 6.10: La seal transitoria de una castauela se modela mediante matching pursuits con un diccionario WP. La seal original se presenta en (a) y la seal aproximada por este modelo en sucesivas
iteraciones en: (b) 5 tomos, (c) 10 tomos, (d) 20 tomos y (e) 40 tomos.
MSE (dB)
tomos EDS
6
8
tomos WP
10
12
0
10
20
30
Nmero de tomos
40
50
Figura 6.11: Error cuadrtico medio (MSE) de los modelos presentados en las figuras 6.9 y 6.10.
6.3.
Los transitorios presentes en las seales de audio, como se puede observar en los diferentes
ejemplos presentados, tienen una naturaleza muy diversa. Si el golpe de seal es muy fuerte,
como en el caso de las castauelas, la energa del transitorio predomina sobre el resto de la
seal. Sin embargo, se pueden poner otros ejemplos, como es el caso del transitorio del gong,
donde el incremento de energa no es tan brusco, existiendo en la misma seal una parte tonal
y otra transitoria. Puede llegar el caso, como se ver posteriormente, que aparezcan lo que en la
literatura conocen como micro-transitorios [Levine98]. En estos segmentos de seal predomina
la parte tonal, siendo la energa de la parte transitoria apenas distinguible de la envolvente
total de la seal. As pues, como norma general, en los codificadores paramtricos de audio es
imprescindible utilizar en cascada tanto el modelo tonal como el modelo de transitorios para
separar ambas partes de la seal de entrada. Una iniciativa prometedora es el desarrollo de un
diccionario mixto que permita extraer los parmetros de ambos modelos, obtenindose as un
modelo ptimo para la representacin de seales de audio con transitorios.
En relacin al orden de aplicacin del modelo tonal o de transitorios, no hay en la literatura
una postura comn. Lo que s es cierto es que el modelo de ruido se aplica sobre el residuo
resultante de la aplicacin de estos dos modelos en cascada. As, en el codificador de Levine
y Smith [Levine98], se utiliza la codificacin por transformada para todo el segmento de seal
considerado como transitorio, mientras que para el resto de segmentos se aplica en cascada un
modelo tonal seguido de uno de ruido. En el codificador HILN [Purnhagen00], tras realizar un
pre-anlisis de la seal para detectar si hay transitorios, en el caso de que stos existan se calcula
la envolvente de la seal. La presencia del transitorio se indica al decodificador, en cuyo caso
el tamao del segmento de audio se reduce. Una vez hecho esto, se usa el modelo tonal, que en
el caso de los transitorios se aplica sobre la seal dividida entre la envolvente estimada. En el
codificador de Ali [Ali95], se aplican en cascada el modelo tonal, de transitorios y de ruido, y
158
por este orden. Tras el modelado tonal, se substrae la componente sinusoidal, dando lugar a un
primer residuo que es la entrada al codificador de transitorios. En ste, la componente transitoria
se extrae del primer residuo, generando un segundo residuo, que ya se codifica como ruido.
Sin embargo, al contrario que en el codificador de Ali, los ms recientes codificadores paramtricos basados en un modelo de seal de tres componentes [Brinker02] [MPEG03] [Vera04c] [Verma00]
(sinusoides, transitorios y ruido, STN) aplican primero el modelo de transitorios, seguido del modelo tonal y, por ltimo, el modelo de ruido. La razn de este orden est en que el modelo tonal
se adapta muy bien a la parte estacionario, de la seal de audio. La presencia de un transitorio
cambia la estacionareidad local de la seal, empobreciendo el resultado que obtiene el modelo
tonal. Por ejemplo, si el modelo tonal se usa para representar un transitorio fuerte de seal, el
resultado ser que el ataque se dispersar en el tiempo, dando como resultado una seal codificada con pre-eco. Extrayendo los transitorios de la seal antes de aplicar el modelo tonal, al
menos se evita el problema del pre-eco. Con este enfoque de aplicacin en serie de los modelos
tonal y transitorio, respectivamente, se puede conseguir una buena calidad de la seal codificada
para la mayora de las seales de audio. Sin embargo, esta concatenacin de modelos tiene dos
inconvenientes principales:
Como la aplicacin de los modelos es en cascada (primero los transitorios y despus los
tonos), pueden aparecer problemas de separacin entre componentes. En este sentido,
pueden pasar dos cosas: por un lado, que el modelo de transitorios no extraiga todo el
ataque pudindose producir un pre-eco final, y por otro, que los transitorios extraigan
parte de la seal estacionaria, resultando un rgimen binario total muy elevado.
Cuando se aplica un segmento con un micro-transitorio al modelo de transitorios, la herramienta de modelado, a menudo, es incapaz de extraer este pequeo ataque, pasando
directamente al modelo de ruido, dispersndose en el tiempo en la seal codificada.
A la vista de estos problemas, se propone modelar transitorios y tonos en la misma etapa
del codificador. Para lograr esta herramienta, se utilizar el mtodo matching pursuits con un
diccionario mixto [Vera06a]. Este diccionario mixto debe incluir dos familias de funciones: 1)
funciones que se adapten bien a las transiciones de seal; 2) funciones que puedan representar
la parte estacionaria de la seal de audio. En este sentido, se han elegido funciones waveletpackets para la parte transitoria y exponenciales complejas para la parte estacionaria. En una
descomposicin atmica de este tipo, en cada iteracin se busca el tomo ptimo, que es el que
extrae la mayor cantidad de energa del residuo actual. Dependiendo de las caractersticas del
residuo en cada iteracin, el tomo ptimo puede ser una exponencial compleja o una funcin
wavelet-packets.
El principal problema del uso de diccionarios mixtos, como se dijo anteriormente, es la complejidad asociada a la implementacin. En este sentido, debido a que los tomos son de diferente
naturaleza, las correlaciones cruzadas entre todos los tomos, que deben estar almacenadas en
memoria, suelen ocupar un tamao prohibitivo para determinadas aplicaciones. A continuacin,
se presentar una implementacin eficiente de un diccionario mixto formado por exponenciales
complejas y funciones wavelet packets, basado en las propiedades particulares de ambas familias
de funciones.
6.3.1.
160
k = 0, . . . , L n = 0, . . . , N 1
(6.16)
(6.17)
(6.18)
N 1
1
1 X j 2(kk(i)) n
2L
= U [((k k(i)))2L ]
e
N
N
n=0
(6.19)
hek(i) , ek i =
N 1
1 X j 2(k+k(i)) n
1
2L
e
= U [((k + k(i)))2L ]
N
N
(6.20)
n=0
donde ahora U [k] es la DFT de longitud 2L de la funcin unidad u[n] (como corresponde al
cuadrado de la ventana rectangular). Esta DFT debe ser pre-calculada y guardada en memoria
para una actualizacin rpida de las correlaciones en cada iteracin del matching pursuits. Resumiendo, para el diccionario de exponenciales complejas, hay que calcular: 1) las correlaciones
iniciales con la seal mediante una FFT de longitud 2L; 2) las correlaciones cruzadas entre
tomos, lo que requiere un vector de longitud 2L guardado en memoria.
En el caso de formar un diccionario mixto compuesto por un diccionario de exponenciales
complejas y wavelet-packets (D = DEC DW P ), el mtodo matching pursuits debe calcular en
cada iteracin i los pesos {ik , i{s,p,r} } asociados a los elementos del diccionario {ek , w{s,p,r} }.
En la primera iteracin, estos pesos son las correlaciones entre la seal de entrada y todos los
tomos del diccionario. Los pesos en la iteracin inicial se calculan mediante la Transformada
Discreta de Fourier (DFT) y la Transformada Wavelet-Packets (WPT) de la seal de entrada,
dependiendo de si se corresponden con las exponenciales complejas o con las funciones waveletpackets, respectivamente. Una vez estos pesos son calculados, se elige el tomo ptimo (que es
el que minimiza la energa del residuo), que puede ser o una exponencial compleja o una funcin
wavelet-packets. A continuacin, se debe llevar a cabo la actualizacin de las correlaciones, lo que
implica conocer de antemano todas las correlaciones cruzadas entre los tomos del diccionario.
Ya se han estudiado las correlaciones cruzadas entre los tomos de la misma familia. En este
momento, se va a proceder a exponer cmo se obtienen las correlaciones cruzadas entre exponenciales complejas y wavelet-packets. Este clculo de correlaciones entre tomos de diferente
naturaleza depende del tipo de tomo extrado en cada iteracin, lo que da lugar a dos situaciones
diferentes que se estudiarn por separado.
6.3.2.
Clculo de la correlacin cruzada entre una exponencial compleja elegida como tomo ptimo y funciones wavelet-packets.
En este caso, el tomo ptimo es complejo, mientras que la funcin extrada de la seal es
real, ya que se trabaja con subespacios complejos. El procedimiento de actualizacin de estas
correlaciones sigue la ecuacin (5.8) del mtodo matching pursuits con subespacios complejos. La
implementacin de esta ecuacin requiere pre-calcular las correlaciones cruzadas entre el tomo
ptimo ek(i) en la iteracin i y todas las funciones wavelet-packets w{s,p,r} DW P . Este clculo
se puede expresar en funcin de la DFT de las funciones wavelet-packets gracias a la naturaleza
de las exponenciales complejas:
N
1
X
n=0
N
1
X
n=0
2k(i)
1
1
(6.21)
2k(i)
1
1
ej 2L n w{s,p,r} [n] = W{s,p,r} [k(i)]
N
N
(6.22)
162
2L
w{s,p} [n 2 r]
=
n=0 e
N
2k(i)
2k(i) p P
p
N 12 r j 2L l
1 ej 2L 2 r
w{s,p} [l]
e
l=0
N
(6.23)
donde l = n 2p r, y se supone que las funciones wavelet-packets son causales, w{s,p} [l] =
0, l < 0. Esto obliga a realizar la transformada WP donde el modo de extensin sea el relleno
con ceros. Se ha elegido este modo de extensin porque el modo peridico (desplazamientos
circulares de las funciones con el retardo r) puede producir resultados inadecuados. Por ejemplo,
si un transitorio est en los comienzos de una trama, su energa se puede dispersar al final de la
misma debido a los desplazamientos circulares. No obstante, debido a las propiedades de la DFT
para seales con desplazamientos circulares, se podra llegar a un resultado ms compacto para
actualizar las correlaciones con modo de extensin peridico.
Es posible relacionar el resultado de la ecuacin (6.23) con la DFT de longitud 2L de cada
funcin w{s,p} [n] de la forma:
hek(i) [n], w{s,p} [n 2p r]i
=
2k(i)
2k(i) p
PN 1 j 2k(i) l
PN 1
j
2
r
l
j
1
e 2L
( l=0 e 2L w{s,p} [l] l=N 2p r e 2L w{s,p} [l]) =
N
2k(i)
2k(i) p
PN 1
j 2L l
1 ej 2L 2 r (W
w{s,p} [l])
l=N 2p r e
{s,p} [k(i)]
N
(6.24)
donde W{s,p} [k(i)] es el valor de la DFT de longitud 2L de la funcin w{s,p} [n] en la frecuencia
discreta k(i). El sumatorio de la ecuacin (6.24) se debe calcular para todos los posibles valores de
r de cada funcin w{s,p} [n]. Una posible forma de implementarlo es mediante un filtro digital con
coeficientes complejos. Para reducir la complejidad asociada de este clculo, este trmino se puede
obtener para valores consecutivos de r. Con este enfoque, la complejidad asociada al sumatorio
es de N 2p multiplicaciones complejas para todos los valores de r de cada funcin w {s,p} [n].
De forma adicional, la primera exponencial de la misma expresin representa una multiplicacin
compleja cada 2p muestras. Resumiendo, el nmero de multiplicaciones para implementar la
ecuacin (6.24) es de N 2p + 2Np para cada funcin wavelet-packets w{s,p} [n]. No se ha tenido en
6.3.3.
(6.25)
(6.26)
donde W{s(i),p(i)} [k] es la DFT de longitud 2L de la funcin w{s(i),p(i)} [n], l = n2p(i) r(i) y se
ha considerado que el modo de extensin es relleno con ceros: w{s,p} [l] = 0, l < 0. El problema
de obtener el ltimo sumatorio en la ecuacin (6.26) es ahora diferente. Es necesario calcular este
valor para todas las posibles frecuencias discretas, k = 0, , L, con el valor de retardo r(i) del
tomo wavelet packets ptimo elegido en la iteracin i. En funcin del valor concreto del retardo
r(i), el clculo del sumatorio puede ser menos complejo mediante una FFT o un filtro digital con
coeficientes complejos. En la prctica, la mayora de las funciones w{s(i),p(i),r(i)} [n] tienen valores
iguales a cero en las muestras desde N 2p(i) r(i) hasta N 1, lo que supone que el sumatorio
no es necesario calcularlo.
164
Concluyendo, cuando se elige un funcin wavelet packets como tomo ptimo, el procedimiento de actualizacin de las correlaciones para las exponenciales complejas requiere: 1) guardar
2P +1 2 DFTs de longitud 2L, una por cada funcin wavelet packets w{s,p} [n], y 2) calcular el
efecto del retardo efectivo 2p(i) r(i) del tomo ptimo, (w{s(i),p(i),r(i)} [n] = w{s(i),p(i)} [n2p(i) r(i)]),
lo que conlleva como mximo 2L log2 2L multiplicaciones (el clculo de la FFT en el sumatorio
de la ecuacin (6.26)).
6.3.4.
Para terminar, cuando se implementa matching pursuits con un diccionario mixto compuesto
de exponenciales complejas y wavelet packets (D = DEC DW P ), los requerimientos de memoria
para realizar la actualizacin de las correlaciones son:
1. Una DFT de longitud 2L para almacenar la transformada discreta de Fourier de la ventana
rectangular con el objeto de poder actualizar las correlaciones cruzadas entre funciones
exponenciales complejas ek .
2. La respuesta impulsiva de todas las ramas del rbol de sntesis WP, w {s,p} , en el caso de
las funciones wavelet packets.
3. 2P +1 2 DFTs de longitud 2L para almacenar las transformadas discretas de Fourier de
la respuesta de cada rama del rbol de sntesis WP w{s,p} requeridas para actualizar las
correlaciones cruzadas entre funciones de diferente naturaleza.
En la iteracin inicial, hay que calcular la DFT de longitud 2L y la transformada WP hasta
una profundidad P de la seal de entrada x[n]. Con esto se consigue inicializar las correlaciones
entre la seal y los elementos del diccionario mixto. El nmero de multiplicaciones para el resto
de iteraciones viene dado por el procedimiento de actualizacin de correlaciones. Se necesita una
multiplicacin por tomo para actualizar las correlaciones segn la expresin (4.21), donde se
multiplica el peso del tomo ptimo con las correlaciones cruzadas. Cuando se elige como tomo
ptimo una exponencial compleja, la actualizacin de correlaciones se realiza ahora mediante la
ecuacin (5.8), lo que conlleva dos multiplicaciones por tomo para actualizar exponenciales complejas y una multiplicacin por tomo para actualizar las funciones wavelet packets (realizando
una simplificacin por ser funciones reales). Sin embargo, esta complejidad se podra conseguir
si se pre-calcularan y almacenaran todas las correlaciones cruzadas entre tomos, algo que exige
una cantidad de memoria ingente.
Se propone reducir la cantidad de memoria, a costa de incrementar de forma adicional la complejidad para obtener las correlaciones cruzadas. Aprovechando las propiedades de exponenciales
complejas y wavelet packets, se obtiene un incremento de complejidad, segn se indica:
1. Cuando se elige como tomo ptimo una exponencial compleja ek (i), para actualizar las
correlaciones con:
a) Las exponenciales complejas ek . No hay complejidad adicional.
b) Las funciones wavelet packets w{s,p,r} . Se sigue la ecuacin (6.24), por lo tanto, el
nmero de multiplicaciones mximo para cada una de las 2P +1 2 funciones w{s,p}
es de N 2p + 2Np multiplicaciones.
6.3.5.
En primer lugar, es preciso hacer una reflexin sobre las seales a utilizar en las pruebas
experimentales. Estas seales deben contener un transitorio de audio, aunque se debe verificar el
modelo propuesto tanto para transitorios importantes como para transitorios poco significativos
(caso de un micro-transitorio). En cuanto a las herramientas a comparar, el mtodo matching
pursuits se va a utilizar bajo tres aproximaciones diferentes: (1) usando un diccionario mixto de
exponenciales complejas y wavelet packets; (2) usando un diccionario de exponenciales complejas
y, seguidamente en cascada, un diccionario de wavelet packets; (3) usando un diccionario de
wavelet packets seguido, en cascada, de un diccionario de exponenciales complejas.
El primer ejemplo que se va a utilizar para ilustrar las ventajas del modelo propuesto es el
de un transitorio fuerte de audio. En este caso, la seal es un golpe de castauela, aunque menos
fuerte que el de los ejemplos del apartado anterior. La idea es que la trama de audio contenga una
parte tonal, para ver la interaccin entre la parte tonal y transitoria en cada modelo de seal. En
la figura 6.12 se muestra el modelado de este transitorio. Se observa cmo la mejor discriminacin
entre la parte tonal y la transitoria se obtiene con el primer enfoque, correspondiente al diccionario
mixto. La segunda aproximacin (aplicacin en serie de diccionario de exponenciales complejas
y wavelet packets) produce un pre-eco, as como un suavizado del transitorio extrado. Para el
tercer enfoque (aplicacin en serie de wavelet packets y exponenciales complejas) se aprecia como
crece el nmero de tomos dedicados a modelar la parte transitoria.
El criterio de parada usado para todos los casos es el siguiente: se detiene el mtodo matching
pursuits cuando un tomo extrae del residuo actual menos del 2 % de la energa de este residuo.
Se elige este valor para obtener un residuo con propiedades estocsticas, es decir, para tratar de
eliminar todas las componentes tonales o transitorias y, de esta forma, evitar artefactos en el
residuo modelado de forma sinttica como ruido [Schijndel03].
El segundo ejemplo, presentado en la figura 6.13, muestra el modelado de un micro-transitorio
procedente de la seal glockenspiel del conjunto de seales de MPEG. La estructura de esta figura
es la misma que la de la figura anterior. En este caso, de nuevo, el diccionario mixto obtiene
la mejor descomposicin. El micro-transitorio modelado por el segundo enfoque (aplicacin en
serie de exponenciales complejas y wavelet packets) tiene menos riqueza que el modelado por
el diccionario mixto. El tercer enfoque ni siquiera es capaz de representar el micro-transitorio,
puesto que no se llega a extraer ningn tomo wavelet packets de la seal inicial.
En ambas figuras, 6.12 y 6.13, el resultado del diccionario mixto es mejor que el obtenido
para los diccionarios en cascada. Parece lgico que, cuando una trama de audio contenga una
parte tonal y otra transitoria, el diccionario mixto d mejores resultados, ya que evita que cada
166
tonos
1
tonos
1000
14 tomos
500
1000
1500 2000
muestras
2500
19 tomos
500
1000
1500 2000
muestras
2500
3000
5 tomos
0
1
500
1500 2000
muestras
3000
0
1
(d)
500
0
1
(c)
wavelets
(b)
wavelets
tonos
wavelets
(a)
seal original
1000
1500 2000
muestras
2500
3000
500
1000
2500
3000
42 tomos
0
1
500
1000
1500 2000
muestras
500
1000
1500 2000
muestras
2500
3000
54 tomos
0
1
3000
33 tomos
0
1
2500
500
1000
2500
3000
1500 2000
muestras
2500
3000
(e)
residuo del
dicc. mixto
1
0
1
1500 2000
muestras
Figura 6.12: (a) Trama de audio con un transitorio de castauela. (b) Parte tonal y transitoria modelada
con el diccionario mixto. (c) Parte tonal y transitoria modelada con un diccionario de exponenciales
complejas seguido, en cascada, de un diccionario de wavelet packets. (d) Parte tonal y transitoria modelada
con un diccionario de wavelet packets seguido, en cascada, de un diccionario de exponenciales complejas.
(e) Residuo final del diccionario mixto.
(a)
tonos
tonos
500
1000
500
1000
31 tomos
1500
2000
muestras
2500
3000
500
31 tomos
0
1
1500
500
1000
1500
2000
muestras
2500
3000
2000
muestras
wavelets
34 tomos
(d)
0
1
(c)
wavelets
(b)
wavelets
tonos
seal original
2500
3000
17 tomos
0
1
500
1000
1500
2000
muestras
3000
11 tomos
0
1
2500
500
1000
1500
2000
muestras
2500
3000
0 tomos
0
1
500
1000
1500
2000
muestras
2500
3000
Figura 6.13: (a) Trama de audio con un micro-transitorio. (b) Parte tonal y transitoria modelada con el
diccionario mixto. (c) Parte tonal y transitoria modelada con un diccionario de exponenciales complejas
seguido, en cascada, de un diccionario de wavelet packets. (d) Parte tonal y transitoria modelada con un
diccionario de wavelet packets seguido, en cascada, de un diccionario de exponenciales complejas.
168
Tabla 6.1: Preferencia de los resultados del diccionario mixto sobre el diccionario en serie en %.
Fichero
Suzanne Vega
Voz masculina en alemn
Voz femenina en ingls
Clavicordio
Castauelas
Diapasn
Gaita
Glockenspiel
Punteos de guitarra
Slo de trompeta
Pieza orquestal
Pop
Preferencia ( %)
55
60
70
100
100
52
46
100
70
56
60
100
diccionario simple cometa errores por exceso o por defecto en la extraccin de tomos de la seal.
Para verificar que el uso del diccionario mixto tambin proporciona los mejores resultados
perceptuales, se va a comparar con el uso en cascada del diccionario de exponenciales complejas y el diccionario wavelet packets (tercer enfoque). Se elige este esquema en serie porque es
el ms utilizado en los codificadores paramtricos que usan modelado de transitorios. Se han
utilizado un subconjunto de seales de audio mono de calidad CD pertenecientes al grupo de
seales recomendadas por MPEG [MPEG01] para tareas de estandarizacin. El esquema de anlisis/sntesis implementado utiliza una ventana de Hanning con un tamao de trama de 23ms, es
decir N = 1024 muestras, y un solapamiento del 50 % entre segmentos. El nmero de exponenciales complejas en DEC es de L + 1 = 4097 tomos, mientras que la descomposicin WP se ha
llevado hasta una profundidad de P = 4, para un tamao de MW P = P N = 4096 tomos, y
se han usado filtros ortonormales de Daubechies con nmero mximo de momentos de anulacin
y 32 coeficientes. Notar que los resultados no cambian significativamente cambiando la profundidad de descomposicin o la familia de los filtros wavelet packets [Vera04a]. Se han realizado
unos tests de audicin usando la metodologa del triple estmulo con referencia ciega. Ahora, los
resultados se muestran en la tabla 6.1.
Como se observa en la tabla 6.1, el diccionario mixto consigue los mejores resultados perceptuales para las seales con un alto contenido en transitorios. La explicacin de este resultado es
que el diccionario mixto evita, para los transitorios fuertes, artefactos de tipo clicks, mientras que
para los micro-transitorios no produce distorsin de pre-eco (debida a la dispersin de la energa
en el modelado de ruido si el micro-transitorio no ha sido extrado de la seal). Para las seales
de audio muy tonales no hay diferencia perceptual entre los dos enfoques. Esta ltima reflexin
es muy til para reducir el coste computacional en un codificador paramtrico, puesto que el
diccionario mixto tiene una complejidad alta y no est justificado su uso en tramas muy tonales
de seal. As pues, el mtodo matching pursuits con un diccionario mixto es una herramienta
ideal para modelar segmentos transitorios de audio que contengan una parte tonal aparte de la
transitoria, ya que consigue un modelo preciso y bien localizado de la parte transitoria.
Como conclusin, el uso de un diccionario mixto compuesto de exponenciales complejas y
wavelet packets no slo proporciona una representacin eficiente de la seal de audio, sino,
170
Captulo 7
Modelado de ruido
Una vez obtenidos los parmetros de los tonos y de los transitorios, queda un residuo difcil de
modelar. El problema principal se basa en que, a diferencia de tonos y transitorios tratados hasta
ahora, el residuo no se puede modelar mediante una descomposicin atmica. La causa se debe a
que el residuo resultante de aplicar los modelos tonal y de transitorios es una seal poco correlada
con los posibles tomos utilizados, por lo que no es posible implementar un modelo basado en
descomposiciones atmicas que contenga en unos pocos tomos la energa de la seal residual.
Muy al contrario, si se aplica cualquier descomposicin atmica, el resultado ser la dispersin
de la energa en muchos tomos, cualquiera que sea el diccionario utilizado, ya que el residuo es
el resultado de tratar la seal de audio con una gran variedad de tomos tiempo-frecuencia.
Sin embargo, si es posible implementar un modelo paramtrico para tratar el residuo. Este
modelo parte de la falta de correlacin de la seal con cualquier diccionario, por lo que la seal
residual tiene caractersticas estocsticas, es decir, tiene propiedades similares a una fuente de
ruido blanco filtrada. As pues, el modelo que se utiliza normalmente para parametrizar la seal
residual se conoce como modelo de ruido, puesto que realiza esta suposicin sobre la seal residual.
En general, un modelo de ruido no parametriza la forma de onda de la seal, sino que simplemente extrae las envolventes de energa en frecuencia y tiempo como parmetros del modelo. En
el decodificador, se genera ruido blanco que se filtra, a partir de la informacin de las envolventes,
de forma que se obtenga la forma del residuo inicial en tiempo y frecuencia. A continuacin, se
describen los procedimientos de parametrizacin de ruido extrados de la bibliografa, para hacer
una comparacin entre ellos y determinar los ms validos para el propsito de esta tesis. Adems,
en este tema se tratarn otros aspectos relacionados con el modelo de ruido, como es la difcil
separacin entre tonos y ruido en un codificador paramtrico de audio.
7.1.
En los segmentos estacionarios de la seal de audio, la clave para obtener un modelo paramtrico que represente de forma satisfactoria la seal es la correcta separacin entre tonos y ruido,
es decir, la obtencin de un equilibrio entre las partes determinstica y estocstica de la seal.
Idealmente, la parte sinusoidal abarca las componentes tonales del sonido, mientras que el ruido
se ocupa de la parte estocstica. Por ejemplo, para el sonido de una flauta, la parte tonal es bien
representada por tonos, mientras que el sonido que produce el aire se puede modelar como ruido.
171
172
ssinusoid
173
tones
noise
Tonal - noise transition
(a)
Figura 7.1: La seal estacionaria de audio est formada por tonos, ruido y una mezcla de ambos. La
frontera ptima entre tonos y ruido en un modelo de seal determinstica ms estocstica se desconoce a
priori [Myburg04].
174
ideal para la separacin entre tonos y ruido. Esta frontera slo se puede conocer a posteriori, es
decir, cuando se evalan los resultados entre varias seales codificadas con diferentes fronteras de
separacin. Como primera aproximacin, se puede establecer la frontera en el punto en que todos
los tonos perceptualmente importantes son modelados por el modelo tonal. Esto es lo mismo que
poner la frontera (a la izquierda en la figura) en un punto donde el rgimen binario final es
bastante reducido. Si se extraen (y codifican) ms tonos de los perceptualmente importantes
el rgimen binario crecer y, es de esperar, que la calidad de la seal codificada mejore. Sin
embargo, la calidad perceptual crecer hasta el momento en el que se empiece a modelar en las
zonas ruidosas de la seal el residuo con muchos tonos. En ese momento, se producirn pitidos
en la seal codificada. En las pruebas realizadas, se ha usado como criterio extraer y codificar
slo los tonos perceptualmente significativos, de forma que se codifica como ruido el resto del
residuo. Los artefactos ms comunes encontrados mediante esta aproximacin son:
La seal codificada se escucha ruidosa en algunos segmentos. Concretamente, se escucha
ruidosa cuando los tonos presentes en la seal no son tonos muy puros. Esto sucede en las
seales vocales de naturaleza sonora, y en instrumentos musicales cuando se est cambiando
entre una nota musical y otra (sobre todo en la trompeta). En estos casos, el modelo
sinusoidal extrae pocos tonos, dejando un residuo con parte deteminstica al modelo de
ruido.
Para algunas seales, como las vocales, se diferencian claramente como dos fuentes independientes la parte tonal y la ruidosa. Este efecto es muy comn en segmentos sonoros de
la seal vocal, puesto que en estos casos el residuo tiene una gran parte determinstica.
Cuando se modela como ruido este residuo, el odo interpreta la parte ruidosa como de
naturaleza independiente a la vocal, pareciendo, de alguna manera, que se escucha la seal
original filtrada ms un eco ruidoso.
Estos artefactos, sin embargo, tienen menor importancia que los encontrados en el enfoque
que elimina los tonos no audibles. Esta afirmacin se realiza basndose en que estos defectos
aparecen principalmente para seales vocales y que se pueden minimizar extrayendo (y codificando) ms tonos (de los perceptualmente importantes) en el codificador. Sin embargo, esta
estrategia no se va a seguir en la definicin del codificador propuesto porque conduce a un rgimen
binario mayor y afecta (principalmente) a seales vocales. Para estas seales, ningn codificador
paramtrico consigue mejor calidad que los vocoders ms usuales. Como conclusin, los codificadores paramtricos, basados en la descomposicin en un mismo segmento de seal estacionaria
de tonos y ruido, se deben utilizar en aplicaciones donde la seal sea una seal musical. Como
futura lnea de investigacin, se propone la variacin del modelo de ruido para incluir en la generacin del mismo, aparte de ruido blanco, la posibilidad de generar ruido multipulso [Ding97].
Con esta opcin, se podr modelar de forma ms satisfactoria el residuo cuando ste posee una
parte determinstica proveniente de tonos no eliminados en la seal.
El difcil equilibrio entre tonos y ruido es an ms crtico que en el caso de segmentos transitorios de seal de audio. En este caso, los criterios perceptuales no son viables, ya que el umbral
de enmascaramiento no es vlido en segmentos no estacionarios de seal. As pues, cuando se
modela un transitorio, la frontera entre el modelado de transitorios (junto con tonos) y el modelado de ruido es, inevitablemente, una frontera basada en energa. En este caso, conforme ms
generador de
ruido blanco
175
Lineal
Variante en el tiempo
Ruido
hk(f)
sinttico
7.2.
En general, el modelo de ruido es un modelo de una fuente estocstica que se obtiene mediante filtrado. Por eso, la primera herramienta usada para el modelo de ruido fue la codificacin
mediante prediccin lineal (LPC). En un modelo de este tipo, el codificador extrae mediante
LPC los coeficientes de un filtro todo polos. Estos parmetros informan de la envolvente de la
energa del residuo en frecuencia. En el decodificador se genera ruido blanco, que se filtra con los
coeficientes del LPC obtenidos en codificacin, resultando un ruido sinttico con una envolvente
en frecuencia similar al residuo original. Este modelo tan sencillo es, en realidad, un filtro variante en el tiempo que colorea una fuente de ruido blanco. Se dice que es variante en el tiempo
porque los parmetros de la envolvente en frecuencia varan de una trama a otra de ruido. Con
esta estructura, sin embargo, hay una gran cantidad de opciones de implementacin, aunque en
todas ellas los parmetros extrados describen la forma variante en el tiempo de la energa en
frecuencia del residuo. As pues, el modelo del ruido en frecuencia se basa en un esquema similar
al de la figura 7.2. Sin embargo, la forma de implementar este filtro variante en el tiempo es
diferente en cada aproximacin tomada de la bibliografa.
En general, dos estrategias radicalmente distintas se han impuesto en codificacin paramtrica
de audio. Por un lado, se tienen los bancos de filtros ERB, fcilmente implementables mediante
la STFT, y por otro lado, las estrategias de warped-LPC, que son una simple modificacin de
los filtros LPC para obtener un espectro logartmico en frecuencia. Es preciso tener en cuenta en
el anlisis del ruido en frecuencia que el residuo, an teniendo en principio que estar compuesto
slo de la parte estocstica de la seal de audio, en realidad contiene una parte determinstica,
como sucede con los tonos no audibles en el caso del codificador propuesto en esta tesis. Por lo
tanto, se explicarn detalladamente ambas estrategias y se implementarn para comprobar con
cul de ellas se obtiene una mejor calidad perceptual al sintetizar el ruido.
176
7.2.1.
177
1 X t 2
|X [k]|
M
(7.1)
kb
donde Ebt es la energa de la banda ERB b en la trama t, b son las muestras de la DFT
que pertenecen a la banda ERB b y X t [k] es la muestra k de la DFT de M muestras de la
seal residual en la trama t. Estos parmetros de energa se pueden utilizar en el decodificador
mediante un simple mecanismo de solapamiento (que suele haberlo entre tramas) y suma. Una
nota importante es que el cambio del nmero de bandas ERB es muy sencillo en frecuencia,
bastando con conocer las muestras que cada banda engloba. Sin embargo, esta modificacin
necesita cambiar el banco de filtros con un enfoque de filtros FIR. Se puede decir que mediante
la tcnica ERB el espectro de magnitud para sintetizar el ruido es un espectro lineal a trozos,
ya que lo que hace el banco de filtros basado en STFT es modificar la varianza del ruido blanco
(que lo es en parte real e imaginaria) a una varianza constante cada banda ERB. Aunque pueda
parecer simplista esta aproximacin del espectro, est basada en principios perceptuales y los
buenos resultados obtenidos se emplean en algunos codificadores paramtricos de audio [Levine98]
[Verma99].
7.2.2.
El uso de coeficientes LPC que implementan un filtro IIR todo polos (P polos), mediante
la prediccin de una muestra a partir de P muestras de entrada, fue usado por primera vez en
codificacin de audio en [Serra89]. Realizando esta extraccin de coeficientes en tiempo corto, es
decir en una trama de anlisis pequea, se puede conseguir el filtrado variante en el tiempo que
caracteriza el modelo de ruido. Para evitar problemas de inestabilidad en la cuantificacin de los
polos, se suelen utilizar los coeficientes de la estructura en celdas (lattice) [Markel76], verificando
el test de estabilidad de Schr-Cohn. Adems, se ha llegado a utilizar una excitacin multipulso
[Ding97] para conseguir mayor fidelidad cuando el residuo tiene una frecuencia fundamental
(pitch) definida. Sin embargo, los coeficientes del filtro LPC se calculan minimizando la energa
del error entre el ruido sinttico generado y el residuo actual, de ah el enfoque de prediccin
lineal. Esa minimizacin de la energa no est adaptada a la percepcin del odo humano, ya
que ste tiene una precisin logartmica en la frecuencia. Adems de este factor, la diferencia
perceptual entre residuo y ruido sinttico es funcin de la mscara actual. En relacin al carcter
logartmico de la percepcin en frecuencia, parece ms lgico modelar con ms detalle el espectro
de baja frecuencia, donde hay muchas bandas crticas, que el de alta frecuencia. Con esta finalidad
surgi la variacin conocida como warped-LPC [Strube80]. En general, esta tcnica sirve para
incrementar la resolucin del filtro todo polos en una cierta zona de frecuencia, a expensas de la
resolucin en el resto de la frecuencia. En este sentido, en lo que a codificacin de audio se refiere,
se pueden conseguir resoluciones en frecuencia similares a las obtenidas por algunas escalas con
carcter logartmico, como la escala de Bark o las bandas crticas, mediante una transformacin
bilineal de la transformada z [Smith95] de los filtros todo polos. Se han realizado en la bibliografa
implementaciones a partir de estructuras de filtros conocidas [Harma00b] [Brinker03]. Este tipo
de filtros basados en warped-LPC son los ms utilizados en codificacin paramtrica de audio,
siendo su exponente ms destacado el codificador estandarizado PPC (Philips Parametric Coder ).
178
- 1
r
+
- 1
Figura 7.3: Bloque a sustituir por cada retardo unidad para obtener filtros warped.
La transformacin de escala en frecuencia a banda de Bark es un problema superado [Smith99]
[Harma00a]. Generalmente, un banco de filtros con anchos de banda uniformes en frecuencia se
puede convertir en un banco de filtros con anchos de banda uniformes en banda de Bark (y por
tanto logartmico en frecuencia) mediante una transformacin paso todo, usando una relacin
bilineal definida por la siguiente sustitucin en el dominio z:
z = A () ,
+
1 +
(7.2)
con la que se convierte el crculo unidad en el plano z en otro crculo unidad en el plano tal
que, para 0 < < 1, las bajas frecuencias se estiran y las altas se comprimen, en la misma forma
que lo hace una transformacin de frecuencia a escala de Bark. El valor del parmetro depende
de la frecuencia de muestreo de la seal original [Smith99]. Si se aplica la expresin (7.2) con
= 0, 756 (y frecuencia de muestreo de entrada de 44, 1KHz) en un filtro, la escala obtenida
es muy similar a la escala de Bark [Harma00a]. Para hacerse una idea del cambio de escala que
se obtiene, la escala de Bark se puede aproximar a partir de las posiciones en frecuencia como
[Zwicker99]:
b = 13arctan(0,76f (KHz)) + 3,5arctan(
f (KHz) 2
)
7,5
(7.3)
z 1
1 z 1
(7.4)
Segn la expresin (7.4), el bloque se puede implementar mediante una sola multiplicacin
con la estructura que aparece en la figura 7.3. Este bloque realmente modifica la fase, y por
tanto el retardo, para realizar el cambio de escala. Esta tcnica, presentada en [Harma00b],
permite implementar un banco de filtros warped sin cambiar los coeficientes ni la estructura
del filtro origen, slo se sustituyen los retardos unidad por el bloque paso todo. La inclusin de
este bloque provoca un cambio de la fase con respecto al retardo unidad que permite procesar
ms lentamente las bajas frecuencias y ms rpidamente las altas frecuencias. Para entender el
funcionamiento de la transformacin bilineal, es necesario poner un ejemplo. Los tres tonos de la
figura 7.4 se introducen en una cadena de 1000 bloques de primer orden paso todo con = 0, 723.
179
Figura 7.4: Tres tonos en tiempo y frecuencia antes de realizar un procesado warped [Harma00a].
La seal de salida despus de procesar 1000 muestras se dibuja en la figura 7.5. Comparando
ambas figuras, se observa como los tonos se propagan a diferente velocidad por la cadena de
bloques paso todo, provocando as el cambio de escala esperado a la salida. Se puede interpretar
este cambio de escala como el re-muestreo de la seal de salida en funcin de la frecuencia, que
al fin y al cabo es la base del cambio de escala pretendido.
En cuanto a implementacin, se puede realizar un enfoque basado en DFT modificada logartmicamente o warped -DFT, como en el caso del banco de filtros ERB. Sin embargo, es ms
comn emplear un enfoque de prediccin lineal donde el codificador soluciona la matriz de autocorrelacin, teniendo en cuenta en el sistema el cambio del retardo unidad por el bloque paso todo
[Harma00a]. Este software est disponible como una librera de MATLAB llamada warpTB en
la direccin: "http://www.acoustics.hut.fi/software/warp/ ". Una vez calculados los coeficientes
del filtro, parece lgico convertirlos a los coeficientes de la estructura en celdas mediante el algoritmo de Schr, porque de esta forma se evitan inestabilidades en el proceso de cuantificacin.
stos valores son los enviados al receptor, que puede, bien usar la estructura en celdas, o bien
obtener de nuevo los coeficientes de la estructura directa. Es interesante observar la forma de la
envolvente del espectro obtenida por un modelo warped -LPC. En este sentido, en la figura 7.6 se
representa la aproximacin del espectro que realiza tanto un modelo lpc y otro warped -lpc con 40
polos. En primer lugar, se dibuja la frecuencia en escala lineal. En esta parte slo se refleja que
la versin warped tiene una mayor definicin en bajas frecuencias. Sin embargo, la diferencia se
aprecia en la segunda parte de la grfica, donde se representa la frecuencia en escala logartmica.
Se observa ahora como la versin warped tiene una buena definicin en bajas frecuencias a costa
de la definicin en altas frecuencias, de ah que modele muy bien la energa en baja frecuencia. Es
importante tener en cuenta que sta es la escala empleada por el odo humano para la percepcin
de sonidos. Se puede admitir que para el sistema auditivo el error es ms grave en funcin de
las bandas crticas que ocupa (adems de su amplitud), no a partir de la distancia en frecuencia
lineal. Bajo esta premisa, en[Harma00a] se afirma que el modelo warped -lpc minimiza el error
180
Figura 7.5: Tres tonos en tiempo y frecuencia tras realizar un procesado warped por una cadena de 1000
bloques paso todo [Harma00a].
en la escala que escucha el odo. Una cuestin no abordada hasta ahora es la determinacin del
nmero de polos necesarios en un sistema warped -lpc. Para este fin, se puede utilizar la ganancia
de prediccin [Markel76] como valor para decidir en el codificador qu orden es necesario para
modelar el residuo. La ganancia de prediccin asociada a un polo indica la importancia de este
polo en la minimizacin del error. Cuanto ms grande es la ganancia, mayor ser la disminucin
del error de prediccin. Adems, es posible calcular la ganancia de prediccin directamente a
partir de los coeficientes de la estructura en celdas. Usando la ganancia de prediccin para un
modelo warped -lpc, se determina el nmero de polos usando un criterio perceptual, ya que se
extraen los polos que minimizan el error en banda de Bark (o logartmica) hasta un determinado
umbral.
7.2.3.
Comparacin de resultados
A continuacin, se van a realizar unas pruebas subjetivas para realizar una comparacin entre
mtodos de modelado de ruido que siguen principios perceptuales. En principio, tanto un banco
de filtros ERB como un modelo warped -LPC utilizan el mismo principio perceptual, el odo
escucha en una escala logartmica en frecuencia. Tambin ambos mtodos has sido utilizados en
diferentes codificadores paramtricos de audio. En cuanto a implementacin, quizs el banco de
filtros ERB mediante FFT es el mtodo menos complejo, aunque el warped -LPC tambin tiene
una complejidad reducida [Harma00a]. Desde el punto de vista de codificacin, ambos mtodos
pueden utilizar herramientas con base psicoacstica para limitar el rgimen binario. Para el caso
del banco de filtros ERB, la energa de una determinada banda se puede no enviar o cuantificar
con un nmero de bits variable en funcin de la mscara de ruido actual. Para el caso warped LPC, la ganancia de prediccin es el valor umbral a utilizar para decidir cuntos polos debe
enviar el codificador. As pues, slo falta conocer cul de los mtodos consigue un modelo de
ruido que ofrezca mayor calidad con las herramientas de codificacin de audio propuestas en esta
181
Figura 7.6: Espectro de una seal musical de clarinete y espectro estimado por modelos LPC y warpedLPC de orden 40. (a) Frecuencia lineal, (b) frecuencia logartmica [Harma00a].
182
2.5
1.5
0.5
4
6
Frecuencia (KHz)
10
Figura 7.7: Espectro del residuo de una seal vocal sorda (abajo), la envolvente de energa mediante
warped-LPC con 30 polos (medio) y un banco de filtros ERB mediante FFT con 30 bandas (arriba).
tesis. Para ello, se realizar una prueba subjetiva y se analizarn los resultados.
En primer trmino, se va a comparar grficamente la envolvente de energa en frecuencia
que obtienen ambos modelos de ruido para el caso de algunos segmentos particulares. En la
figura 7.7 se dibuja el residuo que queda tras aplicar el modelo tonal extrayendo slo los tonos
perceptualmente importantes a un segmento sordo de seal de voz. En este caso, el residuo no
tiene un pitch definido, aunque s una forma en frecuencia que dista mucho de ser la de ruido
blanco. El modelo con warped -LPC obtiene una forma ms exacta en bajas frecuencias, ya que se
puede apreciar cmo modela la poca energa que hay en baja frecuencia y, sin embargo, modela
de forma ms burda la mayor energa de alta frecuencia. En su caso, el modelo basado en ERB
tiene anchos de banda mayores para las altas frecuencias. Con este residuo, no se puede apreciar,
a priori, qu modelo obtendr mejores resultados perceptuales.
El siguiente paso es ver los resultados del residuo para una seal musical. En el caso de la
figura 7.8, el residuo en un segmento de una seal de orquesta. Ahora, el residuo tiene un espectro
ms coloreado an, puesto que en esta seal no hay una fuente de naturaleza ruidosa como en la
voz sorda. As pues, el residuo est formado por los tonos no extrados por el modelo tonal. Se
observa como el modelo warped -LPC obtiene una envolvente de energa que modela muy bien los
tonos de baja frecuencia presentes en el residuo, siendo peor el modelo para las altas frecuencias.
Sin embargo, en el caso del modelo basado en ERB, no se podrn sintetizar tonos bien definidos,
lo que con seguridad repercutir en la calidad de la seal de ruido sinttico.
Por ltimo, se trata el caso del residuo para un segmento de seal sonora de voz. La figura 7.9
representa este caso. Ahora, es claramente apreciable que el pitch de la seal sonora se manifiesta
en el residuo. El espectro est formado por un conjunto de tonos armnicos, aunque el modelo
tonal haya extrado los tonos de baja frecuencia. Aunque el modelo warped -LPC intente modelar
el tono ms importante en baja frecuencia, es incapaz de obtener una envolvente que recupere
una seal con carcter armnico. Parece obvio que no se puede pedir este resultado a un modelo
183
2.5
1.5
0.5
4
6
Frecuencia (KHz)
10
Figura 7.8: Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante warpedLPC con 30 polos (medio) y un banco de filtros ERB mediante FFT con 30 bandas (arriba).
184
2.5
1.5
0.5
4
6
Frecuencia (KHz)
10
Figura 7.9: Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante warpedLPC con 30 polos (medio) y un banco de filtros ERB mediante FFT con 30 bandas (arriba).
Tabla 7.1: Preferencia de los resultados del modelo de ruido WLPC sobre el modelo ERB basado en FFT
en %.
Fichero
Suzanne Vega
Voz masculina en alemn
Voz femenina en ingls
Clavicordio
Castauelas
Diapasn
Gaita
Glockenspiel
Punteos de guitarra
Slo de trompeta
Pieza orquestal
Pop
Preferencia ( %)
80
70
30
80
50
100
60
100
90
100
70
70
185
e s i d
E
o
s p
( f ) :
r a l
/ H
i d
l a n
e n
a s c a r a m
l o
e n
r e l a c i
n
P
s c a r a
M
i l t r o
I F
e r c e p
t u
I C
s p
r u
e l o
l o
e r c e p
t u
a l e s
t o
I C
/ m
i e n
c o
I F
( f )
e c t r o
r e s i d
1
i d
e c t r o
o
/ m
e n
r e l a c i
s c a r a
H
R
( f )
i d
e r c e p
c o
t u
a l
e s p
e c t r o
a l e s
Figura 7.10: Obtencin del modelo de ruido con un espectro pesado perceptualmente gracias al umbral
de enmascaramiento presente tanto en el codificador como en el decodificador.
7.3.
Una propuesta comentada por el Dr. Antonio Pena (profesor titular de universidad de la
Universidad de Vigo) realizada durante la celebracin de la 118a convencin del AES en Barcelona
(2005) es modelar la envolvente en frecuencia teniendo en cuenta el umbral de enmascaramiento
de ruido. Esto es posible en el codificador propuesto en esta tesis, porque gracias al mtodo
propuesto de cuantificacin de amplitudes de las frecuencias [Vera04b] se ha de calcular un
sencillo umbral de enmascaramiento en el decodificador. Por lo tanto, es posible conocer el
mismo umbral de enmascaramiento en codificacin y decodificacin, algo nico en un codificador
paramtrico de audio.
La idea es: antes de extraer los polos del WLPC, dividir en frecuencia la energa del residuo
entre el umbral de enmascaramiento. De esta forma, el modelo de ruido no parametriza la envolvente del residuo, si no la envolvente de la relacin residuo-mscara. Gracias a este pre-filtrado
del ruido, se dedicarn ms polos y, por lo tanto, se modelizar una envolvente ms ajustada
a aquellas zonas de frecuencia donde la relacin residuo-mscara es mayor y viceversa. Como
resultado esperado, se debe obtener un ruido con menor error perceptual (ya no de energa) con
respecto al residuo original. Por tanto, esta es una forma de ajustar los polos del modelo de
manera perceptual, y no por energa, como se hace de forma general.
Si se dibuja un diagrama de bloques de las operaciones realizadas tanto en el codificador como
en el decodificador para obtener este espectro perceptual de ruido, hay que incluir un filtrado
cuya respuesta en frecuencia sea el umbral de enmascaramiento (o su inverso). En la figura 7.10
se muestran las operaciones realizadas para obtener un espectro perceptual de ruido. Como se
observa en la figura, el uso del umbral de enmascaramiento se limita a una ecualizacin previa al
clculo de los polos con el objetivo de que el modelo WLPC minimice la importancia perceptual
(en lugar de la energa) en el clculo de los polos. Este cambio se deshace en el decodificador,
donde se obtiene al final un modelo WLPC pesado perceptualmente en lugar de por energa.
Para comprobar la validez del mtodo propuesto, se analiza la seal de audio extrayendo
transitorios y tonos e integrndolos en la seal de prueba intactos, mientras que el residuo
186
Tabla 7.2: Preferencia de los resultados del modelo de ruido WLPC pesado perceptualmente sobre el
modelo WLPC tradicional pesado por energa en %.
Fichero
Preferencia ( %)
Suzanne Vega
Voz masculina en alemn
Voz femenina en ingls
Clavicordio
Castauelas
Diapasn
Gaita
Glockenspiel
Punteos de guitarra
Slo de trompeta
Pieza orquestal
Pop
0
20
10
60
30
70
40
90
60
70
0
20
resultante es modelado mediante WLPC con y sin pesado perceptual. As pues, la seal de
prueba se obtiene sumando los tonos y transitorios extrados sin cuantificar y el ruido modelado.
En esta seal de prueba es obvio que slo se pueden apreciar los artefactos auditivos resultantes
de la sustitucin del residuo original por el modelo de ruido sinttico. Los resultados obtenidos
son basante interesantes y se muestran en la tabla 7.2. En esta tabla se presenta la preferencia
de los 10 oyentes de la seal modelada con WLPC pesado perceptualmente sobre el pesado por
energa.
La preferencia de la seal de ruido modelada con WLPC pesado perceptualmente no es general
para todas las seales, ni siquiera mayoritaria. A partir de las opiniones dadas por los oyentes que
realizaron la prueba, se puede llegar a la conclusin de que el modelo de ruido perceptual es mejor
para aquellas seales que se escuchan ruidosas con el modelo WLPC directo. Sin embargo, el otro
artefacto presente en el ruido, la interpretacin del odo de la seal tonal como independiente
de la seal ruidosa o efecto de eco, se amplifica en el modelo de ruido perceptual. Esto hace
incluso desagradable el modelo para ciertas seales, como las seales habladas y la seal de pieza
orquestal. Quizs los resultados se vean mejorados por la generacin en el decodificador de ruido
multipulso, en lugar de ruido blanco, de forma que se sinteticen algunas de las caractersticas
originales del residuo, como por ejemplo la existencia de un pitch definido en las seales ms
crticas. De cualquier forma, sta es una lnea futura de investigacin. Como artefacto adicional,
las seales generadas a partir de ruido WLPC pesado perceptualmente se escuchan con menor
riqueza en altas frecuencias. Este efecto de filtrado es determinante en la eleccin de la seal
preferida, por ejemplo en el caso de la seal pop. Finalmente, en lo que a los propsitos de esta
tesis se refiere, se descarta el uso del modelo WLPC perceptual porque los resultados no son del
todo satisfactorios e introduce una complejidad adicional en el decodificador. Esta ltima razn
hace recomendable la solucin adoptada con el objetivo final de conseguir una decodificacin en
tiempo real.
7.4.
187
En los modelos de ruido de codificadores paramtricos de audio tambin se modela la envolvente de la energa en el tiempo en cada trama de ruido. Normalmente, la envolvente temporal
del residuo se modela mediante la energa en tiempo corto, es decir, calculando la energa cada
conjunto pequeo de muestras. El nico problema de diseo que hay que tener en cuenta es que
la envolvente temporal debe estar adaptada a la resolucin temporal del sistema auditivo humano. As pues, es necesario determinar el tiempo mximo para actualizar la energa en tiempo
corto. Este valor es muy variable segn los autores. En [Brinker02], se propone un valor de 8ms,
mientras que en [Verma99] y [Purnhagen98] se admite un valor de 32ms. Las seales que limitan
este valor son las seales vocales, que tienen un fuerte carcter no estacionario y, por tanto,
necesitan una rpida actualizacin de la energa del residuo. Algunos experimentos [Myburg04]
indican que la seal de voz codificada con un codificador paramtrico se escucha metlica incluso
con valores de 10ms, alivindose este problema con 8ms. Con este valor, es necesario enviar la
potencia de ruido cada 353 muestras para una frecuencia de muestreo de 44, 1KHz.
Si se enva la potencia de ruido cada 8ms, el modelo obtenido est bastante limitado, porque
no es posible obtener una potencia de ruido que vare de forma natural, sino que variar en intervalos rectangulares de bastantes muestras. Por esta circunstancia, en los codificadores paramtricos
de audio, se suele enviar la energa en tiempos ms pequeos an, realizando un sub-tramado adicional para conseguir una envolvente de mejor calidad [Schijndel99]. Por ejemplo, en [Myburg04],
se utiliza un valor de sub-trama de ruido de 1, 6ms. Sin embargo, cuando la seal a codificar es
una seal de audio, muchas veces la envolvente de ruido tiene un carcter ms estacionario. Con
este esquema de clculo de la envolvente se derrocha rgimen binario en algunas seales de audio
para conseguir buena calidad en las seales vocales. Una estrategia de ahorro de bits se puede
incluir en el clculo de la envolvente temporal de ruido. Esta herramienta debera decidir si una
trama de seal tiene o no una envolvente significativa y, en este caso, permitir el modelado en
sub-tramas.
Una forma alternativa de conseguir un buen modelo de la envolvente de ruido con un bajo
rgimen binario de codificacin es utilizar un filtro predictor basado en LPC de la transformada
de la seal de ruido. Esta idea se ha utilizado con xito en los codificadores de forma de onda para
establecer una forma temporal apropiada al error de cuantificacin y evitar efectos de pre-ecos
en partes transitorias de seal. Este esquema conocido como TNS (Temporal Noise Shaping) ha
sido usado con xito en MPEG-AAC. La base terica de este predictor se fundamenta en realizar
la prediccin sobre las muestras de la FFT del ruido, consiguindose de esta forma un filtro LPC
en frecuencia cuya respuesta temporal tiene la forma de la envolvente del residuo. Con un filtro
LPC en frecuencia, es posible determinar si la envolvente de la seal es significativa, a partir de la
ganancia de prediccin de cada polo extrado. Usando un umbral para la ganancia de prediccin
por encima del cual enviar los polos, se puede implementar un bloque que modele la envolvente
slo en aquellos casos en que sea necesario. En la figura 7.11 se representa la envolvente con slo 3
polos del residuo para una seal sorda de voz. Se puede apreciar como se obtiene una envolvente
con una forma suave, y no con la forma escalonada que se obtendra mediante la energa en
tiempo corto.
En el codificador propuesto en esta tesis se va a utilizar un filtro LPC en frecuencia para
modelar la envolvente de residuo en el tiempo. Para la cuantificacin de los polos, se utilizarn
188
0.5
0.5
1
100
200
300
400
Muestras
500
600
700
Figura 7.11: Residuo para una seal de voz sorda y envolvente calculada con un filtro LPC en frecuencia
con 3 polos.
los coeficientes de la estructura lattice con un doble objetivo: por un lado, evitar inestabilidades
al cuantificar y, por otro, usar un valor mximo del cuantificador de polos a uno. El nmero de
polos a enviar se determinar mediante la ganancia de prediccin de cada polo. De esta forma,
se evita enviar una envolvente en aquellos casos donde no sea necesario. Usando un umbral
suficientemente bajo, se puede conseguir una resolucin temporal suficiente para satisfacer las
exigencias del sistema auditivo.
Captulo 8
190
variable es menor, ya que no se implementan estrategias de control del rgimen binario. Sin
embargo, esto no quiere decir que se vaya a conseguir una calidad transparente. Los errores
propios de los modelos paramtricos repercutirn en la seal de salida. Como ejemplo, es tpico
escuchar en la seal codificada pitidos debido a tonos que se extraen en zonas de ruido o seales
ruidosas por modelar como ruido partes tonales de la seal. Estos errores son inherentes al uso
de modelos paramtricos e inevitables desde el punto de vista de cuantificacin.
8.1.
Como se ver a continuacin, un codificador paramtrico debe contener, adems de los modelos de seal, una serie de algoritmos de control para el procesado de la seal de audio. Estos
algoritmos son bsicamente un bloque que realice la segmentacin de la seal de entrada y un
detector de transitorios. La estructura del codificador de audio propuesto debe incluir otros algoritmos adicionales para el tratamiento del ruido. As, es normal en un codificador paramtrico
enviar sub-tramas de ruido y usar un detector de micro-transitorios. Por lo tanto, las herramientas
de control a definir son:
Segmentacin. Para aprovechar al mximo los modelos de seal e incrementar la capacidad de
compresin del codificador, es preciso definir un bloque que implemente la segmentacin de
la seal de audio. El objetivo es separar en segmentos las partes estacionarias de la seal
de audio. Por ejemplo, para el caso de la seal de voz, es muy interesante dejar en el mismo
segmento la seal de un determinado fonema, cambiando rpidamente de segmento cuando
ste se cambia. Lo mismo ocurre para otras seales de audio. En una seal musical, es
recomendable tratar en el mismo segmento la misma nota y cambiar de segmento cuando
sta se cambia. En principio, las partes transitorias de seal no es necesario separarlas en
muchos segmentos pequeos, porque el modelo de transitorios extrae los cambios bruscos
de seal evitando el pre-eco. Bsicamente, los segmentadores que aparecen en la bibliografa
trabajan a partir de los cambios espectrales de la seal de entrada. En el apartado 8.2 se
realiza una descripcin del segmentador implementado.
Detector de transitorios. Para incluir o no el modelo de transitorios en la cadena de modelos de
seal, es necesario implementar un detector que decida sobre esta cuestin. Los detectores
de transitorios son herramientas sencillas basadas en comprobar fuertes incrementos de
la energa de la seal de entrada. En el apartado 8.3 se realiza una breve descripcin del
detector utilizado.
Detector de micro-transitorios. Los micro-transitorios son pequeos golpes de algunos instrumentos presentes en la seal, pero que no contienen la mayor parte de la energa de la
misma. La seal de la figura 6.13 es un claro ejemplo de micro-transitorio. Estos microtransitorios no son detectados por las herramientas tpicas de deteccin de transitorios
basadas en energa. La nica forma de que no se modelen como ruido es analizar el residuo
del modelo tonal para comprobar si tiene algn cambio brusco de energa [Levine98]. Si
hay un micro-transitorio, se aplica un modelo de transitorios para modelar esta seal.
Segmentacin de sub-tramas para el ruido. El segmento o trama de audio usada en los codificadores paramtricos es demasiado grande generalmente para usarla en el modelo de
191
e
t r a
t e
n
t o
i t o
r
r i o
t r a
e
i t o
i o
r i o
t a
S
t a
s
M
t r a
o
i t o
l o
r i o
t o
t a
i o
r i o
t o
n
t o
i o
e
t o
l e
t s
l o
t o
t o
l
t r a
t o
n
r
s
d
i t o
m
e
r i o
i c
r o
t r a
i t o
r i o
t e
e
r o
i c
D
m
t r o
M
m
r e
i d
e
e
t a
r u
i d
r o
t r a
l o
n
d
s
w
e
i t o
r i o
l e
t s
d
r u
l o
i d
- t r a
t a
- t r a
f r e
r u
i d
t i e
i c
m
d
r e
l v
i d
t e
r u
i d
192
193
se basan en filtros de 32 coeficientes de la familia ortonormal de Daubechies y una descomposicin WP de profundidad P = 4. El algoritmo se detiene con el mismo umbral de
energa que en el caso del diccionario mixto.
Modelo de ruido. Una vez extradas las sub-tramas de ruido, en cada una de ellas se obtienen
los parmetros que modelan la envolvente de energa en frecuencia y tiempo. La envolvente
de frecuencia se obtiene con un filtro predictor basado en Warped -LPC. El nmero mximo
de polos se limita en funcin del tamao de la sub-trama de ruido. Esto se consigue usando
como mximo 1 polo por cada 32 muestras de residuo. El nmero de polos no se fija a
este valor, sino que si los polos tienen una ganancia de prediccin menor de 0, 01 no son
codificados. La verificacin de los polos que tienen una ganancia de prediccin mayor que
el umbral se realiza empezando por el final. Una vez calculados todos los polos, partiendo
del ltimo, se verifica que estn por encima del umbral, en caso contrario, son eliminados.
As pues, se van eliminando polos hasta encontrar el primero por la cola con una ganancia
mayor que el umbral. Esto se hace as porque los polos no se obtienen en orden decreciente
de ganancia de prediccin y se pueden eliminar polos importantes. En cuanto al modelado
de la envolvente temporal, se utiliza un predictor LPC de las muestras de la FFT del ruido.
Tambin se usa un polo cada 32 muestras y una ganancia de prediccin mnima de 0, 01.
Todos los parmetros generados por el modelo deben ser cuantificados, si es posible siguiendo
principios psicoacsticos. En este sentido, se generan tres tipos de parmetros:
Parmetros que se pueden cuantificar usando directamente criterios perceptuales. Las amplitudes de los tonos, por ejemplo.
Parmetros que se cuantifican directamente sin informacin perceptual. Las fases de los
tonos son un buen ejemplo.
Parmetros que son discretos por la naturaleza del modelo empleado. Las frecuencias de
los tonos son discretas porque hay tantas frecuencias como tomos exponenciales complejos
use el algoritmo matching pursuits.
Por lo tanto, en funcin del parmetro en cuestin, se usar un tipo diferente de cuantificador.
Antes de pasar a este punto, se vern con ms detalle los algoritmos empleados para segmentacin
del eje temporal y deteccin de transitorios.
8.2.
Desde un punto de vita terico, el tamao de segmento ptimo para un codificador de audio
debe ser aquel que consiga minimizar el rgimen binario obteniendo una buena calidad en la seal
de audio codificada [Prandoni97]. Sin embargo, en un segmentador de este tipo slo se puede
conocer a posterior el rgimen binario obtenido, lo que es prohibitivo en trminos de complejidad
computacional.
Como este objetivo tan ambicioso no es posible, en codificacin de audio se utilizan herramientas de procesado de seal que segmentan el audio en funcin de las caractersticas propias
de cada codificador [Painter01]. As, en codificadores de forma de onda, es tpico usar un tamao
194
195
grandes rasgos, la frecuencia donde se concentra la mayor parte de la energa de la seal, considerando el eje de frecuencias con carcter logartmico. El algoritmo diseado se basa en medir
las diferencias de esta frecuencia central entre trozos de seal para, a partir de esta informacin,
decidir el tamao de segmento actual. Un diagrama del segmentador usado se representa en la
figura 8.2, donde se pueden apreciar las siguientes singularidades:
El tamao de segmento mximo es de 3072 muestras, que con una frecuencia de muestreo de
44, 1KHz corresponde a 69, 7ms de seal. Es un tamao suficiente para tener una buena
compresin en seales muy tonales. Normalmente, es extrao que la seal de audio sea
suficientemente estacionaria con un tamao mayor. El nmero de frecuencias del modelo
tonal se ha elegido mayor que este valor, tenindose por lo tanto un diccionario sobrecompleto.
Se calcula un polo cada 512 muestras (11, 6ms en tiempo), siendo el algoritmo capaz de
detectar cambios espectrales a partir de los polos calculados en funcin de este valor.
El clculo de las distancias en frecuencia no se aplica a la diferencia entre frecuencias consecutivas. Si la distancia se calcula de esta forma, y la frecuencia central cambia lentamente,
se puede tener un segmento de gran tamao cuyas partes inicial y final sean demasiado
diferentes. Por esta causa, la distancia se mide con respecto al mximo y al mnimo de las
frecuencias anteriores, es decir, si la frecuencia central actual es mayor que cualquiera de
las anteriores se calcula la diferencia con respecto al mnimo de todas (o viceversa).
Los umbrales mximo y mnimo se sitan en el 10 % de la mxima frecuencia digital (que
es la mitad de la frecuencia de muestreo) y se calculan sobre las diferencias. Estos umbrales
se han obtenido para tener una discriminacin suficiente en frecuencia.
La complejidad del algoritmo se puede reducir si el polo se calcula con menos de las 512
muestras, lo cual no modifica los resultados finales. No es necesario adems volver a calcular
los polos en trozos de 512 muestras en donde ya se han calculado en ejecuciones anteriores
del algoritmo.
Para terminar con el segmentador, se presentan las figuras 8.3 y 8.4, donde se dibujan dos
casos diferentes de segmentacin. En la figura 8.3 se dibuja una seal de trompeta en un cambio
de nota. La lnea marca el lmite del segmento decidido por el algoritmo de segmentacin. Se
observa cmo el lmite del segmento se sita en la zona de separacin entre las notas. Por su
parte, la figura 8.4 dibuja una seal de voz cuando se termina de pronunciar un fonema sonoro.
Se observa cmo el algoritmo parte el segmento de forma conservadora. Es interesante tener en
cuenta que esta buena selectividad en frecuencia es posible gracias al empleo de un polo warped LPC, mientras que con prediccin LPC no se obtiene una discriminacin tan buena en bajas
frecuencias.
En la estructura del codificador de la figura 8.1 hay otro algoritmo de segmentacin, en
este caso para calcular las sub-tramas del residuo. Si bien este algoritmo se podra calcular en
funcin de medidas estadsticas, se ha implementado siguiendo un esquema muy similar al del
algoritmo de segmentacin de audio de entrada. Al igual que para el caso del segmentador de
196
l c
l o
l o
l c
l o
l a
f r e
l c
l o
l a
i s
t a
i a
i a
i =
f i>
i +
i s
i t o
t r a
r i o
t r a
l o
f r e
l o
f r e
i a
i a
, D
t r a
l e
i a
t a
f
i
s
U
m
t a
n
i =
t o
t r a
t o
t o
t o
t o
f i<
s
U
m
o
i =
t a
i n
t o
t a
t o
197
1
0.8
amplitud normalizada
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
500
1000
1500
muestras
2000
2500
3000
Figura 8.3: Seal de trompeta en un cambio de nota. La lnea marca el lmite del segmento que calcula
el algoritmo de segmentacin.
1
0.8
amplitud normalizada
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
500
1000
1500
muestras
2000
2500
3000
Figura 8.4: Seal de voz cuando se termina de pronunciar un fonema sonoro. La lnea marca el lmite
del segmento que calcula el algoritmo de segmentacin.
198
audio, el segmentador de ruido debe actuar cuando haya cambios locales en la energa tiempofrecuencia. Si esto no se hace as, los parmetros que representan la envolvente de ruido en tiempo
y frecuencia no modelarn de forma satisfactoria los cambios que se producen en el residuo.
Hay que tener en cuenta que, en el codificador propuesto, el residuo no va a tener incrementos
bruscos de energa en el tiempo, porque son extrados por el modelo de transitorios y tonal, si
es un segmento transitorio, o por el modelo de transitorios, si es un segmento estacionario con
un micro-transitorio. Gracias a esta propiedad, se puede implementar un segmentador de ruido
similar al de seal, aunque con las siguientes particularidades:
Se utiliza un polo LPC, porque ya no es necesario una mejor selectividad en baja frecuencia,
sino la misma para toda la frecuencia.
El tamao mnimo de segmento de ruido es de 256 muestras (5, 8ms de residuo), por lo
que se calcula un polo cada 256 muestras.
El umbral se sita ahora en el 15 % de la mxima frecuencia digital. Este valor se ha
incrementado porque el residuo tiene ms variacin en frecuencia que el audio de entrada.
A continuacin, se describe brevemente el funcionamiento del detector de transitorios. Este
bloque es el ltimo que queda por describir de las herramientas de anlisis de seal del codificador
propuesto.
8.3.
Detector de transitorios
199
amplitud normalizada
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
500
1000
1500
muestras
2000
2500
3000
8.4.
Cuantificacin de parmetros
Una vez que se obtienen todos los parmetros procedentes de los diferentes modelos de seal
y de las herramientas de control, el siguiente paso es tratar la cuantificacin y codificacin de
estos parmetros. El diseo de un cuantificador se define a partir de dos valores: el nmero de
bits y el factor de sobrecarga (valores mximo y mnimo). El nmero de bits se debe elegir, si
es posible, en funcin de criterios perceptuales. Para un codificador paramtrico de audio, es
necesario disear tantos cuantificadores como tipos de parmetros se generen, por eso se realiza
a continuacin una revisin de los cuantificadores diseados en cada caso.
8.4.1.
Parmetros de control
200
amplitud normalizada
amplitud normalizada
200
400
600
800
muestras
1000
1200
1400
200
400
600
800
muestras
1000
1200
1400
1
0.5
0
0.5
1
Figura 8.6: Micro-transitorio detectado en la seal sm02. Se dibuja la seal de entrada (arriba) y el
residuo del modelo tonal (abajo).
8.4.2.
Para los tonos modelados en el codificador propuesto, los parmetros generados son amplitud,
fase y frecuencia para cada tono. Con el fin de que el decodificador conozca cuntos tonos se
han codificado, es necesario enviar tambin el nmero total de tonos en el segmento actual. Para
cada uno de estos parmetros, se ha elegido la siguiente estrategia de cuantificacin:
Nmero de tonos. El nmero de tonos se ha de cuantificar con un nmero de bits suficiente
para evitar en lo posible que en un segmento no se pueda enviar algn tono audible por
sobrepasarse el valor de diseo escogido. Bajo esta premisa, con 8 bits (hasta 255 tonos
por segmento) se evita la prdida de tonos para todos los segmentos de todas las seales
de tests utilizadas.
Frecuencia. La frecuencia es un parmetro de naturaleza discreta en el codificador paramtrico
propuesto. Como el nmero de funciones exponenciales complejas del modelo tonal es de
L = 4097, ste es el nmero posible de frecuencias. Pese a que se puede enviar este valor
con 12 bits (obviando la frecuencia cero), se ha implementado el codificador de frecuencias
de [Ali95], explicado en el apartado 5.3.1, para ahorrar rgimen binario. Este mtodo de
cuantificacin de frecuencias se basa en la sensibilidad logartmica en frecuencia del odo
humano, dividindose el eje de frecuencias de forma didica en 4 grupos. Se necesitan 2 bits
para distinguir el grupo actual, y en la implementacin realizada se ha incrementado un
poco la sensibilidad del cuantificador respecto a la propuesta de [Ali95]. Se han elegido 512
escalones de cuantificacin (9 bits) para cada grupo. Por tanto, se necesitan 11 bits para
codificar la frecuencia de cada tono. Una ventaja de elegir el mismo nmero de escalones
por grupo es que se evita la dependencia del nmero de bits de cada grupo de los 2 bits
iniciales que indican el grupo actual. Esto permite que si se produce un error de transmisin
en los 2 bits iniciales no se pierda el sincronismo del segmento actual en el decodificador.
201
Fase. Para la fase, se utiliza un cuantificador uniforme de 6 bits, al igual que en [Ali95]. Este
valor est comprendido entre y . Sera conveniente como lnea de futuro establecer
qu tonos son sensibles a la cuantificacin de la fase en base a informacin perceptual.
Amplitud. Las amplitudes se codifican teniendo en cuenta principios perceptuales. Se ha utilizado para cuantificar las amplitudes el mecanismo explicado en el apartado 5.3.3 [Vera04b].
Usando este algoritmo, cada amplitud tiene un nmero de bits variable en funcin de la
mscara calculada en el cuantificador. Los valores mximo y mnimo son tambin diseados bajo criterios psicoacsticos. As, el valor mximo corresponde al del tono de mayor
amplitud y el mnimo al de la mscara de tonos actual. Este mecanismo de cuantificacin
es un ejemplo de codificacin intra-trama, pues explota las relaciones entre los tonos de
un mismo segmento para ahorrar rgimen binario. El problema que introduce es que los
bits para cada amplitud son variables y dependientes de los bits de amplitud recibidos
anteriormente. Esto hace muy sensible a errores esta informacin, porque un error de bit
puede provocar la prdida de sincronismo del segmento actual. Por esta razn, se codifica
un valor adicional referente al nmero de bits total para la amplitud enviados en el segmento actual. Este valor informar del tamao de la informacin de amplitud previniendo
un error de sincronismo global en el segmento. Como el nmero mximo de tonos es de 256
y no es normal obtener ms de 8 bits por amplitud de media, se dedican 11 bits (de 1 a
2048 valores) para informar del nmero de bits para las amplitudes.
8.4.3.
En el caso de los parmetros que modelan la parte transitoria de seal, stos no pueden
ser cuantificados con criterios perceptuales. Al fin y al cabo, stos parmetros se presentan
cuando la seal no tiene un fuerte carcter estacionario, que es donde se define el proceso de
enmascaramiento simultneo. Los distintos parmetros codificados para las funciones waveletpackets son:
Nmero de funciones. El nmero mximo de funciones por segmento se ha establecido en 256
funciones, por lo que se codifica este valor con 8 bits (entre 0 y 255). Con este valor, se
evita la prdida de funciones wavelet-packets para todos los segmentos de todas las seales
de tests utilizadas.
Profundidad. Como la profundidad usada en el codificador propuesto para el rbol de descomposicin wavelet-packets es P = 4, se necesitan 2 bits para su codificacin.
Sub-banda y retardo. Se han codificado de manera conjunta estos dos parmetros con el
objetivo de evitar un prdida de sincronismo si hay un error en la profundidad de la
funcin wavelet-packets recibida. Para ello, hay que tener en cuenta que, dependiendo de
la profundidad de la funcin wavelet-packets actual, el nmero de bits para codificar la subbanda, por un lado, y el retardo, por otro, cambian, pero en su conjunto se compensan.
Tanto la sub-banda como el retardo son valores discretos en el codificador, puesto que
ambos, junto con la profundidad, definen el tomo actual dentro del diccionario waveletpackets. La sub-banda depende de la profundidad, porque cada vez que baja el nivel de
profundidad el nmero de sub-bandas se multiplica por dos. El retardo tambin depende
202
8.4.4.
El segmento de seal puede ser dividido en sub-tramas de ruido en base a las decisiones del
segmentador de ruido usado. Al igual que en el caso de los segmentos de seal, la informacin
entre sub-tramas de ruido es completamente independiente entre las mismas. Para cada subtrama de ruido, se codifica la longitud de la sub-trama, la energa total y los parmetros de
la envolvente de energa en frecuencia y tiempo. Cada grupo de parmetros se codifica de la
siguiente forma:
Tamao de sub-trama. El tamao de cada sub-trama de ruido se cuantifica de la misma
forma que el tamao de segmento de seal. Como el tamao de segmento mximo es de
3072 muestras y el tamao mnimo de sub-trama de 256 se necesitan 4 bits para codificar
este valor.
203
Energa de ruido. El primer parmetro que se codifica es la energa total de ruido. La cuantificacin de este valor se puede realizar bajo criterios psicoacsticos. As, la mxima energa
de ruido posible (la seal est normalizada) corresponde a 96 dB SPL, el valor mnimo
al mnimo del umbral de silencio y el nmero de bits se calcula en funcin de la mscara
de ruido sobre ruido. En este caso, la mscara de ruido sobre ruido elegida es de 26dB
[Hall98]. El nmero de bits se calcula como en el caso de las amplitudes de los tonos, segn
la ecuacin 5.35, dando un valor de 7 bits.
Envolvente de ruido en frecuencia. La envolvente de ruido en frecuencia se modela mediante polos warped -LPC. En el codificador propuesto el nmero de polos es variable en
funcin de la ganancia de prediccin. Por lo tanto, se codifican dos parmetros, el nmero
de polos y la amplitud de cada polo, de la siguiente forma:
Nmero de polos warped -LPC. El nmero de total de polos es funcin del tamao de
sub-trama de ruido actual, ya que se permite un polo cada 32 muestras de ruido. Sin
embargo, se ha establecido un nmero de bits fijo para este valor independiente del
tamao de sub-trama para evitar que el nmero de bits dependa de esta informacin.
Para el caso peor, con una sub-trama de ruido de 3072 muestras (el valor mximo)
puede haber 96 polos, por lo que se necesitan 7 bits para cuantificar el nmero de
polos.
Amplitud de cada polo warped -LPC. Los coeficientes del filtro se obtienen de la librera warpT B. Estos coeficientes de la estructura directa se convierten a coeficientes en
celosa. Al ser la seal de entrada una seal real, los coeficientes (en estructura directa
o en celosa) son reales, si bien los polos pueden ser reales o complejos conjugados.
Los coeficientes de la estructura en celosa tienen valores comprendidos entre 0 y 1.
Un valor mayor o igual que 1 indicara un polo inestable. Si esto ocurre, este polo
no se enva. Cuantificando los valores de los coeficientes en celosa, se evitan inestabilidades en el proceso de cuantificacin y se obtienen los valores mximo y mnimo
del cuantificador de manera directa. Se han empleado 6 bits para la cuantificacin de
cada coeficiente. En la bibliografa existen otros mtodos de cuantificacin para los
polos, que se pueden revisar en [Kleijn95].
Envolvente de ruido en el tiempo. Bsicamente, para la envolvente de ruido en el tiempo
se emplean los mismos mecanismos de cuantificacin, slo se deberan variar para la cuantificacin de los polos:
Nmero de polos LPC. Como se permite un polo cada 32 muestras de ruido y, para
el caso peor, el tamao de sub-trama de ruido es de 3072 muestras, puede haber 96
polos, por lo que se necesitan 7 bits para cuantificar el nmero de polos LPC.
Amplitud de cada polo LPC. El problema de los polos LPC es que al modelarse la
transformada del residuo, que es una seal compleja, los polos son tambin complejos. Para evitar este problema, se modela la transformada del residuo seguido de su
extensin simtrica. De esta forma, la seal modelada es par en el tiempo y su transformada real. Este cambio ha de tenerse en cuenta tambin en el decodificador. Con
204
a
s
g
n
t o
l
T
i t s
t r o
i t s
a
s
- t r a
i t s
i t s
F
s
1
i t s
i d
r g
r e
b
E
i t s
- t r a
n
N
N
i t s
/ t o
i a
o
6
N
e
i t s
a
/ t o
i t s
p
1
l i t u
b
A
d
i t s
l i t u
r i a
N
d
l e
f u
.
P
p
b
r o
l e
f u
i t s
t - p
i d
i t s
/ w
t s
S
d
u
y
r e
- 1
- b
t a
r d
b
i t s
a
A
o
/ w
l i t u
i t s
/ w
t o
R
T
t o
t o
m
o
l v
p
7
o
b
e
l o
R
1
t e
f r e
i t s
P
6
l o
i t s
/ p
i a
E
N
s
o
l o
l v
o
b
e
l o
t e
i t s
6
t i e
l o
i t s
/ p
i d
- t r a
s
o
l o
8.4.5.
8.5. RESULTADOS
205
8.5.
Resultados
Los resultados del codificador propuesto no se deben presentar de forma aislada, es decir,
habr que comparar los resultados de calidad perceptual y rgimen binario con respecto a los
resultados obtenidos por otros codificadores comerciales. En concreto, se van a utilizar dos codificadores para realizar la comparacin:
1. El codificador AAC con las mejoras introducidas en MPEG-4, porque es el codificador
estandarizado de forma de onda que ofrece mayor calidad y de mayor uso en aplicaciones
donde el rgimen binario es muy reducido.
2. El codificador PPC estandarizado por MPEG [MPEG03], porque es el estndar en codificacin paramtrica de audio.
Para comparar los codificadores en igualdad de condiciones, es necesario conocer el rgimen
binario medio que ofrece el codificador propuesto. En este sentido, para las seales de test utilizadas, el rgimen binario resultante es cercano a 16 Kbit/s en media. Con este resultado, se
comparar con AAC a 16 Kbit/s. Sin embargo, para PPC no se ha conseguido el codificador
a 16 Kbit/s, aunque s que se han obtenido las seales a 24 Kbit/s, gracias a la colaboracin
del investigador E. G. P. Shuijers de Philips, quien ha aportado las seales codificadas a este
rgimen binario y un decodificador para obtenerlas. Es preciso tener en cuenta que los regmenes
binarios obtenidos no son fijos por segmento, sino que ambos codificadores incluyen estrategias
para poder variar de forma instantnea el rgimen binario si es recomendable en codificacin,
aunque el rgimen binario objetivo sea el comentado con anterioridad.
206
es01
17,79
9,02
1,06
7,63
18,29
24,39
1829
1125
17,49
2,09
8,76
8,20
Las seales de prueba corresponden a las seales propuestas en el CD de la EBU para aseguramiento de la calidad (SQAM) en codificadores de audio. Para cada seal se ha realizado un
test de MUSHRA, ya que es la medida subjetiva de la calidad de audio cuando se desean evaluar
varios codificadores en la misma prueba. Este test se ha llevado a cabo gracias a la colaboracin
de 10 miembros del departamento al que pertenezco. Adems, para cada seal se presentarn
los resultados objetivos del codificador, en especial, el rgimen binario que obtiene el codificador
propuesto en esta tesis.
8.5.1.
Seal es01
La seal es01 es una seal vocal cantada por la artista Suzanne Vega en idioma ingls. Esta
seal, incluida en el grupo de las seales vocales, es una seal musical al tratarse de una seal
cantada pese a que el nico instrumento que aparezca sea la voz. Los resultados objetivos se
presentan en la tabla 8.1. Se puede observar como el rgimen binario del codificador propuesto es
cercano a los 16 Kbit/s. Ms del 50 % del rgimen binario se dedica a informacin tonal, siendo
por otra parte muy reducido el dedicado a transitorios. En cuanto al ruido, el rgimen binario es
importante, debido a que se usan bastantes polos para parametrizar tanto la envolvente temporal
como la frecuencial. El rgimen binario dedicado a la cabecera de cada segmento (tamao de
segmento) es muy bajo, concretamente de 0,08 Kbit/s. Debido a este bajo rgimen binario, para
la cabecera de cada trama se obviar esta informacin en los resultados de rgimen binario.
En lo relativo a los resultados subjetivos, el test MUSHRA realizado aparece en la figura
8.8. En esta figura se presenta tanto el valor medio de la calidad valorada por los oyentes como
el intervalo del 95 % de confianza de los resultados. El codificador propuesto se ha denominado
codificador TWN (Tones, Wavelet-packets and Noise) . Los comentarios ms reseables a partir
de las opiniones de los oyentes acerca de la calidad de las seales codificadas se presentan a
continuacin:
El resultado perceptual de la seal codificada en AAC es el mejor de todos. En esta seal
no se escucha otro artefacto que un filtrado con respecto a la seal original.
Para el codificador PPC aparecen algunos errores propios del modelo, como una seal ms
207
Puntuacin MUSHRA
8.5. RESULTADOS
100
80
60
40
20
0
Referencia
oculta
es01
AAC 16
Kbits/s
PPC 24 Kbits/s
TWN 16
Kbits/s
Figura 8.8: Test MUSHRA para la seal es01. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC24 Kbit/s y la seal codificada con el codificador propuesto (TWN). Se representa, tanto el valor medio,
como el intervalo del 95 % de confianza para cada versin de la seal evaluada.
ruidosa que la original. Adems, el sonido de los tonos es algo metlico, seguramente debido
a que en la codificacin de los tonos algunos de ellos se cuantifican con pocos bits (hay un
valor fijo de bits por amplitud de cada tono en este codificador).
El codificador TWN propuesto obtiene el peor resultado perceptual. Esta valoracin se
atribuye principalmente a que se escucha un eco o desacompaamiento entre las partes
tonal y ruidosa de la seal codificada. Es cierto que la energa de la parte ruidosa es aqu
mucho mayor que en el caso del codificador PPC, debido a que se extraen muchos menos
tonos. Adems, es apreciable una seal ms ruidosa que en los otros casos.
Tanto en esta como en las dems seales vocales, los resultados de los codificadores paramtricos son peores que para AAC. Esto se debe principalmente a errores del modelo de tonos, transitorios y ruido usado. En una seal vocal y en un fonema sonoro se debera suponer que la parte
ruidosa es (casi) nula, y los codificadores paramtricos modelan la energa tonal no audible como
ruido lo que provoca una seal ruidosa codificada (hay que tener en cuenta que la mscara de
ruido es menor en segmentos tonales que la mscara tonal). Se puede concluir, por tanto, que los
codificadores paramtricos de audio no estn bien diseados para codificar seales vocales. Una
posible solucin es implementar un decisor que indique si la seal es o no vocal para cambiar el
codificador en caso de seales vocales.
8.5.2.
Seal es02
sta es una seal vocal masculina hablada en alemn. Para esta seal vocal, los resultados
de los codificadores paramtricos no son nada buenos. Por su parte, los resultados objetivos se
presentan en la tabla 8.2. Se puede observar cmo el rgimen binario del codificador propuesto
es un poco superior a los 16 Kbit/s. De nuevo, ms del 50 % del rgimen binario se dedica a
informacin tonal, siendo muy reducido el dedicado a transitorios. Para el ruido, aunque ahora
el nmero de polos es menor, el tamao de sub-trama de ruido es tambin menor y el rgimen
binario se mantiene con respecto al de seal anterior. Salvo en este detalle, los resultados objetivos
de ambas seales son muy similares.
El test MUSHRA para esta seal aparece en la figura 8.9. Los resultados subjetivos son
208
18,44
9,19
1,29
7,89
19,04
24,74
1895
915
18,64
2,58
7,24
6,65
Puntuacin MUSHRA
Fichero
100
80
60
40
20
0
Referencia
oculta
es02
AAC 16
Kbits/s
Paso Bajo 3.5
KHz
PPC 24 Kbits/s
TWN 16
Kbits/s
Figura 8.9: Test MUSHRA para la seal es02. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
tambin homogneos en relacin a los obtenidos para otras seales vocales. Los comentarios a
realizar son los siguientes:
La seal codificada con AAC obtiene la mejor puntuacin en calidad perceptual, aprecindose slo un ligero filtrado.
En el caso del codificador PPC, al ser un codificador paramtrico, se nota una seal ms
ruidosa. De nuevo, se aprecian los tonos sintetizados con carcter metlico.
Otra vez el codificador TWN propuesto obtiene el peor resultado perceptual. Vuelven a
aparecer el eco y una seal ruidosa, aunque ahora si cabe con mayor importancia, ya que
las notas perceptuales son menores que en la seal vocal cantada. Una posible explicacin
es que ahora la seal es menos tonal (al ser hablada y no cantada) en los fonemas sonoros.
Se obtiene un residuo con mayor energa y, de aqu, una seal sinttica con ms deficiencias.
209
8.5. RESULTADOS
Tabla 8.3: Rgimen binario y otros resultados al codificar el fichero es03.
8.5.3.
Fichero
es03
19,38
9,72
1,33
8,26
19,34
24,72
1802
868
18,85
2,59
7,10
6,67
Seal es03
La ltima de las seales vocales es una seal femenina hablada en ingls. Primero, se presentan
los resultados objetivos en la tabla 8.3. En este caso, el rgimen binario del codificador propuesto
es el mayor de todas las seales vocales. Han crecido en rgimen binario todas las componentes
de la seal. Este incremento se debe simplemente a que se ha reducido el valor medio, tanto del
tamao de segmento, como del tamao de sub-trama de ruido.
El test MUSHRA para esta seal se representa en la figura 8.10. Ahora, aparecen nuevos
comentarios que realizar en cuanto a los resultados perceptuales de las diferentes seales codificadas:
Pese a obtener la mejor puntuacin, la seal codificada en AAC se aprecia ahora algo ms
filtrada que en el caso de la seal vocal masculina.
Para el codificador PPC, la seal se sigue escuchando metlica en los tonos y ruidosa
respecto al original.
Esta vez el codificador TWN ha vuelto a obtener la peor nota. Aparte del eco y la seal
ruidosa, ahora se escucha algn pitido de alta frecuencia. Estos pitidos se localizan en
segmentos ruidosos, debido al modelado como tonos de alta frecuencia de partes ruidosas
de seal. De hecho, algunas eses del ingls son casi tonos, pero si se modelan como tales
se produce un pitido, que es un artefacto de codificacin. Este artefacto es un error del
modelo, en concreto, de la extraccin tonal.
8.5.4.
Seal si01
Con esta seal empieza la evaluacin de un grupo de tres seales que corresponden a instrumentos en solitario tocando notas aisladas. La seal si01 se produce con un clavicordio, que es
un instrumento de cuerda. La seal est formada por notas aisladas que suben en frecuencia en
la escala musical. En cuanto a los resultados objetivos, se presentan en la tabla 8.4. Ahora, el
rgimen binario del codificador propuesto est ms cercano a los 16 Kbit/s y se reduce, pese a
210
Puntuacin MUSHRA
es03
100
80
60
40
20
0
Referencia
oculta
AAC 16
Kbits/s
Paso Bajo 3.5
KHz
PPC 24 Kbits/s
TWN 16
Kbits/s
Figura 8.10: Test MUSHRA para la seal es03. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
si01
17,37
13,19
0,24
3,85
18,42
22,51
1720
1164
24,14
0,10
2,09
7,11
crecer el rgimen binario de los tonos, porque desciende bastante el rgimen binario dedicado a
la parte ruidosa. Se incrementa el nmero de frecuencias por segmento en los tonos y disminuyen
bastante, tanto el nmero de polos para la envolvente temporal del ruido, como el nmero de
funciones wavelet-packets por segmento para los transitorios.
Los resultados del test MUSHRA llevado a cabo aparecen dibujados en la figura 8.11. Para
esta seal, la primera de las seales musicales evaluadas, la calidad perceptual es muy buena en
todos los codificadores evaluados. Se pueden realizar los siguientes comentarios en relacin a la
calidad perceptual de cada codificador:
En el codificador AAC slo se aprecian diferencias con el original debidas a la disminucin
del ancho de banda de la seal codificada en el comienzo de cada nota.
El codificador PPC obtienen ahora el peor resultado perceptual. La seal se escucha en
general poco natural y el comienzo de cada nota no est bien representado.
El codificador TWN propuesto obtiene un resultado similar en nota a AAC, aunque los
artefactos son bien diferentes. La seal se escucha en este caso algo ruidosa, aunque la
representacin del comienzo de cada nota es la mejor en este caso.
211
Puntuacin MUSHRA
8.5. RESULTADOS
100
80
60
40
20
0
Referencia
oculta
si01
AAC 16
Kbits/s
PPC 24 Kbits/s
TWN 16
Kbits/s
Figura 8.11: Test MUSHRA para la seal si01. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
Tabla 8.5: Rgimen binario y otros resultados al codificar el fichero si02.
Fichero
Rgimen binario (Kbit/s)
Rgimen binario para tonos (Kbit/s)
Rgimen binario para wavelet-packets (Kbit/s)
Rgimen binario para ruido (Kbit/s)
Rgimen binario para AAC-16 (Kbit/s)
Rgimen binario para PPC-24 (Kbit/s)
Tamao medio de segmento (muestras)
Tamao medio de sub-trama de ruido (muestras)
No de medio de tonos por segmento
No de medio de funciones wavelet-packets por segmento
No de medio de polos para la envolvente temporal por sub-trama de ruido
No de medio de polos para la envolvente frecuencial por sub-trama de ruido
8.5.5.
si02
18,61
6,83
4,05
7,67
19,05
24,35
2571
985
18,84
12,12
7,44
7,49
Seal si02
Esta es la seal con mayor nmero de transitorios del grupo evaluado. Se trata de una
seal producida por una castauela, por lo que no se puede hablar de notas sino de golpes de
castauela aislados. En los resultados objetivos se aprecia el incremento en rgimen binario de
la parte transitoria (dedicada a funciones wavelet-packets) con respecto al resto de seales. An
siendo importante la cantidad de energa modelada por la parte transitoria, el rgimen binario
que se dedica a esta parte no es elevado. Estos resultados se presentan en la tabla 8.5, donde se
observa cmo el rgimen binario medio es slo algo superior a los 16 Kbit/s. El rgimen binario
se mantiene en el orden habitual, debido al aumento del tamao medio de segmento, puesto que
en las zonas con transitorios no se parte la seal en segmentos estacionarios, obtenindose el
tamao de segmento mximo. Gracias a esta propiedad, el rgimen binario de los tonos es muy
reducido, an habiendo un nmero medio de tonos por segmento similar al de otras seales no
transitorias.
Los resultados del test MUSHRA se representan en la figura 8.12. En el caso de esta seal
con una importante parte transitoria, la calidad obtenida es muy diversa entre los diferentes
codificadores empleados en el test, estando muy relacionada con la calidad obtenida al codificar
212
Puntuacin MUSHRA
100
80
60
40
20
0
Referencia
oculta
si02
PPC 24 Kbits/s
TWN 16
Kbits/s
AAC 16
Kbits/s
Paso Bajo 3.5
KHz
Figura 8.12: Test MUSHRA para la seal si02. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
8.5.6.
Seal si03
Se evala ahora una seal muy tonal, ya que est compuesta de notas aisladas producidas por
un diapasn. Adems, cada una de las tres notas se mantienen en el tiempo varios segundos. En
los resultados objetivos que aparecen en la tabla 8.6 lo ms destacable es el bajo rgimen binario
con que se codifica esta seal. Es curioso observar cmo el codificador PPC tambin obtiene un
resultado bajo en rgimen binario. La parte tonal domina, por tanto, el rgimen binario y se
puede ver cmo la envolvente temporal del ruido prcticamente no se utiliza. Adems, se observa
que el tamao de segmento es elevado y no se modela ninguna funcin wavelet-packets en toda
la seal, es decir, no se detecta ningn transitorio ni micro-transitorio.
Los resultados del test MUSHRA se representan en la figura 8.13. La seal si03 es muy tonal,
por lo que los artefactos producidos en codificacin son bsicamente debidos a errores en la parte
tonal:
213
8.5. RESULTADOS
Tabla 8.6: Rgimen binario y otros resultados al codificar el fichero si03.
Fichero
Rgimen binario (Kbit/s)
Rgimen binario para tonos (Kbit/s)
Rgimen binario para wavelet-packets (Kbit/s)
Rgimen binario para ruido (Kbit/s)
Rgimen binario para AAC-16 (Kbit/s)
Rgimen binario para PPC-24 (Kbit/s)
Tamao medio de segmento (muestras)
Tamao medio de sub-trama de ruido (muestras)
No de medio de tonos por segmento
No de medio de funciones wavelet-packets por segmento
No de medio de polos para la envolvente temporal por sub-trama de ruido
No de medio de polos para la envolvente frecuencial por sub-trama de ruido
si03
10,70
7,51
0,17
7,51
17,31
15,26
2103
1012
16,00
0,00
0,13
5,39
Para el codificador AAC, la calidad es bastante baja porque aparecen artefactos extraos
al mantenerse cada nota en el tiempo. El artefacto principal consiste en el efecto birding,
que en la bibliografa se describe como un efecto molesto que se debe a la respuesta de los
bancos de filtros empleados. Aunque este efecto se minimiza en el AAC con las mejoras
introducidas por MPEG-4, ocurre en algunas situaciones, como es el caso de esta seal.
El mejor resultado se obtiene con el codificador PPC, ya que en este caso la parte tonal est
muy bien representada. La seal del diapasn tiene una modulacin de amplitud en cada
nota sostenida, que es bien representada por el diagrama de ventanas que usa el codificador
PPC.
Para el codificador TWN propuesto la seal tiene una calidad aceptable, aunque salen a
relucir algunos artefactos. En concreto, el efecto ms audible es la aparicin/desaparicin
dentro de la misma nota y de unos segmentos a otros de algunos tonos. Esto produce la
sensacin de que vara el contenido espectral, cuando la seal en s es muy estable. La
causa a este artefacto se encuentra en que no se realiza un seguimiento entre segmentos
de tonos que estn cercanos al umbral de enmascaramiento. Segn [Levine98], para evitar
este problema, es necesario tener en cuenta para decidir sobre la audibilidad de un tono
si dicho tono es tambin audible en segmentos anteriores. Este proceso de seguimiento lo
denomina el autor filtrado (o promediado) de la importancia perceptual.
8.5.7.
Seal sm01
La primera seal del grupo de tres seales de un slo instrumento tocando una meloda se trata
de la seal producida por una gaita y, por tanto, la seal es bastante tonal. En este instrumento
las notas cambian lentamente mientras el instrumento no deja de sonar, es decir, las frecuencias
cambian con el tiempo en la frontera entre las notas. En cuanto a los resultados objetivos que
se presentan en la tabla 8.7, se pueden destacar varios aspectos. Como en el caso anterior, el
rgimen binario es inferior a 16 Kbit/s, aunque ahora no pasa lo mismo en el codificador PPC.
Este bajo rgimen binario se debe en gran medida a que el tamao medio de segmento y, sobre
214
Puntuacin MUSHRA
100
80
60
40
20
0
Referencia
oculta
si03
PPC 24 Kbits/s
AAC 16
Kbits/s
TWN 16
Kbits/s
Figura 8.13: Test MUSHRA para la seal si03. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
sm01
12,51
9,78
0,16
2,95
18,34
23,48
2257
1877
22,56
0,00
0,75
9,98
todo, el tamao de sub-trama de ruido es elevado. Al ser una seal muy tonal, no hay funciones
wavelet-packets y se codifican muy pocos polos para modelar la envolvente temporal del ruido.
Los resultados subjetivos derivados del test MUSHRA se encuentran grficamente en la figura
8.14. Al igual que en la seal anterior, esta seal producida por la gaita es muy tonal y los mayores
defectos se aprecian en la parte tonal:
Se obtiene una seal codificada aceptable para AAC. La mayor distorsin encontrada es el
efecto birding, aunque no con la intensidad de la seal anterior, por lo que la calificacin
perceptual final es ms alta.
Tambin es buena la calidad perceptual que obtiene el codificador PPC. Las diferencian
respecto al original se manifiestan en una parte tonal con sonido metlico poco realista.
El codificador TWN propuesto obtiene ahora la nota ms baja, al evaluar la calidad subjetiva de la seal de gaita codificada; sin embargo, la calificacin obtenida est cercana a
la de los otros dos codificadores. Los oyentes manifiestan que la seal codificada se escucha
ms ruidosa que el original.
215
Puntuacin MUSHRA
8.5. RESULTADOS
100
80
60
40
20
0
Referencia
oculta
sm01
PPC 24 Kbits/s
AAC 16
Kbits/s
TWN 16
Kbits/s
Figura 8.14: Test MUSHRA para la seal sm01. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
8.5.8.
Fichero
sm02
6,40
3,15
0,29
2,88
17,83
12,16
2017
1184
6,15
0,30
1,13
5,93
Seal sm02
Esta meloda se produce con el instrumento glockenspiel, y es una seal interesante puesto
que pone de manifiesto el modelado de los micro-transitorios. Ahora, la seal de una nota no
se ha extinguido cuando de repente aparecen las frecuencias de la nueva nota, lo que provoca
un repentino aumento de la energa, aunque no con la fuerza suficiente como para hablar de
transitorios en la mayora de los casos. Los resultados de rgimen binario junto a otras estadsticas
se muestran en la tabla 8.8. Se observa en esta tabla cmo el rgimen binario es muy reducido,
algo que pasa tambin en el codificador PPC. La principal causa de este rgimen binario se debe
a que la parte tonal tiene un muy bajo rgimen binario, ya que se modelan pocas frecuencias
por segmento en trmino medio. Pese a esto, el resultado subjetivo es bueno, como se ver a
continuacin. Es destacable tambin que aparecen funciones wavelet-packets modeladas, debido
a la deteccin de los micro-transitorios de seal.
Los resultados subjetivos al realizar el test MUSHRA se dibujan en la figura 8.15. En este
caso, el modelo de micro-transitorios es fundamental para obtener una buena calidad perceptual:
La calidad de la seal codificada con AAC es baja. Los errores debidos al efecto birding
se manifiestan de forma molesta, haciendo que la puntuacin obtenida sea menor que en
216
Puntuacin MUSHRA
100
80
60
40
20
0
Referencia
oculta
sm02
PPC 24 Kbits/s TWN 16
Kbits/s
AAC 16
Kbits/s
Paso Bajo 3.5
KHz
Figura 8.15: Test MUSHRA para la seal sm02. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
otras ocasiones.
La calidad obtenida mediante el codificador PPC es aceptable, aunque se noten filtrados
los micro-transitorios. Este efecto de filtrado se debe a que el codificador PPC no realiza
ms que una segmentacin adaptativa cuando se encuentra un micro-transitorio. Por lo
tanto, los micro-transitorios son modelados con tonos lo que provoca un modelo bastante
pobre en lo que a contenido espectral se refiere.
El mejor modelo de micro-transitorios se obtiene con el codificador TWN propuesto. La
seal codificada mantiene una buena riqueza espectral en los micro-transitorios de seal,
habiendo sido calificada con la nota ms alta por los oyentes.
8.5.9.
Seal sm03
217
8.5. RESULTADOS
Tabla 8.9: Rgimen binario y otros resultados al codificar el fichero sm03.
sm03
16,90
11,90
0,22
4,72
18,14
23,99
2071
899
25,66
0,13
1,07
7,83
Puntuacin MUSHRA
Fichero
100
80
60
40
20
0
Referencia
oculta
sm03
PPC 24 Kbits/s TWN 16
Kbits/s
AAC 16
Kbits/s
Paso Bajo 3.5
KHz
Figura 8.16: Test MUSHRA para la seal sm03. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
La mejor puntuacin de todos los codificadores se obtiene en esta seal con el codificador
TWN propuesto. Los oyentes dan la nota ms alta a esta seal codificada, porque obtiene
una buena representacin de los punteos de guitarra, sin que se aprecie una seal ruidosa
como en otras ocasiones.
8.5.10.
Seal sc01
La primera del grupo de tres seales ms complejas es un solo de trompeta. Esta seal se
caracteriza por ser una seal tonal con un cambio rpido en el tiempo de las notas musicales. En
cuanto a los resultados objetivos, representados en la tabla 8.10, no hay muchas particularidades
que poner de manifiesto. La seal obtiene una rgimen binario algo superior a los 16 Kbit/s.
Aunque domina la parte tonal en trminos de rgimen binario, la parte ruidosa tiene un rgimen
binario elevado con una gran cantidad de polos tanto para la envolvente espectral como temporal.
Este resultado es inquietante, porque indica que la parte ruidosa es importante en energa, aunque
se trate de una seal tonal.
Los resultados subjetivos de los tres codificadores evaluados bajo el test MUSHRA en la
figura 8.17 son relativamente buenos. Se puede destacar para cada codificador:
218
17,87
10,90
0,24
6,62
18,65
23,13
1844
1250
21,16
0,20
8,26
8,50
Puntuacin MUSHRA
Fichero
100
80
60
40
20
0
Referencia
oculta
sc01
PPC 24 Kbits/s
AAC 16
Kbits/s
TWN 16
Kbits/s
Figura 8.17: Test MUSHRA para la seal sc01. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
Con AAC, el comportamiento del proceso de codificacin es muy bueno, quizs debido a que
se trata de una seal con un contenido espectral concentrado en frecuencias relativamente
bajas.
La calidad de la seal codificada con PPC es tambin buena, ya que no se aprecian demasiado los sonidos metlicos de la codificacin de los tonos en este caso.
Ahora el codificador PPC obtiene un resultado algo peor en calidad perceptual. La causa se
deriva de la fuerte energa de la parte ruidosa, que no es capaz de seguir los rpidos cambios
de las notas de la seal original. Este efecto de pre-eco se aprecia en la seal codificada.
8.5.11.
Seal sc02
La seal sc02 es una pieza orquestal con unas caractersticas bastante tonales. Las notas
musicales cambian lentamente con el tiempo. En lo que a rgimen binario se refiere, presentado
en la tabla 8.11, se encuentra muy cercano a los 16 Kbit/s. Como seal tonal, el tamao de
segmento es grande, no hay funciones wavelet-packets y el nmero de polos de la envolvente
temporal del ruido es reducido.
219
8.5. RESULTADOS
Tabla 8.11: Rgimen binario y otros resultados al codificar el fichero sc02.
sc02
16,46
10,60
0,16
5,63
17,99
24,42
2215
931
24,46
0,00
2,97
7,42
Puntuacin MUSHRA
Fichero
100
80
60
40
20
0
Referencia
oculta
sc02
AAC 16
Kbits/s
PPC 24 Kbits/s
TWN 16
Kbits/s
Figura 8.18: Test MUSHRA para la seal sc02. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
Los resultados subjetivos obtenidos aplicando el test MUSHRA se representan en la figura
8.18. Los comentarios acerca de la calidad de cada seal codificada se realizan a continuacin:
La calidad obtenida con el codificador AAC es muy buena, no aprecindose artefactos
importantes.
Con PPC, la calidad disminuye, debido en gran medida a una parte tonal metlica y a que
el ruido es algo diferente del original.
El codificador TWN obtiene el peor resultado, porque se aprecia un ruido poco natural. La
energa modelada con el ruido es mucha y el modelo implementado no obtiene un resultado
natural, aprecindose un eco de ruido en la seal codificada.
8.5.12.
Seal sc03
La ltima seal evaluada es una seal de pop contemporneo. Esta seal est formada por
varios instrumentos, algunos de ellos de percusin, y tiene una energa cambiante con el tiempo.
Los resultados objetivos se muestran en la tabla 8.12. Para esta seal, el codificador propuesto
220
20,76
14,25
0,23
6,20
18,40
24,77
1706
1094
26,07
0,05
5,53
7,81
Puntuacin MUSHR
Fichero
100
80
60
40
20
0
Referencia
oculta
sc03
PPC 24 Kbits/s
AAC 16
Kbits/s
TWN 16
Kbits/s
Figura 8.19: Test MUSHRA para la seal sc03. Se dibujan los resultados objetivos de la referencia, la
seal filtrada paso bajo a 3,5 KHz, la seal codificada con AAC-16 Kbit/s, la seal codificada con PPC-24
Kbit/s y la seal codificada con el codificador propuesto (TWN).
obtiene el mayor rgimen binario con un valor algo superior a 20 Kbit/s. Se puede observar cmo
el rgimen binario dedicado a la parte tonal ocupa casi las tres cuartas partes de la asignacin de
bits. Tambin el ruido requiere un rgimen binario alto en relacin a otras seales codificadas.
Los resultados subjetivos con el test MUSHRA son similares y aceptables para los tres codificadores evaluados, mostrndose en la figura 8.19. Para cada codificador se puede decir que:
Con AAC, la seal se escucha algo filtrada en general.
Con PPC, la seal esta bien representada. Slo se nota algo metlica en los golpes de
percusin.
Con el codificador TWN propuesto, la seal obtiene una buena representacin de los golpes
de percusin, aunque se aprecia ruidosa en general.
8.5.13.
Por ltimo, se van a mostrar los resultados objetivos y subjetivos en media de todas las
seales evaluadas con anterioridad. En lo que a rgimen binario se refiere, los resultados en
221
8.5. RESULTADOS
Tabla 8.13: Rgimen binario y otros resultados en media al codificar todos las seales evaluadas.
Todos los ficheros
Rgimen binario (Kbit/s)
Rgimen binario para tonos (Kbit/s)
Rgimen binario para wavelet-packets (Kbit/s)
Rgimen binario para ruido (Kbit/s)
Rgimen binario para AAC-16 (Kbit/s)
Rgimen binario para PPC-24 (Kbit/s)
Tamao medio de segmento (muestras)
Tamao medio de sub-trama de ruido (muestras)
No de medio de tonos por segmento
No de medio de funciones wavelet-packets por segmento
No de medio de polos para la envolvente temporal por sub-trama de ruido
No de medio de polos para la envolvente frecuencial por sub-trama de ruido
16,10
9,67
0,79
5,57
18,40
22,33
2003
1109
20,00
1,68
4,37
7,42
media se muestran en la tabla 8.13. El rgimen binario medio est muy prximo a los 16 Kbit/s,
siendo la mayor parte debido a los tonos. El ruido viene a ocupar un tercio del rgimen binario
final, mientras que los transitorios tienen un rgimen binario medio reducido, ya que aparecen
en pocas de las seales tenidas en consideracin en esta evaluacin. Se puede destacar adems
que el rgimen binario medio de AAC es algo mayor del objetivo marcado de 16 Kbit/s.
Los resultados subjetivos medios obtenidos con el test MUSHRA para todas las seales
consideradas son similares para los tres codificadores evaluados y se muestran en la figura 8.20.
La calidad es ligeramente superior en media para el codificador PPC (que es el que tiene un
mayor rgimen binario), siendo similar en AAC y el codificador TWN propuesto. El intervalo
de confianza es mayor, debido a la variacin de las calificaciones entre las distintas seales. Esta
variacin es mayor en TWN, puesto que se comporta bien para unas seales y relativamente
mal para otras, es decir, tiene una alta variabilidad en funcin del tipo de seal evaluada. Algo
similar ocurre en AAC, mientras que en PPC la calificacin es ms estable entre seales. Para
cada codificador se pueden realizar los siguientes comentarios:
AAC obtiene una muy buena nota en las seales tonales donde no aparece el efecto birding; mientras que en aquellas seales tonales donde este efecto se pone de manifiesto la
calificacin subjetiva obtenida es mucho ms baja. En las seales con transitorios y microtransitorios las seales se perciben filtradas y la calidad subjetiva es baja. Sin embargo, en
las seales vocales la calidad es elevada.
PPC es un codificador robusto para las seales evaluadas, obteniendo una calidad aceptable
para la mayora de las seales. Para las seales vocales, PPC, an teniendo una calidad
relativamente baja, se comporta de forma robusta. Las seales con transitorios y microtransitorios tampoco obtienen una buena nota, porque no se obtiene un resultado natural
desde un punto de vista perceptual, si bien este codificador ofrece un comportamiento
robusto, ya que posee herramientas especficas para modelar estas seales. En las seales
tonales, el artefacto ms importante es el sonido metlico de la cuantificacin de los tonos,
en funcin del cual la calidad puede ser aceptable o muy buena; adicionalmente, algunas
seales se escuchan un poco ruidosas. Es importante destacar que, segn algunas referencias
222
Puntuacin MUSHRA
100
80
60
40
20
0
Referencia
oculta
TWN 16
Kbits/s
Figura 8.20: Valores del test MUSHRA en media para todas las seales de prueba. Se dibujan los resultados objetivos de la referencia, las seales filtradas paso bajo a 3,5 KHz, las seales codificadas con
AAC-16 Kbit/s, las seales codificadas con PPC-24 Kbit/s y las seales codificadas con el codificador
propuesto (TWN).
bibliogrficas [Brinker02], PPC a 24 Kbit/s obtiene una calidad muy similar en media a
AAC a 24 Kbit/s.
El codificador TWN propuesto tiene una calidad bastante variable en funcin de la seal
evaluada. Para seales vocales, la calidad es reducida por el ruido poco natural que se
escucha como eco, no obtenindose un resultado satisfactorio. Para seales tonales, la calidad es directamente proporcional a la sensacin de seal ruidosa. En ciertas seales tonales
este efecto es importante mientras que en otras casi no se aprecia. Los mejores resultados
subjetivos se obtienen en seales con transitorios y micro-transitorios, ya que con las herramientas empleadas para su modelado se obtienen unos fantsticos resultados subjetivos
manteniendo un rgimen binario reducido.
Para terminar este documento, se pasar a realizar los comentarios acerca de las conclusiones
que se extraen de este trabajo de investigacin y de las importantes lneas futuras que se dibujan
como caminos a seguir a partir de los resultados obtenidos.
Parte III
223
Captulo 9
Conclusiones
Antes de empezar las conclusiones y lneas futuras de investigacin, es preciso tener en cuenta que esta tesis ha estado encaminada al desarrollo de modelos de seal paramtricos con
aplicacin a la codificacin de audio. En este sentido, la aplicacin implementada se ha diseado
con orientacin a la realizacin de streaming de audio. Adems, se ha tenido en cuenta que la
adaptacin del codificador propuesto hacia una versin escalable sea fcil y sencilla. Con estas
consideraciones, en el codificador propuesto la informacin es completamente independiente entre
segmentos de seal. Esta restriccin no est presente en el codificador paramtrico estandarizado
PPC. En cambio, el codificador AAC s que tiene implementadas herramientas que permiten que
AAC sea escalable y se utilice en algunas aplicaciones de streaming de audio.
A partir de los resultados del codificador paramtrico TWN propuesto y de los modelos de
seal de transitorios, tonal y de ruido expuestos a lo largo de este documento, se pueden extraer
una serie de conclusiones que aclaran la utilidad de las tcnicas de codificacin implementadas.
Las conclusiones extradas son bsicamente las siguientes:
Codificador de audio propuesto. El uso de modelos de seal paramtricos en una aplicacin
de codificacin de audio orientada a realizar streaming por internet permite el desarrollo
de un codificador completamente paramtrico. Este codificador divide la seal en tonos,
transitorios y ruido. Con un modelo tonal con guiado y parada perceptuales, un modelo de
transitorios con un diccionario mixto formado por funciones wavelet packets y exponenciales
complejas, y un modelo de ruido que obtiene la envolvente en frecuencia mediante warped LPC y la envolvente temporal mediante LPC, es posible disear un codificador paramtrico
de audio con un rgimen binario medio de 16 Kbit/s y una buena calidad subjetiva de seal.
Modelo de transitorios. En el codificador paramtrico propuesto, el modelo de transitorios
se utiliza para modelizar los transitorios de audio y, tambin, para obtener un modelo de
los micro-transitorios. Para cada caso se aplica en el codificador propuesto de una forma
diferente.
Se puede implementar un modelo paramtrico para los transitorios de seal de audio
basado en el empleo del algoritmo matching pursuits con un diccionario mixto de
funciones wavelet-packets y exponenciales complejas, el cual consigue una calidad excelente en los transitorios codificados con un rgimen binario muy reducido. El uso de
225
226
CAPTULO 9. CONCLUSIONES
este diccionario mixto permite una modelizacin ms exacta de los transitorios de audio con un nmero de funciones menor que en el caso de los diccionarios en serie. Se ha
comprobado, adems, como este diccionario mixto obtiene un modelo ms apropiado
de los transitorios de audio que un diccionario de funciones sinusoidales amortiguadas
exponencialmente, que es la aproximacin ms utilizada en la bibliografa especializada. Para realizar la actualizacin de las correlaciones en el algoritmo matching pursuits
con el diccionario mixto propuesto, es necesario tener almacenado en memoria la DFT
de las funciones wavelet-packets. Se puede reducir la cantidad de memoria requerida,
si se tienen en cuenta las propiedades de desplazamiento en el tiempo de las funciones
wavelet-packets que pertenecen al mismo nodo del rbol de descomposicin. Se ha
llegado a demostrar que se pueden actualizar las correlaciones cruzadas guardando en
memoria slo la FFT de la respuesta de cada nodo del rbol de descomposicin WP.
Para el modelado de los micro-transitorios de audio, un modelo tonal seguido de un
modelo de transitorios (con algoritmo matching pursuits y un diccionario de funciones wavelet-packets) obtiene un rgimen binario muy reducido con una buena representacin de estas seales. Se emplea este modelo para los micro-transitorios de
audio ante la imposibilidad de detectar esta caracterstica de la seal de audio con
un simple detector de transitorios. De hecho, los micro-transitorios slo pueden ser
detectados una vez aplicado el modelo tonal a la seal a analizar. Por tanto, cuando
se detecta un micro-transitorio en el residuo que produce el modelo tonal, se aplica un
modelo de transitorios basado en el algoritmo matching pursuits con un diccionario
de funciones wavelet-packets sobre este residuo.
Modelo sinusoidal. El modelo sinusoidal obtiene una seal tonal sinttica con una calidad
muy natural usando un guiado perceptual en la extraccin tonal, una parada del algoritmo
matching pursuits basada en criterios perceptuales, y un esquema de cuantificacin con un
nmero variable de bits por amplitud de cada tono basado en el clculo de un sencillo umbral de enmascaramiento tanto en codificacin como en decodificacin. Las contribuciones
realizadas en el modelo tonal se detallan a continuacin.
Para realizar el guiado perceptual del algoritmo matching pursuits se ha definido una
nueva medida de la importancia perceptual de cada tono, basada en la integracin
en banda de Bark de la divisin entre la amplitud del tono y el umbral de enmascaramiento. Esta nueva definicin en banda de Bark permite una mejor discriminacin
entre tonos y ruido que la definicin en frecuencia encontrada en la bibliografa especializada. Adems, la integracin en banda de Bark permite una reduccin de la
complejidad computacional asociada a la medida de importancia perceptual.
Se puede realizar una parada perceptual del algoritmo matching pursuits guiado perceptualmente realizando una correcta inicializacin de los umbrales de enmascaramiento. El umbral en la primera iteracin del algoritmo matching pursuits se debe inicializar al umbral de silencio ms el umbral de ruido sobre tonos. La inclusin de este
ltimo es necesaria para evitar la seleccin de tonos que hayan sido enmascarados
por el ruido presente en la seal. En cada iteracin del algoritmo matching pursuits
se debe sumar al umbral de enmascaramiento la contribucin del tono extrado. De
227
esta forma, cuando la importancia perceptual para todos los tonos est por debajo
del umbral de enmascaramiento se detiene el algoritmo matching pursuits. Con este
enfoque, se tienen en cuenta todas las fuentes de enmascaramiento de cada tono y,
como consecuencia, se detiene el algoritmo cuando los tonos que quedan en el residuo
son inaudibles.
Para realizar la cuantificacin de las amplitudes de cada tono en el modelo sinusoidal,
la aproximacin ms comn en la bibliografa especializada es la cuantificacin de
todas las amplitudes con el mismo nmero de bits por amplitud y, de esta forma,
no tener que enviar informacin lateral relativa al nmero de bits por tono. Con
este enfoque, la calidad de la seal sinttica del modelo tonal se aleja mucho de
ser transparente. En esta tesis se ha desarrollado un esquema de cuantificacin que
permite un nmero de bits variable para la amplitud de cada tono. Este esquema se
basa en el clculo, tanto en codificacin como en decodificacin, de un sencillo umbral
de enmascaramiento, a partir del cual, estimar el nmero de bits para la amplitud de
cada tono. De esta forma, se evita el envo de informacin lateral, obtenindose a la
vez una seal sinttica con una mejor calidad. En las pruebas realizadas, el esquema
de cuantificacin propuesto para las amplitudes tonales obtiene mejor calidad y menor
rgimen binario que otras propuestas encontradas en la bibliografa especializada.
Modelo de ruido. El modelo de ruido parametriza la envolvente en tiempo y frecuencia del
residuo dejado por los otros modelos. En el decodificador se genera ruido blanco y se filtra
para obtener la misma envolvente en tiempo y frecuencia. En codificacin paramtrica de
audio, la separacin de la seal entre tonos y ruido en el modelo de ruido es un punto crtico.
Tanto es as que, en el caso de seales vocales, el modelo que desarrollan los codificadores
paramtricos no obtiene una buena representacin de estas seales. Para el modelo de ruido
se ha trabajado sobre las siguientes cuestiones.
En relacin a la separacin entre tonos y ruido, y teniendo en cuenta el modelo tonal
propuesto, la seal de entrada se puede dividir tericamente en tonos audibles, tonos
inaudibles y ruido. En este sentido, las simulaciones realizadas no aconsejan eliminar la
energa de los tonos inaudibles de seal, sino modelizar esta energa mediante el modelo
de ruido. La causa de este resultado se debe a que la separacin entre tonos inaudibles
y ruido no se puede realizar de forma satisfactoria. El modelado de los tonos inaudibles
como ruido, aunque vlido en general para seales musicales, no proporciona un buen
resultado para las seales vocales, ya que en este caso cuando la seal es sonora no
se debe generar una seal ruidosa. Como conclusin, los codificadores paramtricos,
basados en la descomposicin en un mismo segmento de seal estacionaria de tonos y
ruido, se deben utilizar en aplicaciones donde la seal sea una seal musical.
En base a las pruebas realizadas, se puede considerar en general que un modelo de
ruido basado en warped -LPC obtiene mejor calidad que un modelo basado en filtros
ERB. La explicacin de este hecho se encuentra en que el modelo basado en warped LPC obtiene una representacin ms exacta del residuo en baja frecuencia, que es
donde el odo humano tiene una mayor sensibilidad.
228
CAPTULO 9. CONCLUSIONES
Se puede definir un modelo warped -LPC pesado perceptualmente si se modela la
envolvente resultante de dividir en frecuencia la seal y el umbral de enmascaramiento.
Sin embargo, aunque el modelo de ruido obtenido con este enfoque consigue una seal
menos ruidosa, la ventaja introducida no es general para todas las seales, ya que
en algunas ocasiones la seal generada por el modelo de ruido se escucha con eco
y filtrada. Este resultado inapropiado se obtiene en seales donde el residuo tiene
un pitch definido como consecuencia de la importancia de los tonos no audibles. En
cualquier caso, el uso de warped -LPC pesado perceptualmente se puede considerar
una herramienta prometedora en el momento en que se solucionen los problemas de
separacin entre tonos y ruido.
Se puede obtener una buena envolvente en tiempo usando la estrategia de TNS sobre el
residuo. La idea es utilizar un filtro predictor basado en LPC sobre la transformada del
residuo. Al realizar la prediccin sobre las muestras de la FFT del residuo, se consigue
un filtro LPC en frecuencia cuya respuesta temporal tiene la forma de la envolvente
del residuo. Con este esquema se obtiene una envolvente natural, pudiendo determinar
el nmero de polos del filtro predictor a partir de la ganancia de prediccin de cada
polo. Una vez implementado este esquema en el codificador propuesto se consigue un
bajo rgimen binario para modelizar la envolvente del residuo en el tiempo.
Captulo 10
230
231
Como se puede observar estas lneas de investigacin son ciertamente esperanzadoras y se
esperan que sean fructferas con el objetivo de desarrollar una investigacin de calidad que
permita, tanto la publicacin de las aportaciones cientficas que se realicen, como una aplicacin
de los resultados en contratos entre universidad y empresa.
232
Publicaciones asociadas
Revistas incluidas en JCR
1. P. Vera Candeas, N. Ruiz Reyes, D. Martinez Muoz, M. Rosa Zurera y M. Lucena. Sinusoidal Modelling with Complex Exponentials for Speech and Audio Signals. Lecture Notes
in Computer Science (Springer-Verlag). Vol. 2652, pp. 1049-1056, Junio, 2003.
2. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J. Curpin Alonso y F. Lpez Ferreras.
New matching pursuit based sinusoidal modelling method for audio coding. IEE Proceedings
- Vision, Image and Signal Processing. Vol. 151, pp. 21-28, Febrero, 2004.
3. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, D. Martinez Muoz y F. Lpez Ferreras.
Transient Modeling by Matching Pursuits with a Wavelet Dictionary for Parametric Audio
Coding. IEEE Signal Processing Letters. Vol. 11, no. 3, pp 349-352, Marzo, 2004.
4. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras.
Fast implementation of an improved parametric audio coder based on a mixed dictionary.
Signal Processing. Vol. 86, no. 3, pp. 432-443, Marzo, 2005.
5. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras.
Adaptive Signal Models for Wide-Band Speech and Audio Compression. Lecture Notes in
Computer Science (Springer-Verlag). Vol. 3523, pp. 571-576, Marzo, 2005.
6. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras.
Sinusoidal Modelling Using Perceptual Matching Pursuits in the Bark Scale for Parametric
Audio Coding. IEE Proceedings - Vision, Image and Signal Processing. In press, 2006.
Congresos internacionales
1. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, F. Lpez Ferreras y D. Martnez Muoz.
Matching pursuit based audio coding approach. 2nd Cost Workshops on Information and
Knowledge Management for Integrated Media Communication. Conference proceedings,
Florencia, Italia, Marzo, 2002.
2. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, F. Lpez Ferreras y D. Martnez Muoz.
Energy-adapted matching pursuits in multi-parts models for audio coding purposes. 112th
Audio Engineering Society (AES) Convention. Preprint 5570, Munich, Alemania, Mayo,
2002.
233
234
3. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, D. Martnez Muoz y M. Lucena. Sinusoidal Modelling with Complex Exponentials for Speech and Audio Signals. 1st Iberian
Conference on Pattern Recognition and Image Analysis (IbPRIA 2003). Conference Proceedings, Palma de Mallorca, Espaa, Junio, 2003.
4. P. Vera Candeas, N. Ruiz Reyes, D. Martinez Muoz, J. Curpin Alonso, F. Montero
de Espinosa y R. Vicen Bueno. High resolution pursuit for detecting flaws close to the
surface of strongly scattering materials in NDT applications. Ultrasonics International
2003. Granada, Espaa, Julio, 2003.
5. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera y J.M. Fuertes. A new sinusoidal modeling approach for parametric audio coding. 3rd IEEE International Symposium on Image
and Signal Processing and Analysis (ISISPA 2003). Conference Proceedings, Roma, Italia,
Septiembre, 2003.
6. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J. Curpin Alonso y P.J. Reche Lpez.
Signal-adaptive parametric modeling for high quality low bit rate audio coding. 116th AES
convention. Preprint 6176, Berln, Alemania, Mayo, 2004.
7. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y P.J. Reche Lpez.
Parametric audio coding based on adaptive signal models. 12th European Signal Processing
Conference (EUSIPCO-2004). Conference Proceedings, Viena, Austria, Septiembre, 2004.
8. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y J.L. Blanco
Claraco. A Sinusoidal Modeling Approach Based on Perceptual Matching Pursuits for
Parametric Audio Coding. 118th Audio Engineering Society (AES) Convention. Convention
papers, preprints, Barcelona, Espaa, Mayo, 2005.
9. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras. Adaptive Signal Models for Wide-Band Speech and Audio Compression. 2nd Iberian
Conference on Pattern Recognition and Image Analysis (IbPRIA 2005). Conference Proceedings, Estoril, Portugal, Junio, 2005.
10. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y J.M. Garca.
Matching pursuit based on a mixed dictionary composed of Sines + Wavelets for parametric
audio coding. 5th EURASIP Conf. on Speech and Image Processing, Multimedia Communications and Services. Conference Proceedings, Smolenice, Eslovaquia, Julio, 2005.
11. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y J.M. Garca. Using a Sines + Wavelets mixed dictionary for improving matching pursuit-based parametric
audio coding. 13th European Signal processing conference (EUSIPCO-2005). Conference
Proceedings, Antalya, Turqua, Septiembre, 2005.
235
Congresos nacionales
1. P. Vera Candeas, M. Rosa Zurera, J. Curpin Alonso y J. Pieiro. Uso de descomposiciones
atmicas para la mejora del modelado sinusoidal en codificacin de audio. XVI Symposium
Nacional de la U.R.S.I.. Actas del congreso, pp. 51-52, Madrid, Espaa, Septiembre, 2001.
236
Bibliografa
[Adler96]
[Ali95]
M. Ali. Adaptive signal representation with application in audio coding. PhD thesis,
University of Minnesota, 1995.
J.G. Beerends and J.A. Stemerdink. A perceptual audio quality measure based on
a psychoacoustic sound representation. Journal of the AES, 40(12):963978, 1992.
[Berg71]
G. ven den Brink. Detection of tone pulse of various durations in noise of various
bandwidths. J. Acoust. Soc. Am., 36:12061211, 1964.
[Brinker00]
A. C. den Brinker, , and A. W. J. Oomen. Fast arma modelling of power espectral density functions. Proc. of the 10th European Signal Processing Conference
(EUSIPCO), pages 12291232, September 2000. Tampere, Finland.
237
238
BIBLIOGRAFA
[Brinker02]
[Brinker03]
A. C. den Brinker and F Riera-Palou. Pure linear prediction. Proc. of the 115th
AES-Convention, October 2003. Preprint 5924, New York, USA.
[Brinker95]
[Buus86]
[Chen95]
S.S. Chen. Basis Pursuit. PhD thesis, Departament of Statistics. Standford University, 1995.
[Chen95b]
S. Chen and J. Wigger. Fast orthogonal least squares algorithm for efficient subset
model selection. IEEE Trans. Signal Processing, 43(7):17131715, 1995.
[Chen96]
S.S. Chen, D. Donoho, and M. Saunders. Atomic decomposition by basis pursuit. Standford University, Tech. Report, February 1996. Available at playfair.standford.edu.
[Cohen95]
[Coifman92] R.R. Coifman and M.V. Wickerhauser. Entropy-based algorithms for best-basis
selection. IEEE Trans. Information Theory, 38:713718, 1992.
[Cuevas05]
J.C. Cuevas, P. Vera, and N. Ruiz. Scalable parametric audio coder for internet
audio streaming. 118th AES convention, pages Convention papers, preprints, May
2005. Barcelona, Spain.
[Cuevas06]
J.C. Cuevas, P. Vera, and N. Ruiz. A community hierarchic based approach for
scalable parametric audio multicasting over the internet. 120th AES convention,
pages Convention papers, preprints, May 2006. Paris, France.
G. Davis. Adaptive nonlinear approximations. PhD thesis, Departament of Mathematics. New York University, 1994.
[Depalle97]
Ph. Depalle and T. Hlie. Extraction of spectral peak parameters using a shorttime fourier transform modeling and no sidelobe windows. IEEE ASSP Workshop
on Applications of Signal Processing to Audio and Acoustics, pages 1922, 1997.
New York, USA.
BIBLIOGRAFA
239
[Dietz02]
[Dietz03]
[Ding97]
Y. Ding and X. Qian. Sinusoidal and residual decomposition and residual modeling
of musical tones using the quasar signal model. Proc. of the International Computer
Music Conference, pages 3542, September 1997.
[Edler96]
[Edler98]
B. Edler and H. Purnhagen. Concepts for hybrid audio coding schemes based
on parametric techniques. Proc. of the 105th AES-Convention, September 1998.
Preprint 5554, San Francisco, USA.
[Fitz95]
[Flanagan66] J.L. Flanagan and R.M. Golden. Phase vocoder. Bell Laboratories, Tech. Report,
1966. Bell Syst. Tech. J. 45.
[Fletcher40] H. Fletcher. Auditory patterns. Rev. Mod. Phys., pages 4765, Enero 1940.
[Fletcher64] H. Fletcher. Normal vibration frequencies of a stiff piano string. J. Acoust. Soc.
Am., 36:203209, 1964.
[Friedlander95] B. Friedlander and A. Zeira. A oversampled gabor representation for transient
signals. IEEE Trans. Signal Processing, 43:20882094, 1995.
[Gabor46]
D. Gabor. Theory of communication. Journal of the Institution of Electrical Engineers, 93(III-26):429427, 1946.
E.B. George and M.J.T. Smith. A new speech coding model based on a leastsquares sinusoidal representation. Proc. IEEE Int. Conf. Acoust. Speech and Signal
Proccesing (ICASSP), pages 16411644, 1987. Dallas, USA.
[George92]
E.B. George and M.J.T. Smith. Analysis-by-synthesis/overlap-add sinusoidal modeling applied to the analysis and synthesis of musical tones. Journal of the Audio
Engineering Society, 40(6):497515, June 1992.
240
BIBLIOGRAFA
[George97]
E.B. George and M.J.T. Smith. Speech analysis/synthesis and modifications using
an analysis-by-synthesis/overlap-add sinusoidal model. IEEE Trans. on Speech and
Audio Processing, 5(40):389406, September 1997.
[Gill91]
P.E. Gill, W. Murray, and M.H. Wright. Numerical linear algebra and optimization.
Addison Wesley, 1991. Redwood city, California, USA.
[Glasberg90] B. Glasberg and B.C.J. Moore. Derivation of auditory filter shapes from notchednoise data. Hearing Res., 47:103138, 1990.
[Gonzalez01] N. Gonzalez and A. Pena. An adaptive tiling of the time-frequency plane with
application to multiresolution-based perceptual audio coding. Signal Processing,
81:301319, 2001.
[Goodwin96] Goodwin M. Residual modeling in music analysis/synthesis. Proc. IEEE Int. Conf.
Acoust. Speech and Signal Proccesing (ICASSP), pages 10051008, Mayo 1996.
[Goodwin97] M.M. Goodwin. Adaptive signal models: Theory, algorithms, and audio applications. PhD thesis, Departament of Electrical Engineering and Computer Science
at the University of California, 1997.
[Goodwin97b] M.M. Goodwin. Matching pursuit with damped sinusoids. Proc. IEEE Int. Conf.
Acoust. Speech and Signal Proccesing (ICASSP), 3:20372040, Abril 1997.
[Goodwin98] M.M. Goodwin. Adaptive signal models: Theory, algorithms, and audio applications. Kluwer Academic Publishers, 1998.
[Gorodnitsky97] I.F. Gorodnitsky and B.D. Rao. Sparse signal reconstruction from limited data
using focuss: A re-weighted minimum norm algorithm. IEEE Transactions on Signal
Processing, 45(3):600616, March 1997.
[Greenwood90] D. Greenwood. A cochlear frequency-position function for several species: 29
years later. J. Acoust. Soc. Amer., 87:25922605, Junio 1990.
[Gribonval01] R. Gribonval. Fast matching pursuit with a multiscale dictionary o gaussian chirps.
IEEE Trans. on Signal Processing, 49(5):9941001, May 2001.
[Gribonval03] R. Gribonval and E. Bacry. Harmonic decompositions of audio signals with matching pursuit. IEEE Trans. on Signal Processing, 51(1):101111, January 2003.
[Gribonval96] R. Gribonval, E. Bacry, S. Mallat, P. Depalle, and X. Rodet. Analysis of sound
signals with high resolution matching pursuit. Proceedings of the IEEE-SP International Symposium on Time-Frequency and Time-Scale Analysis, pages 125128,
June 1996.
[Griffin88]
D.W. Griffin and J.S. Lim. Multiband excitation vocoder. IEEE Trans. Acoust.,
Speech, Signal Processing, 36(8):12231235, August 1988.
[Hall98]
BIBLIOGRAFA
241
[Hamdy96]
K.N. Hamdy, M. Ali, and A.H. Tewfik. Low bit rate high quality audio coding with
combined harmonic and wavelet representation. Proc. of ICASSP, 2:10451048,
May 1996. Atlanta, Georgia, USA.
[Hamdy99]
K.N. Hamdy and A.H. Tewfik. Audio coding using steady state harmonics and
residuals. International Workshop on Multimedia Signal Processing, September
1999. Copenhagen, Denmark.
[Harma00a] A. Harma, M. Karjalainen, M. Savioja, V. Valimaki, U.K. Laine, and J. Huopaniemi. Frequency warped signal processing for audio applications. J. Acoust. Eng.
Soc., 48(11):10111031, 2000.
[Harma00b] A. Harma. Implementation of frequency-warped recursive filters. Signal Processing,
Elsevier Science, 80:543548, 2000.
[Harma01]
[Harris78]
F.J. Harris. On the use of windows for harmonic analysis with the discrete fourier
transform. Proc. IEEE, 66(1):5183, 1978.
[Hawkins50] J.E. Hawkins and S.S. Stevens. The masking of pure tones anf of speech by white
noise. J. Acoust. Soc. Am., 22:613, 1950.
[Hell72]
R.P. Hellman. Asymmetry of masking between noise and tone. Perception and
Psychophysics, 11(2):241246, 1972.
[Herre98]
J. Herre and D. Schulz. Extending mpeg-4 aac codec by perceptual noise substitution. Proc. of the 104th AES-Convention, 1998. Preprint 4720.
[Hess83]
ITU-R. Method for the subjective assessment of intermediate quality level of coding
systems (mushra), 2001. ITU-R Recommend. BS.1534.
[ITU-R01b] ITU-R. Method for objective measurements of perceived audio quality, 2001. ITU-R
Recommend. BS.1387-1.
242
BIBLIOGRAFA
[ITU-R97]
ITU-R. Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems, 1997. ITU-R Recommend. BS.1116-1.
[Ikram01]
M.Z. Ikram and G.T. Zhou. Estimation of multicomponent polynomial phase signals mixed orders. Signal Processing, 81(11):22932308, 2001.
[Iwakami95] N. Iwakami, T. Moriya, and S. Miki. High quality audio coding at less than 64 kbit/s
using transform-domain interleave vector quantization (twinvq). Proc. IEEE Int.
Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 30953098, 1995.
[Jaggi98]
S. Jaggi, W.C. Karl, S. Mallat, and A.S. Willsky. High resolution pursuit for feature
extraction. Applied and Computational Harmonic Analysis, 5(4):428449, October
1998. Elsevier Science.
[Jensen02]
[Johnston88] J.D. Johnston. Estimation of perceptual entropy using noise masking criteria. Proc.
IEEE Int. Conf. Acoust. Speech and Signal Proccesing, pages 25242527, 1988.
[Johnston88b] J.D. Johnston. Transform coding of audio signals using perceptual noise criteria.
IEEE J. Select. Areas. Commun., 6(2):314323, February 1988.
[Kahrs98]
[Kay89]
S. Kay. A fast and accurate single frequency estimator. IEEE Trans. Acoust.,
Speech, Signal Processing, 37(12):19871999, 1989.
W.B. Kleijn and K.K. Paliwal. Speech Coding and Synthesis. Elsevier, 1995.
[Koenen02]
[Koenen99]
[Lam99]
BIBLIOGRAFA
243
[Lee03]
P. Lee. Wavelet Filter Banks in Perceptual Audio Coding. PhD thesis, University
of Waterloo, 2003.
[Lee87]
H. Lee, D.P. Sullivan, and T.H. Huang. Improvement of discrete band-limited signal
extrapolation by iterative subspace modification. Proc. IEEE Int. Conf. Acoust.
Speech and Signal Proccesing (ICASSP), 3:15691572, Abril 1987. Dallas, Texas,
USA.
[Levine98]
S.N. Levine. Audio representation for data compression and compressed domain
processing. PhD thesis, Departament of Electrical Engineering of Standford University, 1998.
[Levine98b] S.N. Levine, T.S. Verma, and J.O. Smith. Multiresolution sinusoidal modelling for
wideband audio with modifications. Proc. IEEE Int. Conf. on Acoustic, Speech and
Signal Processing (ICASSP), 6:35853588, September 1998. Seattle, USA.
[Levine99]
S.N. Levine and J.O. Smith. A switched parametric & transform audio coder. Proc.
IEEE Int. Conf. on Acoustic, Speech and Signal Processing (ICASSP), 2:985988,
1999. Phoenix, USA.
[Liebchen04] T. Liebchen. Mpeg-4 audio lossless coding. 116th AES Convention, May 2004.
Berlin, Germany.
[MPEG01]
MPEG. Call for proposals for new tools for audio coding, 2001. ISO/IEC Technical
Report JTSC1/SC29/WG11 N3793.
[MPEG03]
MPEG. Avc test results validate superior technology, 2001. ISO/IEC Technical
Report JTSC1/SC29/WG11 N6085.
[MPEG03b] MPEG. Report on the verification tests of mpeg-4 high efficiency aac, 2003.
ISO/IEC Technical Report JTSC1/SC29/WG11 N6009.
[MPEG92]
MPEG. Coding of moving pictures and associated audio for digital storage media at
up to 1.5mbit/s, part 3: audio, 1992. International Standard IS 11172-3, ISO/IEC
JTC1/SC29 WG11.
[MPEG97a] MPEG. Mpeg-2 advanced audio coding, aac, 1997. International Standard IS
13818-7, ISO/IEC JTC1/SC29 WG11.
[MPEG97b] MPEG. Working draft of iso/iec 14496-3 mpeg-4 audio, 1997. Doc. N1631, ISO/IEC
JTC1/SC29 WG11.
[MPEG98]
MPEG. Information technology - very low bit rate audio-visual coding. part 3:
Audio, 1998. International standard 14496-3.
[MPEG99]
MPEG. Iso/iec 14496 mpeg-4: Coding of moving pictures and audio, 1999. Doc.
N2995, ISO/IEC JTC1/SC29 WG11.
Doc. N2803,
244
BIBLIOGRAFA
[MPEG99c] MPEG. Iso/iec 14496-3, amd. 1/fpdam: Mpeg-4 audio version 2, 1999. Doc. N3058,
ISO/IEC JTC1/SC29 WG11.
[Mallat93]
[Malvar90]
[Markel76]
[Masri96]
[Masri98]
P. Masri and N. Canagarajah. Extracting more detail from the scpectrum with
phase distortion analysis. Digital Audio Effects (DAFX) Workshop, pages 119122,
1998. Barcelona, Spain.
[Mcaulay86] R.J. McAulay and T.F. Quatieri. Speech analysis/synthesis based on a sinusoidal
representation. IEEE Trans. Acoust., Speech, Signal Proccesing, 34(4):744754,
1986.
[Moore83]
B. Moore and B. Glasberg. Suggested formulae for calculating auditory-filter bandwidths and excitation patterns. Journal of the Acoustical Society of America,
74:750753, September 1983.
[Moore97]
[Munoz05]
[Munoz06]
[Myburg01] F.P. Myburg. Sinusoidal analysis of audio with polynomial amplitude and phase,
2001. Philips Research Laboratories, Tech. Rep. Nat.Lab. Technical Note 2001/309.
[Myburg04] F.P. Myburg. Design of a scalable parametric audio coder. PhD thesis, Universidad
de Eindhoven, 2004.
[Natarajan95] B.K. Natarajan. Sparse approximate solutions to linear systems. SIAM Journal
on Computing, 24(2):227234, April 1995.
[Nieuwenhuijse98] J.ieuwenhuijse, R. Heusdens, and E.F. Deprettere. Robust exponential modelling of audio signals. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing
(ICASSP), VI:35813584, 1998. Seattle, USA.
BIBLIOGRAFA
245
[Painter00]
[Painter01]
[Par02]
S. van de Par, A. Kohlraush, G. Charestan, and R. Heusdens. A new psychoacoustical masking model for audio coding applications. Proc. IEEE Int. Conf. Acoust.
Speech and Signal Proccesing (ICASSP), II:18051808, 2002. Orlando, USA.
[Pati93]
Y.C. Pati, R. Rezaiifar, and P.S. Krishnaprasad. Orthogonal matching pursuits: Recursive function approximation with applications to wavelet decomposition. Proc.
27th Asilomar Conf. Signals, Systems, Computers, 1993.
[Peeters98]
G. Peeters and X. Rodet. Signal characterisation in terms of sinusoidal and nonsinusoidal components. Proc. Digital Audio Effects, November 1998. Barcelona,
Spain.
[Peleg91]
[Prandoni97] P. Prandoni, M. Goodwin, and M. Vetterli. Optimal time segmentation for signal modeling and compression. Proc. IEEE Int. Conf. Acoust. Speech and Signal
Proccesing (ICASSP), pages 20292032, 1997. Munich, Germany.
[Princen87] J. Princen, A. Johnson, and A. Bradley. Subband/transform coding using filter
bank designs based on time domain aliasing cancelation. Proc. IEEE Int. Conf.
Acoust. Speech and Signal Proccesing (ICASSP), pages 21612164, 1987.
[Purnhagen00] H. Purnhagen and N. Meine. Hiln - the mpeg-4 parametric audio coding tools.
ISCAS, III:201204, May 2000. Geneva, Italy.
[Purnhagen02] H. Purnhagen. Parameter estimation and tracking for time-varying sinusoids.
First IEEE Benelux Workshop on Model based Processing and Coding of Audio
(MPCA), pages 58, November 2002. Leuven, Belgium.
[Purnhagen98] H. Purnhagen, B. Edler, and C. Ferekidis. Object-based analysis/synthesis audio
coder for very low bit rates. Proc. of the 104th AES-Convention, May 1998. preprint
4747, Amsterdam, The Netherlands.
[Purnhagen99] H. Purnhagen and N. Meine. Core experimental proposal on improved parametric
audio coding, March 1999. ISO/IEC Technical Report JTSC1/SC29/WG11 M4492.
[Purnhagen99b] H. Purnhagen. An overview of mpeg-4 audio version 2. Proc. of the 17th AES
International Conference, pages 157168, 1999. Florence, Italy.
[Quackenbush03] S. Quackenbush. Mpeg-4 lossless audio coding. 113th AES Convention, March
2003. Workshop on Recent Developments in MPEG-4 Audio.
246
BIBLIOGRAFA
[Rabiner78] L.R. Rabiner and R.W. Schafer. Digital Processing of Speech Signals. Englewood
Cliffs, Prentice-Hall, 1978.
[Rebollo02] L. Rebollo and David Lowe. Optimized orthogonal matching pursuit approach.
IEEE Signal Processing Letters, 9(4):137140, April 2002.
[Rodrigues00] J.M. Rodrigues and A.M. Tom. On the use of backward adaptation in a perceptual audio coder. IEEE Trans. on Speech and Audio Processing, 8(4):488490, July
2000.
[Rothweiler83] J.H. Rothweiler. Polyphase quadrature filters - a new subband coding technique.
Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 1280
1283, 1983.
[Ruiz01]
[Ruiz02]
N. Ruiz, M. Rosa, F. Lpez, and P. Vera. Algorithm for achieving adaptive tiling
of the time axis for audio coding purposes. IEE Electronics Letters, 38(9):434435,
2002.
[Ruiz03]
[Scharf70]
[Schijndel03] N.H. van Schijndel, M. Gomez, and R. Heusdens. Towards a better balance in
sinusoidal plus stochastic representation. IEEE Workshop on Applications of Signal
Processing to Audio and Acoustics, pages 197200, 2003.
[Schijndel99] N.H. van Schijndel, T. Houtgast, and J.M. Festen. Intensity discrimination of
gaussian windowed tones: Indications for the shapes of the auditory frequency-time
window. J. Acoust. Soc. Am., 105:34253435, 1999.
[Schuijers02] E.G.P. Schuijers, A.W.J. Oomen, and A.C. den Brinker. Advances in parametric coding for high-quality audio. First IEEE Benelux Workshop on Model based
Processing and Coding of Audio (MPCA), pages 7379, November 2002. Leuven,
Belgium.
[Schuijers03] E. Schuijers. Parametric coding of high-quality audio. Proc. of the 114th AESConvention: Workshop on New Technological Developments in MPEG-4 Audio,
March 2003.
[Schuijers04] E.G.P. Schuijers, J. Breebaart, H. Purnhagen, and J. Engdegard. Low complexity
parametric stereo coding. Proc. of the 116th AES-Convention, May 2004. Preprint
6073, Berlin, Germany.
BIBLIOGRAFA
247
[Serra89]
X. Serra. A system for sound analysis/transformation/synthesis based on a deterministic plus stochastic decomposition. PhD thesis, Departament of Music of
Standford University, 1989.
[Serra97]
X. Serra. Musical Signal Processing, chapter Musical sound modelling with sinusoids
plus noise. Swets and Zeitlinger, 1997. Curtis Roads, Stephen Pope, Aldo Piccialli
and Giovanni De Poli.
[Sluijter99]
R.J. Sluijter and A.J.E.M. Janssen. A time warper of speech signals. Proc. IEEE
Workshop on Speech Coding, pages 150152, 1999. Porvoo, Finland.
[Smith95]
J.O. Smith. The bark bilinear transform. Proc. of the Workshop on Applications
of Single Processing to Audio and Acoustics, pages 202205, October 1995.
[Smith99]
J.O. Smith III and J.S. Abel. Bark and erb bilinear transforms. IEEE Transactions
on Speech and Audio Processing, 7:697708, November 1999.
[Sondhi68]
M.M. Sondhi. New methods of pitch extraction. IEEE Trans. Audio Electroacoust.,
AU-16:262266, June 1968.
[Soulodre99] G.A. Soulodre and M.C. Lavoie. Subjective evaluation of large and small impairments in audio quality. AES 17th International Conference on High Quality Audio
Coding, pages 329336, September 1999. Florence, Italy.
[Stoll00]
G. Stoll and F. Kozamernik. Ebu listening tests on internet audio codecs. EBU
Technical Review, June 2000.
[Strube80]
H.W. Strube. Linear prediction on a warped frequency scale. J. Acoust. Soc. Am.,
68:10711076, 1980.
[Tretter85]
S.A. Tretter. Estimating the frequency of a noisy sinusoid by linear regresion. IEEE
Trans. Information Theory, 36(6):832835, 1985.
[Vera01]
[Vera02a]
248
BIBLIOGRAFA
[Vera02b]
P. Vera, N. Ruiz, M. Rosa, F. Lopez, and D. Martinez. Matching pursuit based audio coding approach. 2nd Cost Workshops on Information and Knowledge Management for Integrated Media Communication, March 2002. Conference proceedings,
Florence, Italy.
[Vera03a]
P. Vera-Candeas, N. Ruiz-Reyes, , D. Martinez-Muoz, J. Curpin-Alonso, F. Montero de Espinosa, and R. Vicen-Bueno. High resolution pursuit for detecting flaws
close to the surface of strongly scattering materials in ndt applications. Ultrasonics
International 2003, July 2003. Conference proceedings, Granada, Spain.
[Vera03b]
[Vera03c]
P. Vera, N. Ruiz, M. Rosa, and J.M. Fuertes. A new sinusoidal modeling approach
for parametric audio coding. 3rd IEEE International Symposium on Image and
Signal Processing and Analysis (ISISPA 2003), September 2003. Conference Proceedings, Roma, Italy.
[Vera03d]
[Vera04a]
[Vera04b]
P. Vera, N. Ruiz, M. Rosa, J. Curpin, and F. Lopez. New matching pursuit based
sinusoidal modelling method for audio coding. IEE Proceedings - Vision, Image
and Signal Processing, 151:2128, Febrero 2004.
[Vera04c]
[Vera04d]
P. Vera, N. Ruiz, D. Martinez, J. Curpin, and P.J. Reche. Post-processing modifications in a parametric audio coder. WSEAS Transactions on Communications,
3:675678, July 2004.
[Vera04e]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and P.J. Reche. Parametric audio coding based on adaptive signal models. 12th European Signal processing conference
(EUSIPCO-2004), September 2004. Conference Proceedings, Vienna, Austria.
[Vera05a]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lopez. Adaptive signal models
for wide-band speech and audio compression. Lecture Notes in Computer Science
(Springer-Verlag), 3523:571576, March 2005.
BIBLIOGRAFA
249
[Vera05b]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and J.M. Garcia. Using a sines + wavelets
mixed dictionary for improving matching pursuit-based parametric audio coding.
13th European Signal processing conference (EUSIPCO-2005), September 2005.
Conference Proceedings, Antalya, Turkey.
[Vera05c]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and J.M. Garcia. Matching pursuit based
on a mixed dictionary composed of sines + wavelets for parametric audio coding.
5th EURASIP Conf. on Speech and Image Processing, Multimedia Communications
and Services, July 2005. Conference Proceedings, Smolenice, Slovakia.
[Vera05d]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lpez. Adaptive signal models
for wide-band speech and audio compression. 2nd Iberian Conference on Pattern
Recognition and Image Analysis (IbPRIA 2005), June 2005. Conference Proceedings, Estoril, Portugal.
[Vera05e]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and J.L. Blanco. A sinusoidal modeling approach based on perceptual matching pursuits for parametric audio coding.
118th Audio Engineering Society (AES) Convention, May 2005. Convention papers,
preprints, Barcelona, Spain.
[Vera06a]
[Vera06b]
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lopez. Sinusoidal modelling using
perceptual matching pursuits in the bark scale for parametric audio coding. IEE
Proceedings - Vision, Image and Signal Processing, In press, 2006.
[Verma00]
T.S. Verma and T.H.Y. Meng. A 6 kbps to 85 kbps scalable audio coder. Proc. Int.
Conf. Acoust. Speech Signal Processing (ICASSP), pages 877880, 2000. Istanbul,
Turkey.
[Verma98]
T.S. Verma and T.H.Y. Meng. An analysis/synthesis tool for transient signals that
allows a flexible sines+transients+noise model for audio. Proc. Int. Conf. Acoust.
Speech Signal Processing (ICASSP), pages 1215, May 1998. Seattle, WA, USA.
[Verma99]
T.S. Verma. A perceptually based audio signal model with application to scalable
audio compression. PhD thesis, Departament of Electrical Engineering of Standford
University, 1999.
[Verma99b] T.S. Verma and T.H.Y. Meng. Sinusoidal modeling using frame-based perceptually
weighted matching pursuits. Proc. Int. Conf. Acoust. Speech Signal Processing
(ICASSP), pages 981984, 1999.
[Vos99]
K. Vos, R. Vafin, R. Heusdens, and W.B. Kleijn. High-quality consistent analysissynthesis in sinusoidal coding. AES 17th International Conference on High Quality
Audio Coding, pages 244250, September 1999. Florence, Italy.
250
BIBLIOGRAFA
[Waters98]
G.T. (Editor) Waters. Sound quality assessment material recordings for subjective
tests. users handbook for the ebu - sqam compact disc, April 1998. Technical centre
of the European Broadcasting Union, Tech. Rep. 3253-E.
[Xiong97]
[Yost85]
[Ziegler02]
T. Ziegler, A. Ehret, and M. Ekstrand, P. Lutzky. Enhancing mp3 with sbr: Features
and capabilities of the new mp3pro algorithm. Proc. of the 112th AES Convention,
April 2002. Preprint Number 5560.
ndice alfabtico
AAC, 30
AC-2, 28
AC-3, 28
algoritmo
interior point, 82
simplex, 82
ARMA, 67
artefactos, 19
atomos de Gabor, 100
audio digital, 9
bancos de filtros
hbridos, 23
polifsicos, 23
QMF, 23
wavelet, 23
banda crtica, 16
banda de Bark, 16
bit packing, 27
BOB, 78
BP, 80
break-in, 10
calidad de servicio, 10
CELP, 32
codificacin
perceptual, 9
complejidad, 10
DAB, 9
DCT, 65
descomposicin atmica, 77
diccionario mixto, 105
diccionario sobrecompleto, 78
downmix, 30
DSP, 10
DST, 94
editabilidad, 10
EDS, 65
eficiencia de compresin, 10
enmascaramiento
simultneo, 17
temporal, 19
entropa
perceptual, 11
ERB, 68
escalabilidad, 32
exponenciales complejas, 102
FOCUSS, 84
funcin de dispersin, 17
funcin de Meixner, 64
funcin tasa-distorsin, 11
HILN, 47, 71
HRP, 90
HVXC, 32
impredicibilidad, 26
indice de tonalidad, 25, 26
inharmonicity, 59
intensidad sonora, 15, 16
irrelevancia, 11
JND, 20
LPC, 67
maskee, 17
masker, 17
MDCT, 23
membrana basilar, 16
modelo perceptual, 25
MOF, 79
MOS, 38
251
252
MP, 86
MPEG, 27
multi-resolucin, 55
MUSHRA, 43
OMP, 90
PAMP, 120
peso perceptual, 119
pitch, 35, 48
plano de fase, 80
PMP, 122
PNS, 33
post-masking, 19
PPC, 47, 72
pre-eco, 19
pre-masking, 19
predictibilidad, 51
redundancia, 11
SAOL, 33
SBR, 36
segmentacin adaptativa, 55
similaridad, 91
sinusoides amortiguadas, 101
STFT, 60
STN, 50
timbre, 15
TNS, 187
tonalidad, 19
tono, 15
transformada, 77
trayectoria tonal, 52
TWIN-VQ, 27
TWN, 206
umbral
de enmascaramiento, 17
de silencio, 14
unwrapping, 61
WLPC, 67, 175
WMP, 119
WPT, 104
NDICE ALFABTICO