Tesis Doctoral PDF

TESIS DOCTORAL
DESARROLLO DE TCNICAS DE CODIFICACIN DE AUDIO BASADAS EN MODELOS DE SEAL PARAMTRICOS
Pedro Vera Candeas

email: pvera@ujaen.es
Departamento de Teora de la Seal y Comunicaciones Escuela Politcnica UNIVERSIDAD DE ALCAL Ao 2006
Esta tesis doctoral no hubiera sido posible sin el apoyo de mi familia y amigos. Gracias a todos y, en especial, a mis padres y a Ana Luca.
ii
Prlogo
Esta tesis doctoral supone la continuacin de una lnea de investigacin iniciada a principios de los 90 por el co-Director de esta tesis doctoral, el Dr. D. Manuel Rosa Zurera, dentro del mbito de la compresin de la seal de audio utilizando, en su caso, descomposiciones basadas en la transformada wavelet. Posteriormente, esta lnea de investigacin fue continuada por el otro co-Director de esta tesis, el Dr. D. Nicols Ruiz Reyes, ampliando la descomposicin al uso de transformada wavelet packets adaptada a la seal. Adicionalmente, en el mismo grupo, se ha desarrollado tambin una tesis en compresin de audio, aunque esta vez minimizando el retardo del sistema, por el Dr. D. Damin Martnez Muoz, tambin co-dirigida por el Dr. D. Manuel Rosa Zurera. Como resultado de esta labor investigadora se ha adquirido por este grupo un profundo conocimiento de la seal de audio y de las posibilidades tecnolgicas en el campo de su compresin. Fruto de este conocimiento surgieron nuevas lneas investigacin, destacando la investigacin en el campo de los modelos de seal adaptativos y su aplicacin a la compresin, modicacin y sntesis de seales de audio, que han permitido el desarrollo de esta tesis. Esta lnea de trabajo, en el mbito de la codicacin de seal, no est an agotada. As, si bien con las herramientas propuestas no parece posible nuevas contribuciones importantes en compresin de audio, si es posible el empleo de estas tcnicas en otros problemas. En el campo del audio, un problema a resolver es la transmisin de audio a travs de Internet (Internet audio streaming ) a rgimen binario bajo y adaptativo a las condiciones cambiantes de la red. Otro tema de inters es el empleo de las herramientas de seal desarrolladas para analizar otro tipo de seales, como la seal de electrocardiograma o la seal ultrasnica, donde ya se han realizado algunos avances. La realizacin de esta tesis doctoral me ha permitido iniciarme en el mundo de la investigacin, pudiendo as realizar de forma completa las funciones de un Profesor de Universidad. Adems, me satisface personalmente participar como investigador en los inicios del grupo de investigacin Tratamiento de Seales en Sistemas de Telecomunicacin, formado por personas que han realizado el doctorado en los ltimos aos o estn en proceso de realizacin, todas ellas pertenecientes al Departamento de Ingeniera Electrnica, de Telecomunicacin y Automtica de la Universidad de Jan. En este grupo tenemos puestas muchas esperanzas en el desarrollo de una investigacin de calidad dentro de la Universidad de Jan y en el mbito de las tecnologas de la informacin y las comunicaciones. Quiero hacer constar mi agradecimiento al Dr. D. Francisco Lpez Ferreras, Director del Grupo de Seales y Circuitos del Departamento de Teora de la Seal y Comunicaciones de la Universidad de Alcal, por haber hecho posible la realizacin de esta tesis cuando en la iii
iv Universidad de Jan no existan las condiciones necesarias. Adems, este agradecimiento se hace extensivo al resto de componentes de dicho grupo por la ayuda prestada y las facilidades obtenidas siempre que se les ha requerido. Merece una mencin especial el co-Director de esta tesis doctoral, Dr. D. Nicols Ruiz Reyes, por su entusiasmo y dedicacin. El contraste con sus ideas ha sido fundamental para la culminacin del trabajo de investigacin reejado en esta tesis doctoral. Han sido muchas las horas de trabajo que han sido necesarias para que los frutos de esta tesis salgan a la luz. Finalmente, el agradecimiento al Departamento de Ingeniera Electrnica, de Telecomunicacin y Automtica de la Universidad de Jan, al que pertenezco, por la facilidades prestadas para la realizacin de esta labor, y especialmente, a mis compaeros de departamento en la Escuela Politcnica Superior de Linares, por su participacin en la ardua tarea de la realizacin de las pruebas de audicin. No quiero olvidarme de mis compaeros de rea de conocimiento, Pepe, Ral, Damin, Juan Pedro, Fernando, Pedro y Jos Miguel, por la ayuda y conanza que siempre me han ofrecido.
Resumen
Conforme los sucesivos estndares de codicacin de audio ISO/MPEG, basados en codicacin de forma de onda y por transformada, han ido avanzando, se ha llegado al lmite de esta tecnologa en relacin a la reduccin del rgimen binario. Por esta causa, han ido surgiendo nuevos avances en relacin a la modelizacin de la seal que permiten, con unos pocos parmetros, codicar componentes de la seal de audio. En este sentido es de uso comn, actualmente, utilizar MP3-pro que se basa en la replicacin de bandas espectrales de alta frecuencia en funcin de ciertos parmetros y en la codicacin de forma de onda de las bajas frecuencias. El uso de modelos de seal paramtricos ha sido utilizado desde los aos 90 como una herramienta de procesamiento de seales musicales. Esta tecnologa se ha ido trasladando al campo del audio, al principio en codicadores mixtos basados en transformada que, en algunas circunstancias, se aprovechan de diferentes modelos para parametrizar las partes tonales o ruidosas de la seal. Posteriormente, han ido surgiendo nuevas propuestas que utilizan al mximo estos modelos, dividiendo la seal de audio en tonos, transitorios y ruido, para parametrizar por completo la seal. Esta tesis se centra en la consecucin de un codicador completamente paramtrico de audio que, en ningn momento, codique la forma de onda de la seal. Para lograr este n se han realizado avances en el estado del arte en relacin al modelo sinusoidal, de transitorios y de ruido. Respecto al modelo sinusoidal se incluye en esta tesis un algoritmo iterativo basado en matching pursuits que extrae el tono perceptualmente ms importante en cada iteracin. Adems, el proceso se detiene cuando se han extrado todos los tonos perceptualmente importantes de la seal. Incluso se cuantican las amplitudes de los tonos de forma transparente, con un nmero de bits variable usando principios psicoasticos y sin enviar informacin lateral. Para el modelo de transitorios se ha hecho un esfuerzo signicativo con el n de desarrollar un modelo paramtrico de baja complejidad que permita una adecuada caracterizacin de esta componente de la seal. En este sentido, se ha denido un modelo iterativo basado en matching pursuits con un diccionario de funciones wavelet packets. Tambin se ha introducido un modelo de mayor complejidad, y con mejores resultados, que incluye en el diccionario tanto funciones wavelet packets como exponenciales complejas. El residuo de los anteriores modelos se caracteriza tpicamente como ruido, parametrizando su energa en tiempo y frecuencia. Para este modelo se ha hecho una revisin de las herramientas disponibles, habiendo utilizado un predictor lineal en frecuencia modicada logartmicamente (adaptndose a las caractersticas del odo humano) para expresar la energa en frecuencia. Con todas estas herramientas se ha estructurado un codicador de audio completamente v
vi paramtrico. Se incluye en el funcionamiento del codicador un algoritmo de segmentacin adaptativa del eje temporal muy exible, as como los procesos de cuanticacin de parmetros necesarios teniendo en cuenta siempre criterios perceptuales. Los estudios tericos y los desarrollos efectuados han dado lugar a un codicador de alta calidad de seales CD-audio que emplea una media 16 Kbits/s (0,36 bits/muestra por canal), resultando una opcin ventajosa a bajo rgimen binario con respecto al estndar AAC actualmente establecido en el mercado.
Abstract
The bit rate reduction boundary of transform based coders, which quantize the waveform of the signal, has been almost reached by the last ISO/MPEG standards. As a consequence, a novel research domain has appeared in order to reduce the audio bit rate: parametric audio modelling. For example, the MP3-pro standard extracts the high frequency bands from both the waveform coded low frequency bands and some parameters, this process is known as spectral band replication. Parametric models for musical signals have been utilized since the nineties. Nowadays, these tools are being applied to audio coding. Firstly, these models were included into mixed coders, which were basically waveform coders, but they sometimes made use of sinusoidal or noise models to lower the bit rate. Later, fully parametric audio coders, which decompose the audio signal into sinusoids, transients and noise, have been proposed. The implementation of a fully parametric audio coder is the main objective of this thesis. Therefore, new advances, in regard to sinusoidal, transient and noise modelling, have been accomplished for achieving high quality and low bit rate audio coding. In relation to sinusoidal modelling we propose a perceptual matching pursuits algorithm which extracts the most perceptually meaningful tone at each iteration. Also, a perceptual stopping criterion is presented: the algorithm is halted when all the psychoacoustic meaningful tones are extracted. Besides, tone amplitudes are quantized in a variable number of bits achieving transparent quantization without sending additional side information. Transient modelling has been advanced because we have made an eort to develop a low complexity parametric model that is adapted to dierent transient signals. As a result, we propose a matching pursuits algorithm with a wavelet packets dictionary and a fast procedure to update correlations. Also, a more complex model but with better results is treated, this model is based on matching pursuits algorithm with mixed (wavelet packets & complex exponentials) dictionary. The remaining of the previous models is analized as a noise signal, extracting its time and frequency energy characteristics. We have revised the techniques used in the literature and, nally, we have included a warped linear predictor in order to modelize the noise energy in frequency. We dene a fully parametric audio coder by using all these mentioned tools and by adding an adaptive segmentation algorithm (which has to be very exible) and psychoacoustical information to quantize all the derived parameters. These theoretical studies and accomplished developments have led to a high quality audio coder for CD-audio signals that uses an average of 16 Kbits/s (0.36 bits/sample per channel). This coder can be a protable alternative to the AAC standard currently established in the market.
vii
viii
ndice general
I Planteamiento de la Investigacin y Revisin de Conocimientos 1
3 3 4 5 6 9 9 10 11 12 12 14 15 16 17 20 21 21 21 25 26 27 28 29 29 32 38 38 43 45
1. Introduccin 1.1. Contexto y localizacin de la investigacin . 1.2. Justicacin y objetivos de la investigacin 1.3. Estructura de la tesis . . . . . . . . . . . . . 1.4. Principales contribuciones . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
2. Introduccin a la codicacin perceptual de audio 2.1. Necesidad de la codicacin de audio . . . . . . . . . . . 2.2. Requisitos de los sistemas de codicacin de audio . . . 2.3. Codicacin perceptual . . . . . . . . . . . . . . . . . . 2.4. Fundamentos de psicoacstica . . . . . . . . . . . . . . . 2.4.1. El sistema auditivo humano . . . . . . . . . . . . 2.4.2. Umbral absoluto de audicin . . . . . . . . . . . 2.4.3. Intensidad sonora, tono y timbre . . . . . . . . . 2.4.4. Bandas crticas . . . . . . . . . . . . . . . . . . . 2.4.5. Enmascaramiento . . . . . . . . . . . . . . . . . . 2.4.6. Just Noticeable Dierence . . . . . . . . . . . . . 2.5. Elementos bsicos de un codicador perceptual de audio 2.5.1. Introduccin . . . . . . . . . . . . . . . . . . . . 2.5.2. Anlisis tiempo/frecuencia . . . . . . . . . . . . . 2.5.3. Modelos perceptuales . . . . . . . . . . . . . . . . 2.5.4. Cuanticacin y codicacin . . . . . . . . . . . 2.6. Estndares en codicacin de audio . . . . . . . . . . . . 2.6.1. MPEG-1 Audio - capas 1 y 2 . . . . . . . . . . . 2.6.2. MPEG-1 Audio - capa 3 . . . . . . . . . . . . . . 2.6.3. MPEG-2 Audio . . . . . . . . . . . . . . . . . . . 2.6.4. MPEG-4 Audio . . . . . . . . . . . . . . . . . . . 2.7. Calidad perceptual . . . . . . . . . . . . . . . . . . . . . 2.7.1. La escala MOS . . . . . . . . . . . . . . . . . . . 2.7.2. El mtodo MUSHRA . . . . . . . . . . . . . . . . 2.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . ix
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
NDICE GENERAL 47 51 52 58 60 63 63 63 66 67 67 68 68 70 73 77 77 78 79 85 94 99 100 101 102 103 105
3. Codicacin paramtrica de audio 3.1. Modelado sinusoidal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Psicoacstica aplicada al modelo tonal . . . . . . . . . . . . . . 3.1.2. Tonos con relacin armnica y tonos aislados . . . . . . . . . . 3.1.3. Mtodos para mejorar la extraccin tonal . . . . . . . . . . . . 3.2. Modelado de transitorios . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. La necesidad de un modelado de transitorios . . . . . . . . . . 3.2.2. Tipos de modelado de transitorios existentes . . . . . . . . . . . 3.3. Modelado de ruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Esquemas de modelado de ruido basados en prediccin lineal . 3.3.2. Esquemas de modelado de ruido basados en ltros perceptuales 3.4. Codicadores paramtricos . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. Codicadores hbridos . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Codicadores completamente paramtricos . . . . . . . . . . . . 3.4.3. Codicadores paramtricos escalables . . . . . . . . . . . . . . . 4. Descomposiciones atmicas 4.1. Introduccin . . . . . . . . . . . . . . . . . . . 4.2. Mtodos de clculo . . . . . . . . . . . . . . . 4.2.1. Mtodos paralelos . . . . . . . . . . . 4.2.2. Mtodos iterativos . . . . . . . . . . . 4.2.3. Resultados . . . . . . . . . . . . . . . 4.3. Tipos de diccionarios tiempo-frecuencia . . . 4.3.1. tomos de Gabor . . . . . . . . . . . . 4.3.2. Sinusoides amortiguadas . . . . . . . . 4.3.3. Exponenciales complejas . . . . . . . . 4.3.4. Diccionarios basados en transformadas 4.3.5. Diccionarios mixtos . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
II
Desarrollo y Metodologa de la Investigacin

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
109
111 112 113 114 118 119 120 122 134 135 136 136
5. Modelado sinusoidal 5.1. Implementacin mediante matching pursuits . . . . . . . . . 5.1.1. Implementacin eciente . . . . . . . . . . . . . . . . 5.1.2. Extensin para el anlisis de seales no estacionarias 5.2. Matching pursuits con guiado perceptual . . . . . . . . . . . 5.2.1. Weighted Matching Pursuits . . . . . . . . . . . . . . 5.2.2. Psychoacoustic-Adaptive Matching Pursuits . . . . . 5.2.3. Perceptual Matching Pursuits . . . . . . . . . . . . . 5.3. Estrategias de cuanticacin . . . . . . . . . . . . . . . . . . 5.3.1. Cuanticacin de la frecuencia . . . . . . . . . . . . 5.3.2. Cuanticacin de la fase . . . . . . . . . . . . . . . . 5.3.3. Cuanticacin de la amplitud . . . . . . . . . . . . .
NDICE GENERAL 6. Modelado de transitorios 6.1. Diccionarios paramtricos con matching pursuits . . . . . . . . . . . . . . . . . . 6.1.1. tomos de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2. Sinusoides amortiguadas exponencialmente . . . . . . . . . . . . . . . . . 6.1.3. tomos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Diccionario de funciones wavelet packets . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Demostracin de las correlaciones cruzadas . . . . . . . . . . . . . . . . . 6.2.2. Resultados comparativos entre los diccionarios WP y EDS . . . . . . . . . 6.3. Diccionario mixto: exponenciales complejas + wavelets packets . . . . . . . . . . 6.3.1. Planteamiento para una implementacin rpida . . . . . . . . . . . . . . . 6.3.2. Clculo de la correlacin cruzada entre una exponencial compleja elegida como tomo ptimo y funciones wavelet-packets. . . . . . . . . . . . . . . 6.3.3. Clculo de la correlacin cruzada entre una funcin wavelet-packets elegida como tomo ptimo y exponenciales complejas. . . . . . . . . . . . . . . . 6.3.4. Resumen de la complejidad asociada . . . . . . . . . . . . . . . . . . . . . 6.3.5. Resultados en seales de audio con transitorios . . . . . . . . . . . . . . . 7. Modelado de ruido 7.1. El equilibrio imperfecto entre tonos y ruido . . . . 7.2. Parmetros de la energa del residuo en frecuencia 7.2.1. Bancos de ltros ERB . . . . . . . . . . . . 7.2.2. Filtros basados en warped-LPC . . . . . . . 7.2.3. Comparacin de resultados . . . . . . . . . 7.3. El espectro perceptual del ruido . . . . . . . . . . . 7.4. La envolvente del ruido en el tiempo . . . . . . . . 8. Codicador paramtrico propuesto 8.1. Estructura del codicador de audio propuesto . . . 8.2. Segmentacin del eje temporal . . . . . . . . . . . . 8.3. Detector de transitorios . . . . . . . . . . . . . . . 8.4. Cuanticacin de parmetros . . . . . . . . . . . . 8.4.1. Parmetros de control . . . . . . . . . . . . 8.4.2. Parmetros de los tonos . . . . . . . . . . . 8.4.3. Parmetros de las funciones wavelet-packets 8.4.4. Parmetros del ruido . . . . . . . . . . . . . 8.4.5. Estructura de la trama binaria . . . . . . . 8.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . 8.5.1. Seal es01 . . . . . . . . . . . . . . . . . . . 8.5.2. Seal es02 . . . . . . . . . . . . . . . . . . . 8.5.3. Seal es03 . . . . . . . . . . . . . . . . . . . 8.5.4. Seal si01 . . . . . . . . . . . . . . . . . . . 8.5.5. Seal si02 . . . . . . . . . . . . . . . . . . . 8.5.6. Seal si03 . . . . . . . . . . . . . . . . . . . 8.5.7. Seal sm01 . . . . . . . . . . . . . . . . . .
xi 145 145 146 146 149 151 153 154 157 159 161 163 164 165 171 171 175 176 177 180 185 187 189 190 193 198 199 199 200 201 202 204 205 206 207 209 209 211 212 213
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
xii 8.5.8. 8.5.9. 8.5.10. 8.5.11. 8.5.12. 8.5.13. Seal sm02 . Seal sm03 . Seal sc01 . . Seal sc02 . . Seal sc03 . . Resultados en . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . trmino medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
NDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 216 217 218 219 220
III
Conclusiones y Lneas Futuras
223
225 229
9. Conclusiones 10.Lneas futuras de investigacin
ndice de guras
2.1. Estructura interna del odo humano. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Umbral absoluto de audicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Contornos de igual intensidad sonora para tonos puros. . . . . . . . . . . . . . . . . . 2.4. Ancho de las bandas crticas en funcin de la frecuencia central de la banda. . . . . . . 2.5. Efecto de enmascaramiento de dos tonos en 1kHz y 4kHz . . . . . . . . . . . . . . . . 2.6. Ejemplo de pre-masking y post-masking . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Ejemplo de pre-eco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8. Diagrama de bloques de un sistema de codicacin perceptual . . . . . . . . . . . . . . 2.9. Diagrama de bloques de un banco de ltros de anlisis/sntesis . . . . . . . . . . . . . . 2.10. Descomposicin de un golpe de batera en sus componentes. . . . . . . . . . . . . . . . 2.11. Esquema de un modelo de enmascaramiento sin ndice de tonalidad. . . . . . . . . . . . 2.12. Diagrama de bloques del esquema de codicacin MPEG-1 audio capa 3 . . . . . . . . . 2.13. Estructura de trama MPEG-1 para la transmisin de informacin multicanal MPEG-2 . 2.14. Diagrama de bloques del estndar de codicacin MPEG-2 AAC . . . . . . . . . . . . . 2.15. Aplicaciones del estndar MPEG-4 audio . . . . . . . . . . . . . . . . . . . . . . . . 2.16. Diagrama de bloques del codicador paramtrico HILN [Purnhagen00]. . . . . . . . . . 2.17. Diagrama de bloques del codicador paramtrico PPC [Schuijers03]. . . . . . . . . . . . 2.18. Los cinco intervalos de la escala continua (CQS) de medida usada en el mtodo MUSHRA. 2.19. El interfaz de usuario del programa SEAQ para realizar el test MUSHRA. . . . . . . . . 3.1. Tendencia de la distorsin perceptual en funcin del rgimen binario para codicadores de forma de onda y paramtricos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Unin de tonos individuales para formar trayectorias . . . . . . . . . . . . . . . . . . 3.3. Evolucin de la resolucin espectral y temporal con el tamao de trama de anlisis. . . . 3.4. Ventajas del anlisis multi-resolucin. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Esbozo de la distorsin perceptual en relacin al rgimen binario cuando se utiliza slo el modelado sinusoidal o el modelado sinusoidal ms un modelo de ruido. . . . . . . . . . 3.6. Esquema del funcionamiento del codicador hbrido propuesto en [Ali95]. . . . . . . . . 3.7. Esquema del funcionamiento del codicador hbrido propuesto en [Levine98]. . . . . . . 3.8. Esquema del funcionamiento del codicador paramtrico HILN [Purnhagen00]. . . . . . 3.9. Resultados de los test subjetivos para el codicador HILN. . . . . . . . . . . . . . . . . 3.10. Resultados de los test subjetivos para el codicador PPC. . . . . . . . . . . . . . . . . 3.11. Esquema del funcionamiento del codicador paramtrico de Verma [Verma99]. . . . . . 3.12. Esquema del funcionamiento del codicador paramtrico de Myburg [Myburg04]. . . . . xiii 13 15 16 17 18 20 20 21 22 25 27 29 30 31 35 36 37 44 44
48 52 54 56 66 69 70 71 72 73 74 75
xiv
NDICE DE FIGURAS 76 81 81 82 83 83 88 89 93
3.13. Calidad perceptual obtenida por el codicador de Myburg a diferentes regmenes binarios. 4.1. Plano de fase ideal de una funcin wavelet-packets. . . . . . . . . . . . . . . . . . . . 4.2. Ejemplo de funcionamiento del mtodo de tramas o MOF. . . . . . . . . . . . . . . . . 4.3. Ejemplo de funcionamiento del mtodo basis pursuits (BS) para una seal formada por un tomo wavelet packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Seal FM y su plano de fase ideal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Ejemplo de funcionamiento del algoritmo interior-point para el mtodo basis pursuits (BS) para una seal FM con un diccionario de cosine packets. . . . . . . . . . . . . . . . . 4.6. Mtodo matching pursuits y el principio de ortogonalidad [Goodwin97]. . . . . . . . . . 4.7. Descomposicin en un plano de fase de dos tonos prximos en frecuencia con el mtodo MP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8. Descomposicin con diferentes mtodos atmicos de una seal formada por cuatro elementos del diccionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9. Ejemplo de funcionamiento de diferentes mtodos de obtencin de descomposiciones atmicas con una seal formada por dos tonos muy prximos en frecuencia y un diccionario DST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
4.10. Comparacin del resultados de mtodos para obtener descomposiciones con una seal
formada por una delta de Dirac, un tono y cuatro funciones wavelet-packets. Se utiliza un diccionario wavelet packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.11. Comparacin del resultados de mtodos para obtener descomposiciones con una seal
formada un tono ms una seal tonal modulada en FM. Se utiliza un diccionario cosine packets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97 98 99 101 101 102 106
4.12. Comparacin del resultados de mtodos para obtener descomposiciones con un transitorio de audio. Se utiliza un diccionario cosine packets. . . . . . . . . . . . . . . . . . . . . 4.13. Comparacin del resultados de mtodos de descomposiciones para eliminacin de ruido en un transitorio de audio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.14. tomos de Gabor con ventana simtrica variando la frecuencia de modulacin y la escala de la ventana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15. Representacin de un efecto de pre-eco producido al utilizar tomos de Gabor simtricos. 4.16. tomos de sinusoides amortiguadas variando la frecuencia de modulacin y el factor de amortiguamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.17. Ejemplo de uso de un diccionario mixto. . . . . . . . . . . . . . . . . . . . . . . . . .
5.1. Esquema experimental usado para comparar de forma objetiva diferentes mtodos de implementacin del modelo tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.2. Variacin de la relacin residuo a seal RSR( %) conforme aumenta el nmero de frecuencias extradas para los cuatro mtodos considerados: A (rombos), B (tringulos), C (crculos), D (cuadrados). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.3. Nmero de frecuencias necesarias para conseguir un valor jo de relacin residuo a seal RSR( %) para los mtodos C (crculos) y D (cuadrados). . . . . . . . . . . . . . . . . 117 5.4. Esquema experimental usado para comparar de forma subjetiva diferentes mtodos de implementacin del modelo tonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 5.5. Resultados subjetivos en M OS comparando los mtodos evaluados de modelado sinusoidal. 119
NDICE DE FIGURAS
xv
5.6. Ejemplo de funcionamiento de las medidas perceptuales WMP y PAMP para el caso de dos tonos de 1KHz y 1, 1KHz [Heusdens02]. . . . . . . . . . . . . . . . . . . . . . . 121 5.7. Modelo del odo como sistema lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.8. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso de dos tonos de 1KHz y 1, 1KHz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.9. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 5.10. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora ms ruido blanco. . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5.11. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora con mscara inicial que incluye el umbral NMT. . . . . . . . . . . . 127 5.12. Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora ms ruido blanco con mscara inicial que incluye el umbral NMT. . . 128 5.13. Ejemplo de funcionamiento de la parada perceptual con la medida PMP para el caso una seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.14. Ejemplo de funcionamiento de la parada perceptual con la medida PAMP para el caso una seal vocal sonora. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 5.15. Ejemplo de funcionamiento de la medida PAMP para el caso una seal vocal sonora ms ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.16. Ejemplo de funcionamiento de la medida PMP para el caso una seal vocal sonora ms ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 5.17. Ejemplo de funcionamiento del algoritmo propuesto para la cuanticacin de las amplitudes. 141 5.18. Variacin del rgimen binario (bits/muestra) en media para la cuanticacin de las amplitudes conforme la relacin RSR( %) aumenta. Mtodo en [Ali95] (rombos), mtodo propuesto (cuadrados). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.19. Comparacin de resultados subjetivos (valores de M OS ) obtenidos por el algoritmo de cuanticacin de las amplitudes de los tonos propuesto y por el presentado en [Ali95] . . 143 6.1. 6.2. 6.3. 6.4.
Modelado de un transitorio de audio (gong) con MP y tomos de Gabor. . . . . . . . . 147 Interpretacin mediante bancos de ltros de varias estructuras de diccionario EDS. . . . 148 Modelado de un transitorio de audio (gong) con MP y diccionario EDS. . . . . . . . . . 148 Error cuadrtico medio de mtodo MP con tomos de Gabor y exponenciales amortiguadas para un transitorio de audio [Goodwin97]. . . . . . . . . . . . . . . . . . . . . . . . . 148
6.5. tomos compuestos variando la frecuencia de modulacin y los factores de amortiguamiento. 149 6.6. Modelado un transitorio de audio (gong) con MP y diccionario de tomos compuestos. . 150 6.7. Error cuadrtico medio del mtodo MP con exponenciales amortiguadas y tomos compuestos para un transitorio de audio [Goodwin97]. . . . . . . . . . . . . . . . . . . . . 150 6.8. Estructura en rbol de la transformada WP inversa con una profundidad de P = 3. . . . 152 6.9. Seal transitoria de castauela modelada mediante matching pursuits con un diccionario EDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.10. Seal transitoria de castauela modelada mediante matching pursuits con un diccionario WP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 6.11. Error cuadrtico medio (MSE) de los modelos presentados en las guras 6.9 y 6.10. . . . 157
xvi
NDICE DE FIGURAS
6.12. Modelo de un transitorio de audio (castauela) con un diccionario mixto y con diccionarios aplicados en serie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6.13. Modelo de un micro-transitorio de audio ( glokenspiel) con un diccionario mixto y con diccionarios aplicados en serie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 7.1. Representacin de la frontera ptima entre tonos y ruido en un modelo de seal determinstica ms estocstica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Generador de ruido sinttico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Bloque a sustituir por cada retardo unidad para obtener ltros warped. . . . . . . . . . 7.4. Tres tonos en tiempo y frecuencia antes de realizar un procesado warped [Harma00a]. . 7.5. Tres tonos en tiempo y frecuencia tras realizar un procesado warped por una cadena de 1000 bloques paso todo [Harma00a]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6. Espectro de una seal musical de clarinete y espectro estimado por modelos LPC y warped-LPC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7. Espectro del residuo de una seal vocal sorda (abajo), la envolvente de energa mediante
173 175 178 179 180 181
warped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
7.8. Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante
warped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.9. Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante
warped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.10. Obtencin del modelo de ruido con un espectro pesado perceptualmente gracias al umbral de enmascaramiento presente tanto en el codicador como en el decodicador. . . . . . . 185 7.11. Residuo para una seal de voz sorda y envolvente calculada con un ltro LPC en frecuencia con 3 polos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 8.1. Estructura del codicador paramtrico propuesto. . . . . . . . . . . . . . . . . . . . . 8.2. Diagrama del segmentador usado basado en warped-LPC. . . . . . . . . . . . . . . . . 8.3. Seal de trompeta en un cambio de nota. La lnea marca el lmite del segmento que calcula el algoritmo de segmentacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4. Seal de voz cuando se termina de pronunciar un fonema sonoro. La lnea marca el lmite del segmento que calcula el algoritmo de segmentacin. . . . . . . . . . . . . . . . . . 8.5. Golpe de castauela detectado como transitorio. . . . . . . . . . . . . . . . . . . . . . 8.6. Micro-transitorio detectado en la seal sm02. Se dibuja la seal de entrada (arriba) y el residuo del modelo tonal (abajo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7. Estructura de la trama binaria del codicador paramtrico propuesto. . . . . . . . . . . 8.8. Test MUSHRA para la seal es01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.9. Test MUSHRA para la seal es02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.10. Test MUSHRA para la seal es03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.11. Test MUSHRA para la seal si01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.12. Test MUSHRA para la seal si02. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.13. Test MUSHRA para la seal si03. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 196 197 197 199 200 204 207 208 210 211 212 214
NDICE DE FIGURAS 8.14. Test MUSHRA para la seal sm01. . . . . . . . 8.15. Test MUSHRA para la seal sm02. . . . . . . . 8.16. Test MUSHRA para la seal sm03. . . . . . . . 8.17. Test MUSHRA para la seal sc01. . . . . . . . . 8.18. Test MUSHRA para la seal sc02. . . . . . . . . 8.19. Test MUSHRA para la seal sc03. . . . . . . . . 8.20. Valores del test MUSHRA en media para todas las . . . . . . seales de prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xvii 215 216 217 218 219 220 222
xviii
NDICE DE FIGURAS
ndice de tablas
2.1. Escala de degradacin de 5 notas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Seales del cd EBU-SQAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 41
5.1. Seales de audio utilizadas en el test del modelo tonal. . . . . . . . . . . . . . . . . . . 115 5.2. Preferencia en ( %) de PMP (banda de Bark) sobre PAMP (frecuencia) cuando se aplica un modelo tonal con 25 tonos por segmento. . . . . . . . . . . . . . . . . . . . . . . . 133 6.1. Preferencia de los resultados del diccionario mixto sobre el diccionario en serie en %. . . 168 7.1. Preferencia de los resultados del modelo de ruido WLPC sobre el modelo ERB basado en FFT en %. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 7.2. Preferencia de los resultados del modelo de ruido WLPC pesado perceptualmente sobre el modelo WLPC tradicional pesado por energa en %. . . . . . . . . . . . . . . . . . . . 186 8.1. Rgimen 8.2. Rgimen 8.3. Rgimen 8.4. Rgimen 8.5. Rgimen 8.6. Rgimen 8.7. Rgimen 8.8. Rgimen 8.9. Rgimen 8.10. Rgimen 8.11. Rgimen 8.12. Rgimen 8.13. Rgimen
binario binario binario binario binario binario binario binario binario binario binario binario binario y y y y y y y y y y y y y otros otros otros otros otros otros otros otros otros otros otros otros otros resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados resultados al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero al codicar el chero en media al codicar es01. . . . . . . . . . . . . es02. . . . . . . . . . . . . es03. . . . . . . . . . . . . si01. . . . . . . . . . . . . si02. . . . . . . . . . . . . si03. . . . . . . . . . . . . sm01. . . . . . . . . . . . sm02. . . . . . . . . . . . sm03. . . . . . . . . . . . sc01. . . . . . . . . . . . . sc02. . . . . . . . . . . . . sc03. . . . . . . . . . . . . todos las seales evaluadas.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
206 208 209 210 211 213 214 215 217 218 219 220 221
xix
Parte I
Planteamiento de la Investigacin y Revisin de Conocimientos
Captulo 1
Introduccin
1.1. Contexto y localizacin de la investigacin
La representacin digital de seales de audio encontr en los aos ochenta un estndar con la aparicin de la tecnologa del disco compacto (CD). Inevitablemente, todos los esquemas de codicacin de seales de audio que han surgido desde entonces han tratado de comparar su calidad con la calidad CD. Esta se caracteriza por el uso de una frecuencia de muestreo de 44,1 KHz, para seales de audio cuyo ancho de banda es del orden de 20 KHz, siendo cada muestra PCM codicada con 16 bits. Para transmitir las seales digitales resultantes, se necesitara una velocidad de transmisin de 705,6 Kbits/s por canal de audio, justicndose la necesidad de investigacin para encontrar tcnicas de codicacin alternativas que permitan reducir el rgimen binario manteniendo la calidad perceptual de la seal de audio decodicada. La investigacin en este campo no es nueva, apareciendo los primeros sistemas de codicacin de audio digital con buena calidad y bajo rgimen binario a nales de la dcada de los ochenta. Desde entonces, la investigacin en esta lnea se ha ido intensicando, debido fundamentalmente a las aportaciones realizadas por el grupo MPEG (Moving Pictures Expert Group ), fruto de las cuales han surgido diversos estndares internacionales de codicacin de audio. Estos estndares son los siguientes: MPEG-1 audio (ISO/IEC 11172-3, 1992), MPEG-2 audio (ISO/IEC 13818-3, 1994) y MPEG-4 (ISO/IEC 14496, 2000). Sin embargo, a partir del ao 2000 ha ido surgiendo la necesidad de reducir de manera signicativa el rgimen binario de la seal de audio con el objetivo de poder realizar transmisiones sobre Internet, as como incrementar el tiempo de seal que se puede almacenar en dispositivos porttiles de bajo coste. Para lograr este n se ha apuntado la necesidad de cambiar la tecnologa de codicacin, pasando de utilizar transformadas tiempo-frecuencia para codicar la forma de onda de la seal, a desarrollar modelos de seal que extraigan parmetros de la seal de audio que son posteriormente codicados. El xito de estos sistemas reside fundamentalmente en la gran compactacin de energa al suponer un modelo de tres componentes: tonos, transitorios y ruido. Adems, con este tipo de codicadores paramtricos es muy sencillo realizar modicaciones de la seal de audio a partir de los parmetros y suponen, adicionalmente, una herramienta prometedora para desarrollar esquemas de reconocimiento y separacin de fuentes. En esta tesis se aborda la revisin y desarrollo de modelos de seal como herramienta fun3
CAPTULO 1. INTRODUCCIN
damental en el anlisis de las seales de audio para sistemas de codicacin paramtrica. Se ha conseguido incluir el uso de informacin psico-acstica en la extraccin tonal del modelo sinusoidal, as como una representacin adecuada de los transitorios y ruido de la seal, para alcanzar una reduccin signicativa del rgimen binario manteniendo una buena calidad perceptual.
1.2.
Justicacin y objetivos de la investigacin
Todo avance tecnolgico se fundamenta en varias etapas: investigacin bsica, investigacin aplicada, desarrollo y produccin. En esta tesis doctoral se presenta un trabajo que combina las principales caractersticas de la investigacin bsica y de la investigacin aplicada. Por un lado, se desarrollan nuevas estrategias de modelizacin de la seal de audio, que podran ser tiles en muchas aplicaciones. Por otro, se propone un producto que, con ligeras modicaciones y mejoras, es susceptible de ser explotado. La investigacin llevada a cabo se fundamenta en la siguiente hiptesis de partida, siendo esta tesis doctoral el trabajo realizado para comprobar su veracidad: HIPTESIS: La completa parametrizacin de la seal de audio mediante el uso de modelos adaptativos, basados en la descomposicin de la seal de audio en tonos, transitorios y ruido, y su codicacin siguiendo criterios perceptuales proporciona una ganancia importante, en cuanto a rgimen binario, comparada con la utilizacin de codicacin de forma de onda con descomposiciones tiempo frecuencia. Teniendo en cuenta el objetivo general de la investigacin, es preciso plantear una serie de objetivos especcos, cuya consecucin permita alcanzar el objetivo general: Denicin de un algoritmo de segmentacin adaptativa del eje temporal, para conseguir dividir la seal de audio en segmentos que podamos considerar casi estacionarios, a los cuales aplicar los modelos de seal paramtricos. De esta forma se pretende minimizar la distorsin de pre-eco. Realizar una extraccin tonal basada en principios psicoacsticos que proporcione una herramienta capaz de extraer los tonos perceptualmente importantes de un segmento de audio. Desarrollar un modelo paramtrico de transitorios que se adapte a las caractersticas de la seal. El algoritmo debe ser lo sucientemente exible como para poder parametrizar los diferentes tipos de transitorios que puedan aparecer en la seal de audio. Implementar un modelo de ruido que extraiga, de forma eciente y con alta calidad, las caractersticas en tiempo y frecuencia de la seal residual de los modelos previos. Inclusin de algoritmos ecientes de codicacin de los parmetros de cada modelo basados en criterios perceptuales. El resultado nal ha sido la propuesta de un codicador de audio basado en modelos de seal que consigue la completa parametrizacin de la seal de audio. Este codicador proporciona
1.3. ESTRUCTURA DE LA TESIS
regmenes binarios del orden de 16 Kbits/s para todas las seales de prueba, manteniendo una alta calidad de la seal codicada.
1.3.
Estructura de la tesis
En esta seccin se presenta la estructura de la tesis que recoge el trabajo de investigacin desarrollado. Se estructura en tres bloques temticos. Cada bloque temtico por su parte est compuesto por una serie de captulos. Planteamiento de la investigacin y revisin de conocimientos. Este bloque temtico est compuesto de tres captulos. El primero de ellos, que es en el que nos encontramos en este momento, se centra fundamentalmente en la presentacin de los objetivos de la investigacin y de la estructura de la tesis doctoral. En el segundo captulo se presentan los fundamentos de los sistemas de codicacin perceptual de audio y se realiza una revisin del estado del arte en relacin a los sistemas de codicacin de audio en general. El tercer captulo est dedicado a la revisin de los conceptos ms relevantes en relacin a la codicacin paramtrica de audio. Los aspectos ms destacados que se tratan son el modelado sinusoidal, el modelado de transitorios y el modelado de ruido. Adems, se incluyen los trabajos previos con mayor importancia en el uso de los anteriores modelos en codicadores de audio, ya sean totalmente paramtricos, o aquellos que, basados en transformada, incluyen alguna de estas herramientas. El cuarto captulo se dedica al estudio de las descomposiciones atmicas. Los modelos de seal mediante los que se obtienen los parmetros de la seal de audio en esta tesis doctoral estn basados en su mayor parte en descomposiciones atmicas. Se revisarn los diferentes mtodos, tanto paralelos como iterativos, que existen en la bibliografa especializada para calcular descomposiciones atmicas. Adems, se har un estudio de los diferentes diccionarios de tomos que se emplean en funcin de la nalidad de la descomposicin atmica a implementar. Desarrollo y metodologa de la investigacin. Este bloque temtico est compuesto de cuatro captulos, donde se explica el modo en que se ha procedido en la investigacin para ir alcanzando los objetivos planteados. Este captulo constituye el ncleo de la tesis y en l se recogen las principales contribuciones originales. En el quinto captulo de esta tesis doctoral se realiza un estudio detallado del modelado sinusoidal. La principal aportacin, entre otras, en este modelado se centra en la extraccin tonal guiada perceptualmente con un criterio de parada psicoacstico. En el sexto captulo se estudian las aportaciones realizadas en el modelo de transitorios. Aqu se describen dos modelos de transitorios basados en el algoritmo matching pursuits, uno con un diccionario wavelet packets, y otro con un diccionario mixto de wavelet packets y exponenciales complejas.
CAPTULO 1. INTRODUCCIN En el sptimo captulo, centrado en el modelo de ruido, se explican las herramientas de prediccin lineal que tienen en cuenta el comportamiento logartmico en frecuencia del odo humano, conocidas comnmente como warped-lpc. Para completar este bloque, en el octavo captulo se presenta la estructura general del codicador propuesto, detallando la segmentacin adaptativa del eje temporal y el proceso de cuanticacin de parmetros con principios psicoacsticos. Se detallan los resultados subjetivos, que se han obtenido atendiendo a la recomendacin ITU-R BS.1534 (conocida como metodologa MUSHRA) para la evaluacin subjetiva de medias a grandes degradaciones en los sistemas de audio. Estos resultados permiten comparar la calidad perceptual de las seales decodicadas con las obtenidas usando el estndar MPEG-AAC y el codicador paramtrico estandarizado PPC. Conclusiones y lneas futuras. Este bloque se compone de dos captulos. En el primero de ellos (captulo noveno) se presentan las conclusiones obtenidas de la investigacin llevada a cabo. Se realiza una revisin de las aportaciones originales introducidas en cada uno de los modelos de seal utilizados en el campo de la codicacin paramtrica de audio. El siguiente captulo, que es el dcimo y nal de la tesis, est dedicado a presentar nuevas lneas de investigacin que han surgido durante el desarrollo de la investigacin y que suponen el inicio de nuevas vas de investigacin en el campo del tratamiento digital de audio, de las cuales pueden derivarse futuras tesis doctorales.
1.4.
Principales contribuciones
Finalmente, en este primer captulo, se presentan las principales contribuciones originales del trabajo de investigacin desarrollado: 1. Denicin de una nueva medida de importancia perceptual de cada tono en el algoritmo matching pursuits con diccionario de exponenciales complejas que permite en cada iteracin la extraccin de la frecuencia psicoacsticamente ms importante (seccin 5.2). 2. Denicin de un criterio de parada en el algoritmo matching pursuits con diccionario de funciones exponenciales complejas que permite detener el algoritmo cuando no quedan en el residuo tonos que estn por encima del umbral de enmascaramiento (seccin 5.2). 3. Desarrollo de un algoritmo de codicacin de las amplitudes de los tonos que permite enviar un nmero variable de bits por tono, de forma que cada tono se cuantica con los bits necesarios para que la cuanticacin sea perceptualmente transparente. Este resultado se consigue haciendo que tanto codicador como decodicador calculen de forma sencilla un umbral de enmascaramiento que determine los bits de cada tono (seccin 5.3). 4. Inclusin de un proceso rpido de actualizacin de las correlaciones en el algoritmo matching pursuits con un diccionario wavelet packets, basado en las propiedades de las funciones wavelet packets ortogonales. Este algoritmo se emplea en el modelado de transitorios (seccin 6.2).
1.4. PRINCIPALES CONTRIBUCIONES
5. Desarrollo de un mtodo de actualizacin de las correlaciones en el algoritmo matching pursuits con un diccionario mixto de funciones wavelet packets y exponenciales complejas, basado en las propiedades de las funciones wavelet packets ortogonales, as como en las propiedades de la transformada discreta de Fourier de las funciones exponenciales complejas. Este algoritmo es idneo para el modelado de transitorios (seccin 6.3). 6. Desarrollo de un modelado de ruido basado en prediccin lineal con frecuencia logartmica (warped-lpc ) para las frecuencias y en prediccin lineal (tns, time noise shaping ) para el tiempo (seccin 7). 7. Desarrollo de un nuevo algoritmo de segmentacin exible del eje temporal (seccin 8.2).
CAPTULO 1. INTRODUCCIN
Captulo 2
Introduccin a la codicacin perceptual de audio

2.1. Necesidad de la codicacin de audio
La codicacin perceptual de audio digital ha sido a lo largo de los ltimos 20 aos un campo de aplicacin del procesado de seales. Durante este tiempo, se han resuelto algunos de los retos asumidos. Sin embargo, la creciente demanda de aplicaciones digitales en redes telemticas hace, que an hoy, la codicacin de audio sea un tema de actualidad. El objetivo de este captulo es describir las tcnicas de codicacin ms utilizadas en el mercado y presentar una revisin del estado del arte en codicacin perceptual de audio. Durante los ltimos aos, gracias a los esfuerzos de estandarizacin, ha habido una explosin de aplicaciones, tanto profesionales como de consumo, que han llevado a que el audio digital se haya extendido de forma que se utiliza con asiduidad en la vida cotidiana. Baste, para comprobar este hecho, con enumerar una serie de campos de aplicacin: Almacenamiento en discos pticos y dispositivos porttiles. Audio asociado para vdeo digital. Transmisin de audio mediante redes digitales, por ejemplo internet o redes mviles. Radiodifusin digital: DAB (radiodifusin terrestre), WorldSpace (radiodifusin por satlite). Pese a que el ancho de banda global disponible para la transmisin de seales de audio (y video) aumenta continuamente, as como la capacidad de los dispositivos de almacenamiento, siguen surgiendo campos de aplicacin donde los actuales estndares de codicacin no ofrecen una solucin satisfactoria. En este sentido cabe destacar la necesaria reduccin del rgimen binario para la transmisin de audio por internet, o telefona mvil, manteniendo una alta calidad, lo cual ha provocado el desarrollo de la codicacin paramtrica de audio. Pero, en un futuro prximo, tal y como adelanta MPEG, van a seguir apareciendo nuevas aplicaciones para el tratamiento digital de audio como, por ejemplo, la bsqueda basada en contenido. 9
10
CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO
2.2.
Requisitos de los sistemas de codicacin de audio
A la hora de denir un sistema de codicacin de audio, es necesario tener en cuenta los requisitos que se le piden. Dependiendo de la aplicacin, algunos de ellos sern ms relevantes que otros. Los principales criterios que se tienen en cuenta a la hora de disear un esquema de codicacin perceptual son los siguientes: Eciencia de compresin. En muchas aplicaciones, obtener la mayor tasa de compresin para la misma calidad de servicio se traduce directamente en ahorro de costes. Por tanto, la calidad de seal para una tasa binaria dada (o la tasa binaria necesaria para conseguir una cierta calidad de seal) es un criterio de diseo importante. Calidad de la seal decodicada. En algunas aplicaciones se precisa calidad transparente (no existe diferencia audible entre la seal original y la seal decodicada) o casi transparente. Para asegurar esta calidad el sistema de codicacin debe superar pruebas de calidad muy exigentes. En otras aplicaciones, sin embargo, se permite que una persona entrenada distinga la seal original de la decodicada, aunque las distorsiones en la seal decodicada sean tolerables, se habla entonces de audio de alta calidad. Complejidad. Para aplicaciones de consumo, la complejidad de la codicacin, y en especial de la decodicacin, es importante, aunque conforme pasa el tiempo estos aspectos estn pasando a un segundo plano. Podemos distinguir distintos tipos de complejidad: Complejidad computacional. Se reere al nmero de instrucciones del procesador necesarias para tratar un bloque de muestras. Si el algoritmo de codicacin se implementa en una arquitectura de clculo de propsito general (PC o estacin de trabajo), esta es la gura de complejidad ms importante. Requisitos de almacenamiento. Supone un factor de coste importante para realizaciones con dispositivos porttiles o bien en arquitecturas de propsito especco (DSPs). Complejidad del codicador frente a la del decodicador. En la mayora de los algoritmos que se describen en este captulo, el codicador es ms complejo que el decodicador. Esta asimetra es interesante para aplicaciones como la radiodifusin, donde existe una relacin de uno a muchos entre el codicador y los decodicadores. Retardo. Dependiendo de la aplicacin, el retardo puede ser o no un criterio importante. Mientras que es muy importante en aplicaciones donde se dan comunicaciones bidireccionales, no lo es tanto en aplicaciones de almacenamiento. Para radiodifusin, un retardo de 100 ms parece ser tolerable. Editabilidad. Desde el punto de vista de codicacin el requisito de editabilidad esta relacionado con el de break-in , y consiste en la posibilidad de comenzar la decodicacin en cualquier punto de la secuencia de bits sin que esto suponga un elevado tiempo de sincronizacin. Como norma general, un codicador empieza a decodicar antes si no utiliza codicacin diferencial entre tramas, puesto que en caso contrario la espera para disponer de todos los valores puede alargarse en el tiempo.
2.3. CODIFICACIN PERCEPTUAL
11
Resistencia a errores. Dependiendo de la estructura de la secuencia de bits transmitida, los codicadores perceptuales son ms o menos sensibles a errores puntuales o de rfaga producidos en el canal de transmisin. Esta sensibilidad depende del uso que se haga de la codicacin diferencial entre diferentes tramas de audio. Evidentemente, la utilizacin de cdigos correctores de errores es una solucin, que se consigue a costa de aumentar el rgimen binario, la complejidad y el retardo del sistema.
2.3.
Codicacin perceptual
La funcin tasa-distorsin determina el rgimen binario mnimo que se puede conseguir para una distorsin dada [Berg71]. Normalmente se consiguen muy buenos resultados combinando la eliminacin de redundancia (datos que pueden reconstruirse a partir de los presentes), con la eliminacin de datos que no son importantes (eliminacin de irrelevancia). La codicacin perceptual se centra en la eliminacin de aquellos datos que son irrelevantes para el sistema auditivo. La seal se codica de forma que la distorsin debida a la codicacin no sea audible o, por lo menos, en que la distorsin que se produzca sea mnima para el rgimen binario objetivo. Para tener xito en esta tarea, es preciso aplicar el conocimiento disponible sobre el funcionamiento del sentido del odo. El mnimo rgimen binario necesario para codicar una seal de audio sin que se produzcan diferencias perceptuales entre la seal decodicada y la original es la Entropa Perceptual (PE) [Johnston88]. La unidad de medida es bit/muestra, y se dene a partir de la expresin (2.1): 1 PE = N
f =fu
max 0, log2 (
f =fl
S (f ) ) umbral(f )
(2.1)
donde fl es la frecuencia lmite inferior (por ejemplo, fl = 0 Hz ), fu es la frecuencia lmite superior (por ejemplo, fl = 22,050 KHz), N es el nmero de componentes frecuenciales entre fl y fu , S (f ) es la densidad espectral de potencia de la seal y umbral(f ) es el umbral de enmascaramiento estimado para dicha seal (el umbral de enmascaramiento se dene en la siguiente seccin). Los diferentes codicadores perceptuales han de estimar el umbral de enmascaramiento, lo cual es un paso similar en todos los prototipos. Sin embargo, las diferentes propuestas dieren en cmo obtener los datos de la seal antes de su cuanticacin. En cualquier caso, debido a que el umbral de enmascaramiento se dene en frecuencia, es necesario realizar una transformacin de los datos a este dominio para poder realizar la cuanticacin teniendo en cuenta principios psicoacsticos. En funcin del tipo de transformacin que se realice a los datos de la seal de entrada, los codicadores de audio se suelen clasicar en dos grupos principales: Codicadores por transformada. Se agrupan aqu todos los codicadores que realizan una transformacin lineal de la seal de entrada antes de su codicacin. Estos codicadores son tambin conocidos en la bibliografa como codicadores de forma de onda, del ingls waveform coding. En general, esta transformacin se realiza mediante un banco de ltros o transformada. Se han utilizado un sinfn de transformadas, siendo las ms usadas las transformadas de coseno y las transformadas wavelet-packets. En los codicadores ms avanzados
12
CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO se adapta el banco de ltros o transformada a las caractersticas de la seal de entrada, pudindose cambiar incluso en cada trama en que se divide el audio. Las limitaciones de esta forma de codicacin se encuentran cuando se quiere reducir demasiado el rgimen binario. En este caso, este tipo de codicacin no proporciona resultados satisfactorios.
Codicadores paramtricos. Esta forma de codicacin surge cuando es necesario reducir mucho el rgimen binario. La solucin se basa en la modelizacin de la seal de audio en componentes, los cuales son tpicamente: tonos, transitorios y ruido. Un codicador paramtrico extrae parmetros de la seal que modelan estas componentes antes de realizar el proceso de cuanticacin. El inconveniente de esta tcnica son los errores intrnsecos al modelo, por lo que no es posible conseguir calidad transparente an cuando se aumente mucho el rgimen binario.
2.4.
Fundamentos de psicoacstica
La ciencia que estudia las relaciones entre los estmulos acsticos y las sensaciones auditivas se conoce como psicoacstica. En esta seccin se introducen los principios en los que se basan los modelos perceptuales que utilizan los modernos codicadores de audio. Estos modelos se aplican para saber cmo cuanticar un determinado valor y que el efecto producido no sea audible en la seal nal. Se comenzar haciendo una breve exposicin acerca del funcionamiento del sistema auditivo humano. Posteriormente, se analizan las sensaciones auditivas de intensidad sonora, tono y timbre; as como el umbral absoluto de audicin, las bandas crticas y las propiedades y tipos de enmascaramiento. Una revisin ms detallada de psicoacstica se puede encontrar en [Zwicker90] y en [Moore97].
2.4.1.
El sistema auditivo humano
El sistema auditivo humano es la base de la cadena de actuaciones que se realizan en un codicador de audio. Por esta causa, es de vital importancia tener un completo conocimiento de cmo funciona este sistema a la hora de disear un codicador de audio. Es esta seccin se describe el funcionamiento fsico del odo humano, dejando para ms adelante las propiedades derivadas que se usan en codicacin de audio. El odo humano (ver gura (2.1)) se puede dividir en tres partes, cada una de las cuales realiza un procesamiento diferente de los sonidos que llegan al sistema: Odo externo: Es la parte visible del sistema auditivo formado por el pabelln y el canal auditivo. La principal funcin se limita a la localizacin de las fuentes del odo en el espacio aunque tambin realiza otras acciones. Por ejemplo, protege al tmpano del posible dao causado por cuerpos extraos y cambios en la humedad y temperatura. Desde el punto de vista acstico, el canal auditivo (de 2 o 3 cm aprox.) tiene una frecuencia de resonancia cercana a 4 KHz, lo que provoca una ganancia en la seal en este rango de frecuencias, siendo la causa de la alta sensibilidad del odo en esta banda y del mnimo del umbral absoluto de audicin [Yost85]. Odo medio: Comienza en el tmpano e incluye toda la cadena de huesos del odo. Bsicamente realiza una transmisin del sonido desde el tmpano, a travs de los huesos del odo (martillo,
2.4. FUNDAMENTOS DE PSICOACSTICA
13
Figura 2.1: Estructura interna del odo humano. Esta gura se ha obtenido de la direccin de Internet http://www.owlnet/rice.edu/psyc351.
14
CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO yunque y estribo) hasta la entrada del caracol. Esta parte del odo tiene una respuesta adaptada a las frecuencias medias (de 500 a 4000 Hz) porque la adaptacin mecnica de las ondas sonoras desde aire (tmpano) a uido (cclea) est siolgicamente diseada para estas frecuencias.
Odo interno: Es la parte ms importante del sistema auditivo desde el punto de vista psicoacstico. Incluye la cclea o caracol del odo donde se realiza la conversin de seal mecnica a elctrica. El uido de la cclea es excitado por el hueso estribo y estas ondas se propagan hasta donde se encuentran las clulas sensoriales. Esta propagacin tiene la particularidad de que, dependiendo de la frecuencia, el pico de la respuesta de las ondas se sita en una parte u otra de la membrana donde estn los receptores. Como consecuencia, se excitan diferentes receptores en funcin de la frecuencia del sonido, de forma que los receptores estn sintonizados a la frecuencia de entrada gracias a la conversin frecuencia a lugar que realiza la cclea. Desde un punto de vista de seal, la cclea se comporta como un conjunto de ltros paso banda, con anchos de banda no uniformes que crecen con la frecuencia. El concepto de bandas crticas se relaciona con este fenmeno [Zwicker90]. Otro fenmeno que tiene lugar en el odo interno es el enmascaramiento, el cual es producido por la presencia en la misma banda (para los mismos receptores) de una excitacin suciente para bloquear la recepcin de una seal ms dbil. Finalmente, la percepcin de un sonido se realiza en el cerebro mediante la composicin de las diferentes respuestas elctricas de las clulas sensoriales de cada banda enviadas por medio del nervio auditivo.
2.4.2.
Umbral absoluto de audicin
El umbral absoluto de audicin o umbral de silencio indica el nivel de presin sonora (Sound Pressure Level, SPL) en funcin de la frecuencia en el que un tono puro se empieza a escuchar [Zwicker90]. La gura 2.2 muestra este umbral dependiendo de la frecuencia. Se puede observar cmo el odo es ms sensible en el rango de frecuencias de 1 a 5 KHz, principalmente debido a la accin del odo externo. El umbral crece rpidamente tanto en baja como en alta frecuencia. La dependencia de este umbral con la frecuencia fue estudiada por Fletcher [Fletcher40] y aproximada por Terhardt [Terhardt79] mediante la expresin (2.2). Tq (f ) = 3, 64(
f f 4 f 0,8 3,3)2 0,6( 1,000 + 103 ( ) 6, 5e ) (dB 100 1,000
SP L)
(2.2)
Esta curva es de gran utilizad en codicacin de audio porque las componentes frecuenciales bajo este umbral no pueden ser escuchadas y, por lo tanto, no necesitan ser transmitidas. Generalmente, en los codicadores por transformada se eliminan las bandas de seal bajo este umbral. El umbral absoluto de audicin se usa en codicacin de audio con cautela. En primer lugar, este umbral est asociado a tonos puros, mientras que el ruido de cuanticacin en codicadores por transformada no tiene caractersticas tonales. En segundo lugar, hay que resaltar que no se tiene conocimiento a priori sobre los niveles reales de reproduccin del sonido, aunque como referencia se suele igualar el tono que ocupe todo el rango dinmico del sistema a una intensidad sonora de 96 dB SPL.
15
90 80 70 60 50 40 30 20 10 0 10
2
Nivel de Presin Sonora, SPL (dB)
10 Frecuencia (Hz)
10
Figura 2.2: Umbral absoluto de audicin
2.4.3.
Intensidad sonora, tono y timbre
La intensidad sonora es un atributo de los sonidos en funcin del cual se pueden ordenar en una escala de ms bajo a ms alto en intensidad. Adems de la potencia de un sonido la intensidad sonora depende tambin de la duracin y la estructura en tiempo y frecuencia del mismo. En el caso de la frecuencia del sonido se denen contornos de la misma intensidad sonora, donde se toma la frecuencia de 1 KHz como referencia. La unidad en la que se mide la intensidad sonora es el fono (phon ). El umbral de silencio es un ejemplo de contorno de igual intensidad sonora, notar que la intensidad sonora para 1 KHz en el umbral de silencio equivale a 3 fonos. En la gura 2.3 se representan las curvas de igual intensidad sonora partiendo del umbral de silencio. Otra sensacin auditiva es el tono que se dene como la propiedad que permite ordenar los sonidos en una escala musical. Con el tono se aprecia el patrn de repeticin de un sonido, as para el caso de un tono puro se relaciona con su frecuencia, y si se trata de un complejo armnico con la frecuencia fundamental del mismo. En cualquier caso, este atributo es ms complejo porque supone que el sonido es armonioso [Moore97]. La asignacin de un determinado tono a un sonido signica que se escucha de forma similar a (en la misma escala musical que) la frecuencia de un tono puro. El timbre es otra sensacin auditiva, aunque no se puedan ordenar los sonidos en funcin del timbre en una escala unidimensional. La denicin de timbre es negativa, es la propiedad por la cual dos sonidos se distinguen como diferentes aunque tengan la misma intensidad sonora y el mismo tono. En otras palabras, el timbre permite distinguir entre la misma nota tocada, por ejemplo, por un piano y una auta. Desde un punto de vista psicoacstico, el timbre se detecta en el cerebro al estudiar la composicin de seales en diferentes bandas crticas.
16
Figura 2.3: Contornos de igual intensidad sonora para tonos puros. Esta gura se ha obtenido de la direccin de Internet http://www.owlnet/rice.edu/psyc351.
2.4.4.
Bandas crticas
Como se ha visto, las ondas acsticas que viajan por la cclea generan picos de respuesta en posiciones especcas de la membrana basilar (donde se encuentran los receptores auditivos) para cada componente frecuencial [Greenwood90]. Como consecuencia de esta transformacin, la cclea se entiende desde el punto de vista del procesado digital de seales como un banco de ltros muy solapados. Las respuestas en amplitud son asimtricas y dependientes del nivel de seal. Adems, el ancho de banda, conocido como ancho de la banda crtica, no es uniforme y se incrementa con la frecuencia. La nocin de banda crtica se basa en dos hechos experimentales: 1. La intensidad sonora percibida de una fuente de ruido de banda estrecha de nivel constante permanece invariable mientras se incrementa el ancho de banda hasta alcanzar el ancho de la banda crtica, pasado el cual aumenta. 2. El umbral de deteccin de ruido de banda estrecha que se presenta entre dos tonos enmascaradores permanece constante mientras la diferencia de frecuencia de los tonos se mantiene dentro del ancho de la banda crtica. El ancho de las bandas crticas permanece aproximadamente constante (unos 100 Hz) hasta los 500 Hz, y se incrementa en aproximadamente un 20 % de la frecuencia central por encima de los 500 Hz. En promedio, el ancho de las bandas crticas puede aproximarse por la expresin (2.3) [Zwicker90], la cual est dibujada en la gura 2.4: BWc (f ) = 25 + 75[1 + 1, 4(f /1,000)2 ]0,69 (Hz ) (2.3)
Resulta usual el tratamiento del odo como un conjunto discreto de bancos de ltros, cuyos anchos de banda se corresponden con los de las bandas crticas. En ese caso, la distancia entre dos bandas crticas adyacentes se conoce normalmente como un Bark .

6000
17
5000
Ancho de la Banda Crtica (Hz)
4000
3000
2000
1000
10
10 Frecuencia (Hz)
10
Figura 2.4: Ancho de las bandas crticas en funcin de la frecuencia central de la banda.
2.4.5.
Enmascaramiento
En psicoacstica el efecto ms importante que debe ser tenido en cuenta en codicacin de audio es el enmascaramiento. Se conoce como enmascaramiento el proceso por el cual el umbral de audicin de un sonido crece por la presencia de otro sonido. Hay dos tipos diferentes de enmascaramiento: el enmascaramiento simultneo y el enmascaramiento temporal. Enmascaramiento simultneo Dentro de los estudios sobre psicoacstica, es muy importante el concepto de enmascaramiento simultneo , que describe el efecto mediante el cual una seal dbil pero audible (seal enmascarada o "maskee" ) se hace inaudible cuando otra seal ms fuerte (seal enmascaradora o "masker" ) ocurre de forma simultnea. La gura 2.5 muestra el umbral de enmascaramiento obtenido a partir del umbral de silencio y del efecto de enmascaramiento producido por dos tonos puros localizados en 1 KHz y 4 KHz. Todas las seales con un nivel de presin sonora por debajo del umbral resultante y que sean simultneas a estos dos tonos no sern audibles. En el clculo del umbral de enmascaramiento debe contemplarse la dispersin del efecto enmascarador hacia las bandas prximas a la de la seal enmascarante. Esta dispersin viene caracterizada por la Funcin de Dispersin , cuya pendiente es ms abrupta hacia las bajas que hacia las altas frecuencias. Esta funcin realiza el efecto de ltrado paso banda que ocurre en la cclea. Una buena estimacin de esta pendiente hacia las bajas frecuencias es de 31 dB/Bark. Por su parte, la pendiente de la funcin de dispersin hacia las altas frecuencias depende, adems, del nivel de presin sonora del elemento enmascarador. As, elementos enmascaradores de mayor intensidad producen un mayor enmascaramiento hacia las altas frecuencias (una pendiente ms suave de la funcin de dispersin). Valores de -6 dB/Bark para seales de alta intensidad y de -10 dB/Bark para seales de menor intensidad se citan en [Zwicker90]. Mientras que en [Terhardt79] se aproxima por la expresin (2.4):
18

120
100
Nivel de Presin Sonora (dB)
80
60
40
20
0
2 3 4
10
10 Frecuencia (Hz)
10
Figura 2.5: Efecto de enmascaramiento de dos tonos en 1kHz y 4kHz
230 , 10) 0, 2L (dB/Bark ) (2.4) f donde f es la frecuencia del tono enmascarador y L su intensidad en dB SPL. Finalmente, hay que destacar que la capacidad de enmascaramiento depende de la tonalidad del elemento enmascarador. Un ruido de banda estrecha presenta una mayor capacidad de enmascaramiento sobre un tono que al contrario [Hell72]. Esta propiedad se conoce como asimetra en el enmascaramiento. La forma de tratar con esta caracterstica del enmascaramiento en la bibliografa [Zwicker90] es tener dos tipos de seales y dos efectos, resultando cuatro escenarios de enmascaramiento: ruido que enmascara a tonos (noise-masking-tone, NMT), tonos que enmascaran a tonos (tone-masking-tone, TMT), tonos que enmascaran a ruido (tone-masking-noise, TMN), y ruido que enmascara a tonos (noise-masking-noise, NMN). 22 + min( NMT: El nivel de enmascaramiento en la misma banda crtica depende del nivel de ruido que enmascara, as en [Hall98] se dice que el umbral se sita a 4 dB con 80 dB SPL de ruido enmascarador y a 3 dB para 60 dB SPL. TMT: Cuando tanto seal enmascaradora como enmascarada son tonos se dan [Hall98] 19 dB para un tono enmascarador de 400 Hz de 80 dB SPL, 15 dB para 60 dB SPL, y 14 dB para 40 dB SPL. Otros valores se pueden encontrar en [Zwicker90] en funcin de la frecuencia, pero son pocos los estudios realizados porque este tipo de enmascaramiento no se utiliza en codicadores por transformada. El efecto enmascarador de un tono es ms fuerte si la duracin del tono es mayor hasta un mximo de 300 ms [Par02], lo que puede ser tenido en cuenta por codicadores paramtricos. Adems, en este caso se han observado situaciones especiales, porque cuando ambos tonos estn muy prximos en frecuencia tienden a interferirse y provocar uctuaciones en la intensidad sonora [Lee03]. TMN: La mscara generada en este caso depende tanto del nivel de presin sonora del tono como de su frecuencia. Pero, comparada con el caso del ruido enmascarador, un tono
19
tiene menos capacidad de enmascaramiento. En [Hall98] se presentan los valores para una frecuencia de 1 KHz, as el umbral est a 21 dB para un tono de 60 dB SPL, a 24 dB para 80 dB SPL y a 28 dB para 90 dB SPL. Hay una gran conjunto de expresiones similares [Zwicker90] [Moore97] [MPEG92] para este escenario que aprovechan los diferentes modelos perceptuales que emplean los codicadores de audio. NMN: Es un valor difcil de medir en la prctica porque no se puede distinguir entre tipos de ruido. Los valores que aparecen en la bibliografa son muy diversos, as en [Hall98] aparece un valor genrico de 26 dB, mientras que en el modelo de enmascaramiento 2 de MPEG [MPEG92] se utiliza un valor de 5, 5 dB. El valor de la mscara nal se ha de obtener reconociendo cuantas seales enmascaradoras ruidosas y tonales hay en la seal. Esto se consigue de forma general calculando la tonalidad de la seal en cada banda crtica. A partir de este valor se divide la seal de entrada en parte tonal y parte ruidosa dentro de la banda crtica para obtener el umbral de enmascaramiento [MPEG92]. Un aspecto clave an no resuelto completamente en psicoacstica es la aditividad del enmascaramiento. Si existen varios elementos enmascaradores y los efectos de enmascaramiento particulares de cada uno de ellos se solapan, el enmascaramiento combinado es normalmente mayor que el esperado a partir de los clculos realizados con las energas de las seales [Beer92]. En la mayora de los casos, los modelos psicoacsticos que utilizan los codicadores de audio se limitan a calcular, a partir de la seal de entrada, el umbral de enmascaramiento simultneo en frecuencia. Este umbral de enmascaramiento se reere, en los codicadores por transformada, al ruido de cuanticacin que se puede inyectar en una frecuencia dada. Sin embargo, para el caso de los codicadores paramtricos, es recomendable calcular el umbral de enmascaramiento tanto para tonos como para ruido. Enmascaramiento temporal El efecto de enmascaramiento de una seal se extiende en el tiempo tanto a instantes previos a la propia generacin del elemento enmascarador (pre-masking o enmascaramiento hacia atrs ) como a instantes posteriores a su extincin (post-masking o enmascaramiento hacia delante ) como se puede observar en la gura 2.6. Este efecto hace posible que se puedan usar sistemas de anlisis/sntesis con una resolucin temporal limitada (por ejemplo, bancos de ltros con gran resolucin en frecuencia) para codicar audio digital de alta calidad. Los datos experimentales sugieren que el enmascaramiento hacia atrs presenta una gran variacin entre sujetos, as como tambin entre diferentes seales usadas como elementos enmascaradores y enmascarados. Las seales indeseadas (artefactos ) generadas por el codicador que se extienden en el tiempo de forma que preceden a una transicin de la seal en el dominio temporal (por ejemplo, un ataque brusco de percusin) pueden dar lugar a distorsiones audibles conocidas como pre-ecos . Dado que los codicadores basados en bancos de ltros siempre originan una dispersin temporal del error de cuanticacin (en la mayora de los casos superior a 4 ms), el pre-eco es un problema bastante comn en los sistemas de codicacin de audio. En la gura 2.7 podemos ver un claro ejemplo de distorsin de pre-eco. La forma tpica de minimizar el efecto de pre-eco es el uso de una segmentacin adaptativa del eje temporal cuando la seal cambia su contenido, es decir, que el tamao de trama de audio
20
70
60 Premasking Simultneo Postmasking
50
40
30
20
10 Seal enmascaradora 0 50 100 150 200 250 300 Tiempo (ms) 350 400 450 500
Figura 2.6: Ejemplo de pre-masking y post-masking
Figura 2.7: Ejemplo de pre-eco sea variable. Teniendo en cuenta los valores de enmascaramiento temporal se pueden establecer las fronteras entre tramas de forma que el efecto de pre-eco sea inaudible.
2.4.6.
Just Noticeable Dierence
Los codicadores paramtricos de audio deben de cuanticar, no las muestras de salida de un banco de ltros, sino todo un conjunto de parmetros dependientes de la seal. Como ejemplo, para el caso de la componente tonal de la seal de audio, los parmetros extrados son la amplitud, frecuencia y fase de cada tono y, en algunos casos, su duracin. Las componentes ruidosa y transitoria tienen sus propios parmetros. Un modelo de enmascaramiento clsico slo proporciona informacin de cmo cuanticar las amplitudes de tonos y ruido no teniendo una herramienta vlida para el resto de parmetros. Ante este problema se han realizado estudios de la capacidad de discriminacin o resolucin del odo ante una serie de parmetros tonales, ruidosos o transitorios. Esta resolucin se conoce por el nombre de Just Noticeable Dierence (JND) en la bibliografa.
2.5. ELEMENTOS BSICOS DE UN CODIFICADOR PERCEPTUAL DE AUDIO
21
Por ejemplo, para el caso de la frecuencia de un tono el valor de JND en frecuencia depende de la duracin del mismo: 0, 2 Bark para 10 ms y 0, 01 Bark para 500 ms [Zwicker90]. La resolucin del odo respecto a otros parmetros se puede encontrar en la bibliografa relacionada con psicoacstica [Zwicker90] [Moore97].
2.5.
2.5.1.
Elementos bsicos de un codicador perceptual de audio

Introduccin
El objetivo bsico en codicacin perceptual de audio digital de alta calidad consiste en ocultar la distorsin producida por la codicacin por debajo de la capacidad de enmascaramiento y resolucin propias del odo humano. Como la seal de audio es una seal no estacionaria, la primera aproximacin consiste en analizar la seal en diferentes segmentos temporales donde las caractersticas de la seal sean casi estacionarias. Entonces se estima el umbral de enmascaramiento simultneo en el dominio de la frecuencia, ocultando el efecto de la cuanticacin bajo este umbral. Sin embargo, este enfoque es diferente en un codicador paramtrico que descompone la seal en tonos, transitorios y ruido. En general, la codicacin perceptual de audio se plantea como un anlisis tiempo/frecuencia, habiendo dos enfoques principales: 1) el uso de un banco de ltros o transformada en codicacin por de forma de onda, y 2) el empleo de un modelo de la seal extrayendo los parmetros de este modelo en codicacin paramtrica de audio. Esto conduce a una estructura bsica de los codicadores perceptuales que es comn a prcticamente todos los sistemas actuales. La gura 2.8 muestra el diagrama de bloques bsico de un sistema de codicacin perceptual de audio, cuyos elementos constitutivos son:
Entrada de audio Anlisis tiempo/frecuencia Cuantificacin y codificacin Salida binaria Entramado
Modelo perceptual
Figura 2.8: Diagrama de bloques de un sistema de codicacin perceptual Anlisis tiempo/frecuencia. Modelo perceptual. Cuanticacin y codicacin. Entramado.
2.5.2.
Anlisis tiempo/frecuencia
Todos los codicadores de audio utilizan alguna tcnica de anlisis tiempo-frecuencia para extraer una serie de coecientes o parmetros a partir de la seal de audio que pueden ser cuanticados y codicados, atendiendo a alguna medida de distorsin perceptual. Como se ha visto
22
anteriormente, en funcin del tipo de anlisis tiempo/frecuencia, se clasican los codicadores de audio en dos categoras radicalmente diferentes. Codicadores por transformada La herramienta ms usada para realizar el anlisis tiempo/frecuencia hasta hace pocos aos era un banco de ltros, el cual descompone la seal en sub-bandas de frecuencia. Este banco de ltros juega un papel importante en la determinacin de irrelevancias cuando se usa conjuntamente con un modelo perceptual. La gura 2.9 muestra el diagrama de bloques bsico de un banco de ltros de anlisis/sntesis de n canales con un factor de diezmado de k .
Banco de filtros de anlisis H0(f) H1(f) H2(f) k k k

Procesamiento
Banco de filtros de sntesis k k k G0(f) G1(f) G2(f)
Procesamiento
Procesamiento
...
Hn-2(f) Hn-1(f) k k
Procesamiento
...
k Gn-2(f) Gn-1(f)
Procesamiento
Figura 2.9: Diagrama de bloques de un banco de ltros de anlisis/sntesis El diseo del banco de ltros debe perseguir el objetivo general de representar la seal de entrada con el menor nmero de bits posible. Deben tenerse en cuenta varios aspectos de diseo: 1. La descomposicin debe ser invertible, es decir, el banco de ltros debe ser de reconstruccin perfecta o casi perfecta. Esta propiedad es muy importante para asegurar que la distorsin en la seal reconstruida es debida al proceso de cuanticacin. 2. Tanto los ltros de anlisis como los de sntesis deben ser muy selectivos en frecuencia, con objeto de que la aplicacin de la informacin psico-acstica sea lo ms simple posible. 3. El nmero de componentes espectrales por unidad de tiempo debe ser lo ms bajo posible. Para ello se suelen usar sistemas con muestreo crtico, donde el nmero de componentes espectrales es igual al nmero de muestras de la seal en el dominio temporal. 4. Se suele decir que el ancho de banda de los ltros del banco debe ser menor o igual que el ancho de la banda crtica ms estrecha, porque as se facilita el control de la percepcin del ruido de cuanticacin. Esta aseveracin no es rigurosamente cierta, porque si la descomposicin subbandas se adapta a la descomposicin en bandas crticas, slo es preciso asegurar que el ancho de cada subbanda sea menor o igual que el ancho de la banda crtica ms prxima.
23
5. Adems, el banco de ltros no debe dispersar el ruido de cuanticacin ms all de una ventana temporal lo sucientemente amplia como para asegurar que el umbral de enmascaramiento permanece invariable y de esta forma evitar los problemas de pre-eco. 6. El coste computacional es otro factor importante. Los ltros IIR se implementan con un bajo coste computacional y, adems, proporcionan alta selectividad, pero desafortunadamente es difcil implementar bancos de ltros de reconstruccin perfecta usando ltros IIR. 7. Bancos de ltros estticos o dinmicos. Los errores de cuanticacin de las componentes espectrales pueden manifestarse en la seal de salida, extendindose en el tiempo sobre la longitud de la ventana de sntesis, dando lugar a distorsiones audibles (pre-ecos). Este efecto indeseable puede reducirse si el banco de ltros no es esttico, sino que conmuta entre distintas resoluciones tiempo/frecuencia para los diferentes segmentos de audio. Entre los tipos de bancos de ltros que se han venido utilizando en los sistemas de codicacin perceptual de audio, podemos citar los siguientes: 1. Bancos de ltros QMF. 2. Bancos de ltros que implementan descomposiciones wavelet. 3. Bancos de ltros polifsicos. Se trata de bancos de ltros con ancho de banda uniforme que combinan la exibilidad de diseo de los bancos QMF con una baja complejidad computacional. La mayora de los diseos actuales se basan en [Rothweiler83]. Su principal inconveniente es que no permiten obtener descomposiciones no uniformes en frecuencia (todas las subbandas tienen la misma anchura). 4. Bancos de ltros basados en cancelacin del solapamiento temporal (TDAC). Dentro de ellos, destaca la Transformada Discreta del Coseno Modicada (MDCT) [Princen87], que se puede interpretar como el enfoque dual de los bancos QMF con cancelacin del solapamiento frecuencial. Combina muestreo crtico, buena resolucin en frecuencia y alta eciencia computacional. Normalmente, se emplean realizaciones que van desde 128 a 2.048 bandas igualmente espaciadas. La transformada MDCT tambin es conocida como transformada solapada modulada (MLT) [Malvar90]. 5. Bancos de ltros hbridos. Son aquellos que constan de una sucesin de diferentes tipos de bancos. Se propusieron inicialmente [Brandenburg90] para conseguir un sistema de anlisis/sntesis que combinara la posibilidad de obtener diferentes resoluciones en frecuencia a distintas frecuencias con estructuras QMF en rbol y la eciencia computacional de los algoritmos del tipo FFT. Sin embargo, en paralelo con el perfeccionamiento y estandarizacin de la codicacin que emplea bancos de ltros para analizar la seal, han surgido otros codicadores optimizados para trabajar a bajo rgimen binario y que utilizan otras herramientas para el anlisis tiempo/frecuencia.
24
Codicadores paramtricos En la compresin de diferentes fuentes de informacin se buscan sistemas que incluyan un modelo de generacin de la fuente, con objeto de reducir la cantidad de datos necesaria para enviar la seal de forma dedigna. Siguiendo este principio, en el caso de la seal de voz, existen codicadores que alcanzan una extraordinaria tasa de compresin. Es importante resear que en este tipo de codicadores de voz no se representa la forma de onda, sino la forma de produccin de la seal. Estos valores de tasa de compresin no son alcanzables cuando se trabaja con codicadores por transformada para seales de audio. La existencia de este modelo de produccin de la seal de voz ha permitido el desarrollo de numerosas aplicaciones, no slo de codicacin, sino de reconocimiento de voz y de locutores, basndose casi siempre en la medida de las diferencias entre los parmetros del modelo de produccin o en parmetros alternativos obtenidos a partir de ellos. Desgraciadamente, en el caso de la seal de audio, este modelo de produccin no es adecuado, muy al contrario, no es posible establecer un modelo de generacin basado en principios fsicos, como en el caso de la seal de voz, debido a la diferente naturaleza de las seales que forman el audio en general. Como consecuencia, las tcnicas de codicacin estandarizadas, por muy sosticadas que sean, se engloban dentro de los codicadores por de forma de onda. Sin embargo, es posible extraer parmetros de la seal de audio dividiendo la seal en sus componentes: tonos, transitorios y ruido. Utilizando herramientas que obtengan parmetros de estas componentes es posible la obtencin de un modelo de seal adaptativo para el audio. El desarrollo de este modelo para las seales de audio musicales permite no slo conseguir altas tasas de compresin en aplicaciones de codicacin, sino que es el punto de partida en aplicaciones de clasicacin de seales, descripcin de la informacin multimedia, e indexado, que sern ampliamente demandadas en un futuro inmediato dentro del sector multimedia. As pues, en un codicador paramtrico el anlisis tiempo/frecuencia se realiza extrayendo de la seal los parmetros correspondientes a cada una de las componentes de seal: Tonos La extraccin tonal se conoce con el nombre de modelo sinusoidal y la forma ms sencilla de implementarla es la deteccin de picos espectrales en el dominio de Fourier. Esta parte de la seal representa las caractersticas de la seal de audio que cambian lentamente con el tiempo. Transitorios Se modela en esta componente los breves incrementos de energa que se producen en las seales de audio, como golpes de castauelas o batera. Los algoritmos utilizados en la bibliografa son muy diversos para el tratamiento de esta componente. Ruido En los sistemas actuales, el residuo de seal que no se puede modelar como tonos o transitorios se trata como ruido. En cualquier caso, esta componente representa la parte estocstica de la seal de audio. Es reseable que algunos instrumentos, como la auta, generan un ujo de seal ruidosa de forma adicional a la seal tonal. La gura 2.10 muestra la descomposicin de un golpe de batera en sus componentes: tonos, transitorios y ruido. En este ejemplo la componente transitoria es importante, algo que ocurre con poca frecuencia en la seal de audio. As, durante la mayor parte de la duracin de la seal basta con descomponerla en tonos y ruido. Debido a que la hiptesis de la investigacin desarrollada
25
se centra en el empleo de codicacin paramtrica de audio, en el siguiente captulo se realizar un estudio profundo del estado del arte en esta materia.
(a) SEAL DE AUDIO (b) TONOS
1 amplitud normalizada
0.5
0.5
0.5
0.5
500
1000 muestras
1500
2000
500
1000 muestras (d) RUIDO
1500
2000
(c) TRANSITORIOS
0.5
0.5
0.5
0.5
500
1000 muestras
1500
2000
500
1000 muestras
1500
2000
Figura 2.10: Descomposicin de un golpe de batera en sus componentes.
2.5.3.
Modelos perceptuales
La funcin principal del modelo psico-acstico en un sistema de codicacin perceptual de audio es proporcionar estimaciones precisas del mximo ruido permitido (umbrales de enmascaramiento), de acuerdo con la resolucin tiempo/frecuencia del sistema de codicacin. En muchas ocasiones, como por ejemplo en el estndar MPEG para audio, simplemente se dene el formato de transmisin, permitiendo cambios y mejoras en el modelo perceptual. Debido a las diferentes capacidades de enmascaramiento de las seales tonales y del ruido [Scharf70, Hell72], un clculo importante dentro de todo modelo psico-acstico o perceptual es el del ndice de tonalidad . La forma en que se determine dicho ndice incidir de forma fundamental en la ecacia del modelo perceptual. Entre las diversas formas de clculo del ndice de tonalidad asociado a las distintas componentes espectrales de una seal, merece la pena citar el algoritmo propuesto por Brandenburg [Brandenburg90], por constituir la base de uno de los mtodos propuestos en el estndar MPEG para audio. Brandenburg propone el uso de un simple predictor polinmico para calcular el ndice de tonalidad. El clculo se basa en la utilizacin de dos segmentos anteriores, localizados en t 1 y t 2, para predecir el mdulo r(t, ) y fase (t, ) de cada lnea frecuencial del segmento localizado en t.
26
CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO de r y se calculan de la siguiente forma: Los valores de prediccin r y r (t, ) = r(t 1, ) + (r(t 1, ) r(t 2, )) t, ) = (t 1, ) + ((t 1, ) (t 2, )) ( (2.5) (2.6)
La distancia eucldea ponderada entre los valores reales y los predecidos dene la impredicibilidad c(t, ), algunas veces denominada medida de caos : c(t, ) = t, )], [r(t, ), (t, )]} dist{[ r(t, ), ( r(t, ) + |r (t, )| (2.7)
Si la componente de pulsacin de la seal es muy tonal, la prediccin ser acertada y c(t, ) tomar un valor muy pequeo. Por el contrario, si la seal es de tipo ruidoso, c(t, ) tomar valores hasta 1 con una media de 0,5. Por tanto, la medida de caos puede ser limitada al rango 0,05 y 0,5, donde para 0,05 la seal es considerada completamente tonal y para 0,5 completamente ruidosa: cl (t, ) = max{0, 05; min[0, 5, c(t, )]} (2.8)
La medida de caos c(t, ) se convierte en ndice de tonalidad v (t, ) mediante una transformacin no lineal: v (t, ) = 0, 43 log10 (cl (t, )) 0, 299 (2.9)
El ndice de tonalidad v (t, ) nos da el resultado nal de la estimacin de tonalidad, que puede ser aplicada a un modelo perceptual, como por ejemplo el modelo perceptual 2 del estndar MPEG-1, el cual es uno de los modelos ms ampliamente utilizados en los codicadores perceptuales actuales. Se puede encontrar una breve descripcin del mismo en [Kahrs98], tal y como se extrae del anexo informativo del estndar MPEG-1 audio [MPEG92]. Sin embargo, en los ltimos aos se ha desarrollado algn modelo de enmascaramiento que no utiliza un ndice de tonalidad propiamente dicho, aprovechando los ltimos avances en psicoacstica. As, en [Par02] se utiliza la propiedad del sistema auditivo humano de integrar la distorsin presente en un conjunto de ltros auditivos (o bandas crticas). En este sentido, el ndice de tonalidad deja de tener sentido, pues una seal ruidosa genera ms distorsin en el odo porque abarca mayor nmero de ltros auditivos que una seal tonal que slo afectar a alguno de ellos. Bsicamente, el esquema del modelo de enmascaramiento presentado en [Par02] se dibuja en la gura 2.11, donde se incluye el ruido interno del odo que es el que limita la sensibilidad de las seales ms dbiles o umbral de silencio.
2.5.4.
Cuanticacin y codicacin
La etapa de cuanticacin y de codicacin juega un papel muy importante en el sistema de codicacin perceptual. Se pueden considerar un gran nmero de opciones de diseo, tanto para la cuanticacin como para la posterior codicacin de las muestras o parmetros cuanticados: Alternativas de cuanticacin:
2.6. ESTNDARES EN CODIFICACIN DE AUDIO

Membrana basilar Entrada de audio Bandas Respuesta del odo externo y medio

27
Banco de filtros auditivos
Ruido interno
Figura 2.11: Esquema de un modelo de enmascaramiento sin ndice de tonalidad. 1. Cuanticacin escalar uniforme. 2. Cuanticacin escalar no uniforme. Se aplica normalmente para reducir la potencia de ruido de cuanticacin y eliminar la correlacin entre valores cuanticados cuando el nmero de escalones de cuanticacin es reducido. El cuanticador ptimo en este sentido es el Max-Lloyd. 3. Cuanticacin vectorial. En este caso no se cuantican valores individuales, sino agrupaciones de stos. Se usa en la mayora de los esquemas actuales de codicacin de voz e imagen, pero ha sido poco utilizada en codicacin de audio. Un ejemplo de aplicacin con xito de cuanticacin vectorial es el sistema denominado TWIN-VQ [Iwakami95], propuesto como parte del estndar MPEG-4 audio [MPEG97b]. Alternativas de codicacin: Los valores cuanticados se almacenan y/o transmiten, bien directamente mediante una estrategia de asignacin de bits (incluyendo bit packing ), o bien como palabras cdigo resultantes de una etapa de codicacin entrpica. Estructuras de control para cuanticacin y codicacin: 1. Asignacin de bits (estructura directa). En este caso, un algoritmo de reparto decide cuntos bits se asignan a cada muestra o parmetro, atendiendo bien a parmetros estadsticos de los datos o bien a un modelo perceptual. Este proceso se realiza antes de que se efecte la cuanticacin. 2. Asignacin de ruido (estructura indirecta). Esta es una estrategia slo aplicable a codicadores por transformada. Las muestras se cuantican mediante modicaciones del tamao del escaln de cuanticacin atendiendo a un modelo perceptual. El nmero de bits asignados a cada valor no se conoce hasta que el proceso de asignacin de ruido se ha completado.
2.6.
Estndares en codicacin de audio
En esta seccin se presenta una revisin de algunos esquemas de codicacin de audio que se han propuesto a lo largo de los aos, centrndose en los estndares propuestos por MPEG
Suma
Bi
Distorsin intra-canal
Di
Mscara
28
(Moving Pictures Experts Group) desde su creacin en 1988 hasta la fecha. Existen otros sistemas comerciales de codicacin de audio, que han tenido cierta importancia, pero no se han incluido en esta revisin, como por ejemplo AC-2 y AC-3 [Todd94], competidores directos, respectivamente, de las capas 2 y 3 del estndar MPEG-1 audio. Se puede encontrar una revisin bastante completa de los sucesivos estndares MPEG audio en [Brandenburg97, Painter00]. Hasta la fecha han sido cuatro los estndares internacionales de codicacin de audio desarrollados por el grupo MPEG: MPEG-1 audio, MPEG-2 audio, MPEG-2 AAC y MPEG-4 audio.
2.6.1.
MPEG-1 Audio - capas 1 y 2
El estndar MPEG-1 audio fue propuesto en 1992 [MPEG92]. Se dise como respuesta a la necesidad de mltiples aplicaciones: almacenamiento de audio digital en cintas magnticas, radio digital, transmisin de audio mediante RDSI, etc. Se ide un sistema de codicacin estructurado en tres modos de funcionamiento, crecientes en complejidad, a los que se llam capas. La capa 1 fue inicialmente optimizada para un rgimen binario de 192 Kbits/s por canal (se emple en el Digital Compact Cassette, DCC ), la capa 2 para un rgimen binario de 128 Kbits/s por canal y la capa 3 para 64 Kbits/s por canal. Se permiten tres frecuencias de muestreo de 32 kHz, 44,1 kHz y 48 kHz. Las caractersticas fundamentales de las capas 1 y 2 son las siguientes: 1. Para agrupar los datos de entrada en bloques se usa un algoritmo de segmentacion ja. 2. Se usa un banco de ltros polifsico que convierte la entrada de audio digital en 32 subbandas. Utiliza un ltro prototipo de 511 coecientes. Para cada subbanda de salida es preciso transmitir la siguiente informacin: Asignacin de bits. Determina el nmero de bits empleados para codicar las muestras de cada subbanda. En la capa 1 se usan 4 bits, mientras que en la capa 2 existen diferentes patrones para enviar dicha informacin, dependiendo del rgimen binario deseado y de la frecuencia de muestreo. Factores de escala. El clculo de los factores de escala se realiza cada 12 muestras de subbanda. Slo se transmiten los factores de escala correspondientes a bloques de muestras con asignacin binaria distinta de cero. Muestras en la subbanda. Las muestras de cada subbanda se transmiten usando la longitud de palabra denida por el algoritmo de asignacin de bits. Se emplea cuanticacin uniforme y cuanticadores en huella. 3. La asignacin de bits se realiza a partir de los resultados proporcionados por un modelo psicoacstico. El cuanticador utilizado est basado en compansin de bloques y se aade, adems, un codicador de trama. A diferencia de la capa 1, la capa 2 del estndar MPEG-1 usa una longitud de trama de 36 muestras. Mientras la informacin de asignacin de bits es vlida para toda la trama, los factores de escala se actualizan cada 12 muestras, como ocurre en la capa 1. En la capa 2 se utilizan 2
29
bits por subbanda y trama para determinar si se transmite uno, dos o tres factores de escala por trama. Mientras que en la capa 1 las posibles asignaciones de bits son 0 y de 2 a 15 bits, en la capa 2 se permiten de forma adicional cuanticadores de 3, 5, 7 y 9 niveles de cuanticacin, lo que conlleva una considerable disminucin del rgimen binario.
2.6.2.
MPEG-1 Audio - capa 3
La capa 3 combina algunas de las caractersticas de la capa 2 con una mayor eciencia en la codicacin, que se consigue gracias a una mayor resolucin en frecuencia y a la utilizacin de codicacin Human esttica, tal y como se propone en el sistema ASPEC [Brandenburg91]. La gura 2.12 muestra el diagrama de bloques correspondiente a la capa 3 del sistema MPEG-1 audio.
Figura 2.12: Diagrama de bloques del esquema de codicacin MPEG-1 audio capa 3 Entre las novedades incorporadas en la capa 3 destacan: 1. Banco de ltros hbrido conmutado, que admite tres posibles variantes correspondientes a resoluciones en frecuencia de 576, 216 y 192 lneas. 2. Cuanticacin no uniforme. 3. Control del ruido de cuanticacin mediante anlisis por sntesis. 4. Codicacin Human de los valores cuanticados.
2.6.3.
MPEG-2 Audio
El estndar MPEG-2 audio (ISO/IEC 13818-3) presenta dos grandes avances en relacin al estndar MPEG-1 audio (ISO/IEC 11172-3): Codicacin multicanal compatible hacia atrs El estndar internacional MPEG-2 audio contiene la denicin de un sistema de codicacin multicanal compatible hacia atrs, denominado MPEG-2 BC. Los canales L y R del estndar
30
MPEG-1 son sustituidos por las seales LC y RC , denidas por las expresiones (2.10) y (2.11), y codicadas mediante un sistema MPEG-1 audio. 1 [L + C/ 2 + a LS ] 1 + 1/ 2 + a 1 [R + C/ 2 + a RS ] RC = 1 + 1/ 2 + a LC = (2.10) (2.11)
1 1 El coeciente a puede tomar alguno de los siguientes valores: , 1/2, 2 , 0. En consecuencia, 2 2 un decodicador MPEG-1 audio puede reproducir con buena calidad una versin downmix partiendo de una seal multicanal. En MPEG-2 BC el formato de trama bsico es idntico al formato de MPEG-1. Los canales adicionales (C, LS y RS , para el caso de 5 canales) se transmiten en el campo de datos auxiliares de la estructura de trama MPEG-1. En la gura 2.13 puede apreciarse cmo se realiza la transmisin de la informacin multicanal MPEG-2 dentro de la estructura de trama MPEG-1.
Cabecera MPEG-1
Formato de la trama binaria MPEG-1/2
Datos MPEG-1 Datos auxiliares MPEG-1
Cabecera MPEG-2
Extensin MPEG-2
Datos MPEG-2 Datos auxiliares MPEG-2
Figura 2.13: Estructura de trama MPEG-1 para la transmisin de informacin multicanal MPEG-2 Otra novedad del estndar MPEG-2 audio es la adicin de nuevos modos de funcionamiento que emplean frecuencias de muestreo ms bajas (por debajo de 32 kHz). Estos modos son tiles para las siguientes aplicaciones: transmisin de voz de banda ancha y audio de calidad media a regmenes binarios comprendidos entre 16 y 64 Kbits/s por canal, transmisin de voz en aplicaciones de comentarista, sistemas de audio por Internet, o cualquier otra aplicacin donde la cantidad bits a repartir sea un recurso muy escaso. MPEG-2 Advanced Audio Coder (MPEG-2 AAC) Est recogido en la norma ISO/IEC 13818-7. Se trata de un nuevo estndar de codicacin de audio que no es compatible hacia atrs, adecuado para conguraciones exibles de canal y que introduce servicios estreo y multicanal. Se organiza en un conjunto de herramientas de codicacin que se pueden seleccionar dependiendo de la CPU disponible, de los recursos del canal y de la calidad deseada, de entre tres perles de complejidad. Cada uno de ellos recomienda una combinacin de herramientas. Las herramientas principales son: 1. Banco de ltros basado en la transformada discreta de coseno modicada (MDCT). La resolucin temporal depende de la seal a analizar, oscilando entre 2.048 muestras para

Seal de entrada Control de ganancia Modelo perceptual Banco de filtros
31
TNS
Intensidad/ Acoplamiento
MUX
Prediccin
Seal codificada
M/S
Factores de escala Proceso de control Tasa / Distorsin
Cuantificador
Codificacin sin prdidas
Figura 2.14: Diagrama de bloques del estndar de codicacin MPEG-2 AAC seales estacionarias y 256 muestras durante los transitorios. Se puede elegir entre dos formas de ventana alternativas: una ventana sinusoidal cuando sea ms conveniente la selectividad que la atenuacin en la banda eliminada (seales con estructura armnica densa, es decir, con armnicos prximos en frecuencia) y una ventana KBD cuando se requiera una alta atenuacin en la banda eliminada. 2. Conformacin temporal del ruido (Time Noise Shaping, TNS). Controla la forma temporal del ruido de cuanticacin dentro de cada ventana de la transformada para minimizar la distorsin de pre-eco. 3. Prediccin, para disminuir la redundancia en seales estacionarias. 4. Factores de escala. El espectro se divide en varios grupos de coecientes espectrales (subbandas) que comparten un parmetro comn denominado factor de escala. Un factor de escala representa un valor de ganancia que se usa para modicar la amplitud de todos los coecientes espectrales contenidos en la subbanda correspondiente. Este proceso conlleva una conformacin del ruido de cuanticacin, de acuerdo con los umbrales de enmascaramiento
32
CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO estimados por el modelo perceptual. 5. Cuanticacin. Se usa cuanticacin no uniforme (como en la capa 3 del estndar MPEG-1 audio). 6. Codicacin sin prdidas. Se aplica codicacin Human esttica para el espectro cuanticado, los factores de escala diferenciales y la informacin direccional. Se emplean un total de 12 tablas Human estticas para codicar agrupaciones de dos o cuatro valores espectrales. 7. Se emplea un modelo psicoacstico similar al modelo 2 del estndar ISO/IEC 11172-3.
2.6.4.
MPEG-4 Audio
El estndar MPEG-4, cuya designacin formal es ISO/IEC 14496 [MPEG98], no es slo un estndar de codicacin de audio sino ms bien un conjunto de herramientas, basadas en descripciones estructuradas, que cubren un amplio conjunto de aplicaciones en audio, voz, audio sinttico, texto-a-voz, etc. El estndar incluye, adems, una serie de herramientas asociadas como son: escalabilidad , procesamiento de efectos especiales, manipulaciones en los sonidos, y composiciones 3-D, entre otras. Como consecuencia, MPEG-4 proporciona los elementos tecnolgicos que hacen posible la integracin de los paradigmas de produccin, distribucin y acceso al contenido en los campos de televisin digital, aplicaciones grcas interactivas y multimedia interactivo, adems de satisfacer las necesidades de autores, proveedores de servicios de red y usuarios nales. Como todos los estndares MPEG anteriores, MPEG-4 se subdivide en diferentes partes siendo una de ellas la codicacin de audio. En esta parte, MPEG-4 incluye una gran variedad de aplicaciones que van desde la codicacin inteligible hasta la codicacin de alta calidad multicanal, o desde los sonidos naturales a los sintticos [Koenen99]. As pues, MPEG-4 audio estandariza la codicacin de sonidos naturales a regmenes binarios que van desde 2 hasta 64 Kbits/s, incluso cuando se permite codicacin con rgimen variable, es posible trabajar con tasas binarias inferiores a 2 Kbits/s. A continuacin, se describen brevemente las herramientas y perles que proporciona el estndar MPEG-4. Voz Para la codicacin de voz, MPEG-4 proporciona dos codicadores HVXC (Harmonic Vector eXcitation Coding) y CELP (Code Excited Linear Predictive) que funcionan a distinto rango de rgimen binario y calidad: La codicacin HVXC para un rango recomendado de 1,2 a 4 Kbits/s por canal con una frecuencia de muestreo de 8 KHz. Se trata de un codicador paramtrico que descompone la seal en tonos con relacin armnica, componentes tonales individuales y ruido; y que, debido a esta organizacin, permite un cambio de pitch y/o de velocidad directo en el decodicador. Notar que, para conseguir bajar por debajo de 2 Kbits/s es necesario funcionar en rgimen variable. La codicacin CELP para un rango recomendado de 4 a 24 Kbits/s por canal. Admite dos frecuencias de muestreo de 8 y 16 kHz para voz de banda estrecha y de banda ancha, respectivamente.
33
Voz sinttica MPEG-4 incorpora un interfaz de texto-a-voz TTS (Text-To-Speech) que soporta regmenes binarios en el rango de 200 bits/s hasta 1,2 Kbits/s, permitiendo como entrada texto o texto con parmetros prosdicos (valor del pitch, duracin del fonema, etc.) para generar voz sinttica de calidad inteligible. El algoritmo para obtener la voz sinttica no est especicado en el estndar, slo se dene el interfaz de entrada. Adems se incluyen las siguientes funcionalidades [Koenen02]: Sntesis de audio usando los parmetros prosdicos de la voz original. Funcionalidades como pausa, espera, salto hacia delante o hacia atrs. Soporte para lenguajes internacionales y dialectos. Smbolos internacionales para fonemas. Especicacin de la edad, gnero y velocidad de habla del hablante. Especicacin de parmetros asociados a animacin facial FAP (Facial Animation Parameter). Audio sinttico En relacin a la generacin de sonidos sintticos, MPEG-4 audio dene decodicadores para sintetizar audio basados en varias clases de entradas estructuradas. Estos decodicadores hacen uso de un lenguaje de sntesis especial llamado SAOL (Structured Audio Orchestra Language) para generar msica sinttica. MPEG-4 no estandariza un nico mtodo de sntesis musical, sino que describe varios mtodos de sntesis. Cualquier mtodo actual o futuro de sntesis puede ser descrito en SAOL. Audio MPEG-4 utiliza AAC para la codicacin de audio de banda ancha. Sin embargo, se han denido nuevas funcionalidades con el objetivo de conseguir una seal codicada de alta calidad a muy bajo rgimen binario, por debajo de los 64 Kbits/s por canal del diseo original de AAC. El resultado de la inclusin de estas nuevas herramientas permite una nueva propiedad en la codicacin de audio, la escalabilidad, es decir, la capacidad de producir representaciones de la seal codicada con un rgimen binario escalable. Es importante resear, que esto signica que es posible decodicar subconjuntos de los datos codicados, o eliminar partes del mismo, durante la transmisin sin necesidad de volver a codicar la seal. As, dependiendo de las caractersticas particulares de la conexin, un terminal puede recibir slo subconjuntos de los datos de entrada y ser capaz de decodicar una seal de buena calidad. Las nuevas tcnicas incluidas en MPEG-4 que permiten escalabilidad son: Long Term Predictor (LTP): Esta herramienta se ha incluido para evitar la alta complejidad computacional del predictor denido originalmente en MPEG-2 AAC, aunque consigue una ganancia de codicacin similar. Como en un codicador de voz, el predictor LTP se implementa en el dominio del tiempo antes del banco de ltros basados en la transformada de coseno MDCT. La seal resultado del predictor se resta a la original en el dominio de la frecuencia permitiendo de esta forma la aplicacin de esta herramienta slo en las bandas seleccionadas. Perceptual Noise Substitution (PNS): Esta herramienta realiza la sustitucin de algunas bandas de frecuencia por ruido aleatorio. La tcnica se basa en la propiedad
34
CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO del odo por la que la percepcin subjetiva de una seal de naturaleza ruidosa depende de la envolvente de energa temporal y espectral, no de la verdadera forma de onda, lo que permite una reduccin signicativa del rgimen binario en las bandas en las que se aplique. El resultado es la aplicacin de un modelo paramtrico de ruido [Herre98], que en lugar de cuanticar las todas muestras de la banda en cuestin, slo procesa aquellos coecientes que denen la envolvente espectral (y temporal). El funcionamiento resumido es el siguiente: si en una banda de frecuencias se detecta una seal ruidosa, se estiman los coecientes para modelar la envolvente, tpicamente un ltro todo polos, y se envan al decodicador los coecientes y un indicador para informar que se va a realizar la sustitucin. En el decodicador se genera ruido aleatorio que se ltra mediante los coecientes recibidos para obtener la envolvente deseada. Twin VQ: Durante el proceso de estandarizacin se recibieron dos codicadores de audio que superaban al resto de propuestas, ambos basados en la transformada de coseno MDCT. Uno de ellos era AAC, que tena mejores resultados subjetivos a alto rgimen binario, mientras que el otro codicador era el conocido como Twin VQ que obtena mejores resultados a bajo rgimen binario (por debajo de 16 Kbits/s). Sin embargo, al utilizar la misma transformada, la ventaja de Twin VQ radica en el empleo de un esquema de cuanticacin y codicacin alternativo, descrito en [Iwakami95], y basado en algoritmos derivados de la cuanticacin vectorial. Finalmente, se ha incluido en el estndar esta tcnica como una herramienta a utilizar cuando el rgimen binario requerido est por debajo de 16 Kbits/s.
Como resultado de la inclusin en el estndar de esta serie de objetos, se puede representar la seal de voz o audio de forma eciente eligiendo adecuadamente las herramientas a utilizar en funcin de la aplicacin, como se destaca en la gura 2.15. Adicionalmente, para permitir esta utilizacin eciente, el estndar dene subconjuntos de herramientas que se agrupan para utilizarlas en aplicaciones concretas. Estas agrupaciones se conocen como proles y se utilizan para delimitar el conjunto de herramientas a integrar en un decodicador concreto. En la versin 1 del estndar se denen las siguientes: Speech : se incluyen el codicador paramtrico de voz HVXC, el codicador de voz CELP y el interfaz de voz sinttica (de texto a voz) TTS. Scalable : se aplica para codicacin escalable de voz y msica en redes de telecomunicacin, e incluye el prole anterior, ms todas las herramientas de codicacin de audio natural. Synthesis : es un interfaz para generar sonidos y voz sintticos a muy bajo rgimen binario, e incluye todas las herramientas de voz y audio sinttico denidas en el estndar. Main : contienen todas las herramientas denidas en el estndar. Para nalizar, MPEG-4, en su versin 1, ofrece una serie de funcionalidades en el decodicador entre las que se pueden destacar las siguientes: Escalabilidad de rgimen binario, de ancho de banda y de complejidad en el codicador y decodicador.

Com. satlite Telefona celular Internet Rgimen binario (kbps) 2 4 6 8 10 12 14 16 24 32 48 64 ISDN
35
Codificador escalable TTS Codificacin de voz Codificacin de audio

4 kHz 8 kHz Ancho de banda de audio 20 kHz
Figura 2.15: Aplicaciones del estndar MPEG-4 audio Efectos de audio: mezcla, reverberacin, etc. Cambio de velocidad. Permite cambiar la escala temporal sin alterar el pitch durante el proceso de decodicacin. Cambio de pitch. Permite cambiar el pitch sin alterar la escala temporal durante la codicacin o decodicacin. Se aplica slo a mtodos de codicacin estructurados y paramtricos. En 1999 el grupo de estandarizacin MPEG aprob la versin 2 de MPEG-4, concebida como una extensin y, por tanto, compatible hacia atrs con la versin 1. En esta extensin se incluyen nuevas herramientas, no para reemplazar a las anteriores, sino para aadir nuevas funcionalidades [Purnhagen99b] como: Nuevos mtodos de proteccin contra errores para canales de alta probabilidad de error. Por ejemplo, reordenacin de las palabras cdigo de Human para AAC. Codicacin de audio de bajo retardo, pensada para comunicaciones bidireccionales en tiempo real. Escalabilidad granular del rgimen binario. Codicacin paramtrica de audio, lo que permite modicar la escala temporal y el pitch durante la decodicacin sin la necesidad de una unidad de procesamiento de efectos. Este codicador paramtrico se conoce como HILN (Harmonic and Individual Lines plus Noise) [Purnhagen00] y divide la seal de audio en tres partes como se observa en la gura 2.16. Dos partes se extraen de la componente tonal del audio, una para los tonos con relacin armnica y otra para los que no poseen esta propiedad, mientras que la parte restante modela el comportamiento ruidoso de la seal de audio. Por tanto, no hay un tratamiento adecuado para los transitorios en HILN, por lo que no se puede hablar de un codicador de alta calidad.
36
Perception Model Parameter Estimation Harmonic Components Model Based Decomposition Sinusoidal Components Noise Components Parameter Coding Quant
selection of relevant components
Quant
Mux Bit Stream
Audio Signal
Quant
Figura 2.16: Diagrama de bloques del codicador paramtrico HILN [Purnhagen00]. Parametrizacin de las propiedades acsticas de una escena MPEG-4, lo que permite la presentacin de sonido 3D mejorado, modelado acstico del recinto, etc. En esta versin 2 de MPEG-4 se aaden adems una serie de proles a la lista ya denida en la versin 1. Los nuevos subconjuntos de herramientas son: High quality : para codicacin de seales con alta calidad; incluye el codicador de voz CELP y para audio AAC de baja complejidad con LTP. Low delay : para codicacin de bajo retardo; incluye todas las herramientas disponibles en el estndar con estas caractersticas, como son los codicadores de voz HVXC y CELP, y el codicador de bajo retardo de AAC de la versin 2 de MPEG-4. Natural audio : contiene todas las herramientas disponibles para codicacin de audio natural sin incluir las de audio sinttico. Mobile audio internetworking : pensado para codicacin de audio a bajo rgimen binario; incluye AAC con herramientas asociadas como, por ejemplo, bajo retardo o TwinVQ. En 2001 el grupo MPEG hizo una llamada a propuestas [MPEG01] con el objeto de encontrar nuevos desarrollos tecnolgicos que permitieran mejoras en el estndar. El resultado ha sido la adopcin en MPEG-4 de nuevas herramientas que extienden el estndar, con lo que surge MPEG-4 versin 3, o MPEG-4 extensin 1 como tambin se conoce a este conjunto de nuevas funcionalidades. Las herramientas incluidas ms destacadas son: Extensin del ancho de banda. La replicacin de bandas espectrales (Spectral Band Replication, SBR) fue propuesta por la empresa Coding Technologies y adoptada por el estndar MPEG-4 [Dietz03]. Esta tcnica asume que las bandas espectrales de alta frecuencia perdidas en una seal de audio por efecto del ltrado se pueden recuperar a partir de la seal paso bajo y una pequea cantidad adicional de informacin de control. Una descripcin ms detallada de la tecnologa SBR se puede encontrar en [Ziegler02] o [Dietz02].
37
Codicacin paramtrica de audio de alta calidad. La extensin al codicador paramtrico HILN de la versin anterior se centra en la codicacin de audio paramtrica de alta calidad. El objetivo inicial de la llamada a propuestas era mejorar la calidad del AAC a 24 Kbits/s para todas las seales de prueba. El codicador paramtrico adoptado [MPEG03], propuesto por Philips [Schuijers03] [Kerkhof02] y conocido como PPC (Philips Parametric Coder) est optimizado para la codicacin a 24 Kbits/s en seales estreo, permitiendo en el codicador el cambio de pitch y de velocidad de reproduccin de forma directa. En este codicador, a diferencia del codicador HILN de la anterior versin de MPEG-4, se integra un modelado especco de los transitorios, algo indispensable para obtener alta calidad para todo el conjunto de seales de prueba. Como se observa en la gura 2.17 la extensin a estreo del codicador en mono tambin se hace de forma paramtrica y aade un rgimen binario de 0,5 a 7 Kbits/s sobre el codicador en mono.
Parametric encoder
Perceptual quantization Transients Mono Sinusoids
PCM stereo input
Noise Stereo parameters (0.5 - 7 kbit/s)
Figura 2.17: Diagrama de bloques del codicador paramtrico PPC [Schuijers03].
Efficient parameterization into 4 objects;
Codicacin de audio sin prdidas. Esta nueva herramienta, a diferencia de las dos anteriores centradas en la reduccin del rgimen binario, se orienta hacia las aplicaciones de alta calidad. Este codicador sin prdidas de MPEG-4 (conocido como MPEG-4 ALS, Audio Lossless Coding) tiene las siguientes caractersticas: 1. Recuperacin sin prdidas de seales de audio PCM con frecuencias de muestreo comprendidas desde 44,1 KHz hasta 192 KHz, y un nmero de bits por muestra de 16, 20 y 24 bits. 2. Mejora en eciencia de compresin con respecto a cualquier algoritmo conocido hasta el momento. 3. Proporciona facilidades de edicin, manipulacin y acceso aleatorio al audio comprimido. El esquema de codicacin para prediccin, que es el corazn del codicador sin prdidas, est basado en el propuesto por la empresa RealNetworks en [Quackenbush03]. Sin embargo, el codicador ALS, con el predictor anterior incluido, fue nalmente estandarizado en 2004 a partir de una propuesta de la Universidad Tcnica de Berln [Liebchen04].
Multiplexer
Bit-stream
Stereo cues
38
2.7.
Calidad perceptual
Un codicador de audio obtiene una buena calidad perceptual cuando la seal codicada es prcticamente indistinguible al escucharla con respecto a la seal original. Esta situacin ideal se puede obtener fcilmente si el diseo del codicador atiende a principios perceptuales y, a su vez, se dispone del rgimen binario suciente para poder codicar la seal con los bits que necesita. Sin embargo, esta situacin ideal no se puede alcanzar en ciertas aplicaciones donde el ancho de banda disponible es reducido. En estas situaciones es til poder obtener una medida de la calidad perceptual para saber qu codicador de audio se adapta mejor al requisito de ancho de banda. La medida de la calidad perceptual se puede realizar mediante dos enfoques radicalmente diferentes. Por un lado, se puede realizar una evaluacin objetiva de la calidad. Sin embargo, las medidas objetivas fciles de implementar, como por ejemplo la relacin seal a ruido, no ofrecen una idea de la calidad real que obtiene un codicador basado en principios perceptuales. Es verdad que existen enfoques, como por ejemplo [ITU-R01b], para la implementacin de medidas objetivas, pero la implementacin de estas recomendaciones es bastante complicada. Adems, las medidas objetivas son difcilmente aplicables cuando las degradaciones presentes en la seal codicada son medias o grandes. Por otro lado, la evaluacin subjetiva, basada en la opinin de personas que escuchan la seal codicada, puede llegar a ser bastante dispar en funcin del grupo de oyentes seleccionados, pero tiene la ventaja de poder realizarse sin ms medios que el mismo grupo de oyentes. Para realizar la medida subjetiva de la calidad es bastante crtico elegir el mtodo a utilizar en funcin de la calidad perceptual del codicador. As, para codicadores que introducen leves degradaciones en la seal la escala MOS es la ms utilizada en la bibliografa. Se engloban aqu la mayora de los codicadores por transformada a medio-alto rgimen binario de funcionamiento. Sin embargo, cuando el codicador introduce mayores degradaciones en la seal de audio codicada se suele utilizar el mtodo MUSHRA para medir la calidad perceptual. Esto sucede en la mayora de los codicadores paramtricos y en los codicadores por transformada a bajo rgimen binario. Para ambos mtodos existen recomendaciones del ITU-R que explican de forma detallada cmo realizar las pruebas subjetivas con el n de obtener unos resultados comparables entre diferentes pruebas de audicin.
2.7.1.
La escala MOS
La calidad subjetiva de la mayora de los codicadores perceptuales por transformada se mide en la bibliografa a partir de la escala MOS (Mean Opinion Score ). Esta escala se obtiene como resultado de pruebas de audicin basadas en la recomendacin ITU-R BS.1116-1 [ITU-R97]. A continuacin, se realiza un breve resumen de los aspectos ms relevantes de esta recomendacin para la evaluacin subjetiva de pequeas degradaciones en los sistemas de audio. En principio, se expondrn los aspectos que son de aplicacin a sistemas monofnicos, dado que el sistema de codicacin de audio propuesto en esta tesis est diseado nicamente para seales de un solo canal.
2.7. CALIDAD PERCEPTUAL Tabla 2.1: Escala de degradacin de 5 notas. DEGRADACION Imperceptible Perceptible, pero no molesta Ligeramente molesta Molesta Muy molesta Seleccin de los oyentes NOTA 5.0 4.0 3.0 2.0 1.0
39
Es importante que los datos de las pruebas de escucha para evaluar pequeas degradaciones en los sistemas de audio procedan exclusivamente de participantes con experiencia en detectar dichas pequeas degradaciones. Cuanto mayor sea la calidad alcanzada en los sistemas que deben someterse a prueba, ms importante ser contar con oyentes expertos. Para la seleccin de los participantes, pueden seguirse dos procedimientos: Seleccin previa de los participantes. Este procedimiento incluye mtodos tales como pruebas audiomtricas, seleccin de participantes basndose en su experiencia y desempeo en pruebas anteriores. Seleccin posterior de los participantes. Los mtodos de seleccin posterior puede ser de dos tipos: uno se basa en las incoherencias respecto al resultado medio y el otro en la capacidad del participante para realizar identicaciones correctas. En relacin al nmero de oyentes, ste puede estimarse calculando la varianza y determinando la resolucin necesaria del experimento. Cuando las condiciones de una prueba de escucha estn determinadas por los aspectos tcnicos y de comportamiento de los participantes, la experiencia ha demostrado que a menudo bastan los datos procedentes de 20 de ellos para extraer las conclusiones adecuadas de la prueba. Mtodo de prueba Para las evaluaciones subjetivas de sistemas que producen pequeas degradaciones, es necesario seleccionar un mtodo adecuado. Un mtodo especialmente sensible, estable y que permite detectar con exactitud pequeas degradaciones es el de triple estmulo doblemente ciego con referencia oculta. Por consiguiente, es el que se utiliza para este tipo de prueba. En la forma ms adecuada y sensible de este mtodo, slo acta un participante cada vez y lo hace seleccionando a discrecin uno de entre tres estmulos (A, B, y C). La referencia conocida siempre es el estmulo A. La referencia oculta y el objeto son B y C, asignados de manera aleatoria, dependiendo del experimento. Se solicita al participante que evale las degradaciones en B comparadas con las de A, y las de C comparadas tambin con las de A, de acuerdo con la escala continua de degradacin de cinco notas. Uno de los estmulos, B o C, debe ser indistinguible del estmulo A, el otro puede presentar degradaciones. Toda diferencia percibida entre la referencia y los otros estmulos debe interpretarse como una degradacin.
40
La escala de apreciaciones puede considerarse continua con referencias obtenidas de la escala de degradacin de cinco notas del ITU-R 1 indicada en la tabla 2.1. Se recomienda utilizar la escala con una resolucin de un nmero decimal. El mtodo de prueba consta de dos partes o fases: Fase de adiestramiento o familiarizacin Antes de realizar la apreciacin formal, se debe permitir a los participantes familiarizarse con los dispositivos, el entorno de prueba y con el proceso de prueba y las escalas de apreciacin. Los participantes deben familiarizarse tambin con las seales de prueba. Si se lleva a cabo de manera correcta el proceso de familiarizacin, se puede transformar a algunos participantes con habilidad acstica inicialmente baja en expertos a efectos de la prueba. Al nalizar dicho proceso, los participantes deben haber adquirido un conocimiento preciso de la escala a emplear en la fase de apreciacin formal. Fase de apreciacin Como la memoria auditiva a medio y largo plazo no es able, el procedimiento de prueba debe basarse exclusivamente en la memoria corto plazo. Para ello, lo ms adecuado es utilizar un mtodo de conmutacin casi instantnea, que exige una alineacin en el tiempo entre los estmulos de aproximadamente 40 ms. Los participantes deben poder actuar de forma individual. Slo de esta manera tendrn completa libertad para conmutar entre los estmulos. Esta libertad es esencial para realizar comparaciones detalladas entre los estmulos de cada experimento. Es preferible que los participantes puedan conmutar entre los estmulos sin ayuda visual, de forma que, si lo desean, puedan mantener los ojos cerrados para concentrarse mejor. Una sesin de apreciacin no debe durar ms de 20 o 30 minutos, si bien el carcter de auto-control del ritmo de los experimentos aqu sealado dar lugar a variaciones en la duracin de la prueba segn los participantes. La experiencia sugiere que no deben programarse ms de 10 o 15 experimentos por sesin para lograr la duracin de sesin deseada. La fatiga de los participantes puede convertirse en un factor perjudicial que reste validez a sus juicios. Para evitar esta circunstancia, entre sesiones sucesivas de cada participante deben preverse perodos de descanso de duracin al menos igual a la de una sesin. Atributos En la recomendacin UIT-R BS.1116-1b se indican los atributos especcos de las evaluaciones monofnicas, estereofnicas y multicanal. Es preciso evaluar en los tres casos el atributo calidad de audio bsica. Este atributo sencillo y general se utiliza para juzgar una o todas las diferencias detectadas entre la referencia y el objeto. Este atributo es el evaluado en sistemas de codicacin monofnicos. Para los sistemas estereofnicos y multicanal, la recomendacin UIT-R BS.1116-1 dene otros atributos adicionales, como la calidad de la imagen estereofnica (sistemas estreo) y la calidad de la imagen frontal y la impresin de la calidad panormica (sistemas multicanal). Material de programa Slo se utiliza material crtico para poner de relieve las diferencias entre los sistemas sometidos a prueba. No hay un material de programa adecuado de forma universal que pueda utilizarse
1
Recomendacin UIT-R BS. 1284
2.7. CALIDAD PERCEPTUAL Tabla 2.2: Seales del cd EBU-SQAM. Nombre Seal es01 es02 es03 si01 si02 si03 sm01 sm02 sm03 sc01 sc02 sc03 Suzanne Vega German male speech English female speech Harpsichord Castanets Pitch pipe Bagpipes Glockenspiel Plucked strings Trumpet solo Orchestra piece Contemporary pop
41
para evaluar todos los sistemas bajo todas las condiciones. En consecuencia, debe encontrarse para cada sistema probado en cada experimento, el material de programa crtico apropiado. Sin embargo, son de uso comn en la actualidad ciertas bases de datos propuestas por varios organismos. Es especialmente usada la propuesta por la EBU (European Broadcasting Union ) para el aseguramiento de la calidad en sistemas de audio [Waters98], recopiladas en el cd EBUSQAM. Las seales propuestas en esta base de datos para medir la calidad de codicadores de audio son 12 seales y se subdividen en 4 grupos cada uno de 3 seales: es Seales vocales, ya sean habladas o cantadas. si Seales de un slo instrumento interpretando notas aisladas (single tone ). sm Seales de un slo instrumento interpretando una meloda (melodious phrase ). sc Seales ms complejas. Estas tres seales son una trompeta tocando una meloda, un pieza de orquesta y una seal de pop actual. Las 12 seales se detallan en la tabla 2.2. Anlisis estadstico El objeto fundamental del anlisis estadstico de los resultados de prueba es identicar con exactitud la calidad de funcionamiento media de cada uno de los sistemas sometidos a prueba y la abilidad de cualquier diferencia entre los valores obtenidos. Este ltimo aspecto obliga a efectuar una estimacin de la variabilidad o varianza de los resultados. Se recomienda, en condiciones normales, usar del modelo de anlisis de varianza (ANOVA). Para realizar un estudio estadstico en detalle habra que considerar otros mtodos de anlisis, como por ejemplo los no paramtricos.
42
Presentacin de resultados de los anlisis estadsticos La presentacin debe realizarse de forma que tanto los lectores expertos como los inexpertos puedan evaluar la informacin correspondiente. En principio, todo lector desea conocer los resultados globales del experimento, preferiblemente de forma grca. Tal presentacin puede realizarse con informacin cuantitativa ms precisa, si bien los anlisis numricos detallados deben aparecer en forma de tablas. Notas absolutas La presentacin de las notas medias absolutas, para el objeto y la referencia oculta por separada, puede proporcionar una impresin inicial bastante acertada de los datos. La nota absoluta de la calidad MOS se suele denotar de la forma M OS . Sin embargo, debe tenerse en cuenta que esto no constituye una base adecuada para realizar un anlisis estadstico detallado, debido al hecho de que cuando se utiliza el mtodo MOS los participantes saben explcitamente que una de las fuentes en la comparacin por pares es idntica a la referencia. En consecuencia, las observaciones no son independientes y el anlisis estadstico de estas notas absolutas no aporta una informacin signicativa. Notas distintas La diferencia entre las notas otorgadas a la referencia oculta y al objeto es el punto de partida adecuado para efectuar los anlisis estadsticos. Una representacin grca revela claramente las distancias reales a la transparencia, que normalmente tienen gran inters. En este caso la nomenclatura usada para la diferencia entre las notas es M OS . Nivel de signicacin e intervalo de conanza El informe de la prueba debe explicitar los niveles de signicacin, as como otros detalles acerca de los mtodos y resultados estadsticos que contribuyan a dar una idea ms clara al lector. Dichos detalles podran incluir los intervalos de conanza o las barras de error en los grcos. Tradicionalmente, se elige el valor de 0.05 como nivel de signicacin. Contenido de los informes de prueba Los informes de prueba deben indicar, de la manera ms clara posible, los mtodos utilizados y las conclusiones extradas. Deben presentarse detalles sucientes como para que, en principio, una persona con ciertos conocimientos pueda repetir el estudio a n de vericar de forma emprica los resultados. Un lector informado debe ser capaz de entender e interpretar los detalles ms importantes de la prueba, las razones fundamentales para el estudio, los mtodos de diseo y ejecucin del experimento y los anlisis y conclusiones. Debe prestarse atencin a los puntos siguientes: Especicacin y seleccin de los participantes y pasajes. Detalles fsicos de los equipos y del entorno de escucha. Diseo del experimento, que incluye el adiestramiento, las instrucciones, las secuencias y procedimientos de prueba y la generacin de datos. El procesamiento de los datos, incluyendo los detalles de los resultados estadsticos obtenidos.
2.7. CALIDAD PERCEPTUAL Conclusiones extradas
43
2.7.2.
El mtodo MUSHRA
El problema de la escala MOS es que no ofrece un valor demasiado representativo para comparar varios codicadores, ya que no se pueden medir varios codicadores a la vez, sino que hay que realizar pruebas independientes entre ellos. Este problema se agrava cuando los codicadores de audio a evaluar introducen degradaciones medias, e incluso grandes, en la seal codicada. En estos casos, la dispersin de los resultados puede resultar inadmisible. Por ello ha surgido la recomendacin [ITU-R01], donde se permite la inclusin de varios codicadores en la evaluacin. Adems, otra caracterstica que introduce esta recomendacin es la evaluacin en cada test de audicin de una seal ja de baja calidad, como es una seal paso bajo ltrada a 3,5 KHz. Esto permite tener una idea bastante aproximada de las desviaciones entre diferentes pruebas de audicin. As, cuando se trata de medir la calidad de codicadores por transfomada a bajo rgimen binario o de algunos de los codicadores paramtricos donde la seal codicada no tiene ni mucho menos una alta calidad, se utiliza esta recomendacin conocida como mtodo MUSHRA. Adems, es destacable resear que no existen alternativas ables de medidas objetivas en esta situacin. As pues, el mtodo comnmente utilizado para medir la calidad de codicadores paramtricos es el mtodo MUSHRA (MUlti Stimulus test with Hidden Reference and Anchor ) [ITU-R01]. Para un tratamiento en ms profundidad del mtodo MUSHRA es conveniente acudir a [ITU-R01][Stoll00][Soulodre99], aunque se realiza a continuacin una breve revisin de esta medida subjetiva. El mtodo MUSHRA est basado en un test doblemente ciego y multi-estmulo, con una referencia oculta y una(s) seal(es) de prueba (anchor(s) ), tambin oculta(s), especialmente diseado para medir seales de audio con medias o grandes degradaciones de codicacin. El test de audicin se realiza en una o ms sesiones. En cada sesin, el material de audio a calicar se presenta en varios intentos. En cada intento se presenta la misma seal de audio procesada de varias formas diferentes (o estmulos). Un test es multi-estmulo cuando en un intento ms de una forma de procesar la seal o estmulo se evala. El nmero de estmulos no debera en ningn caso exceder de 15. En el mtodo MUSHRA la seal original sin codicar se usa como referencia. El material usado en el test incluye la referencia oculta, la(s) seal(es) de prueba y la(s) seal(es) codicada(s). La idea de proporcionar la referencia oculta es para poder asegurar la capacidad del oyente de detectar los artefactos de las seales codicadas y de prueba. El propsito de incluir seal(es) de prueba es para dar una comparacin de la calidad del material codicado con respecto a niveles de calidad de audio bien conocidos. As, al menos, se debe usar una seal de prueba, que normalmente es la seal original ltrada paso bajo. Normalmente, esta seal de prueba es la seal ltrada a 3,5 KHz, ya que este ancho de banda se utiliza con nes de supervisin en aplicaciones de difusin. En general, se pueden usar varias seales de prueba. As, en la bibliografa relacionada con codicacin paramtrica de audio se suele incluir como seal de prueba adicional una seal paso bajo a 7 KHz. La escala de medida usada en el mtodo MUSHRA tiene cinco intervalos, aunque es una escala continua (Continuous Quality Scale, CQS), como se indica en la gura 2.18. Cada intervalo de esta escala se corresponde con una puntuacin de calidad que va desde mala (correspondiente a una puntuacin de 0 a 20) a excelente (puntuacin de 80 a 100).
44
Figura 2.18: Los cinco intervalos de la escala continua (CQS) de medida usada en el mtodo MUSHRA.
Figura 2.19: El interfaz de usuario del programa SEAQ para realizar el test MUSHRA.
2.8. CONCLUSIONES
45
Durante cada intento, el evaluador puede seleccionar cada estmulo en el orden que quiera. A continuacin, debe puntuar la calidad de todos los estmulos de cada intento. El resultado de cada estmulo en todos los intentos y sesiones es el valor de calidad que proporciona el mtodo MUSHRA, por lo que estar entre 0 y 100. Este procedimiento se puede realizar sin que una persona deba controlar el test. As, en la gura 2.19 se incluye una ilustracin de un programa usado para realizar el mtodo MUSHRA. El programa conocido como SEAQ, y desarrollado por el centro de investigacin de comunicaciones (CRC) de Ottawa, ofrece la posibilidad de elegir entre varios estmulos (de A a H en la gura), que incluyen la referencia, la(s) seal(es) de prueba y la(s) seal(es) codicada(s). En cada intento, las seales a evaluar son asignadas de forma aleatoria a cada estmulo. Para obtener unos resultados satisfactorios, los oyentes deben ser sujetos con conocimiento de los tipos de artefactos ms crticos en las seales de audio. De hecho, el test debe ser precedido de una fase de entrenamiento donde cada evaluador se acostumbre a las seales de test y a los artefactos de codicacin. Aunque ahora este procedimiento de seleccin y entrenamiento de oyentes no es tan crtico como en el test MOS, puesto que las seales son de peor calidad y, por tanto, las degradaciones son ms fcilmente detectables cuando se presentan los resultados, los valores medios se deben acompaar de sus correspondientes intervalos de conanza que informen de la varianza de los resultados.
2.8.
Conclusiones
En este primer captulo se ha presentado un breve resumen del estado actual del arte en codicacin perceptual de audio. Se han revisado los conceptos bsicos necesarios para entender el funcionamiento de los sistemas reales y se han descrito las caractersticas ms destacadas de los diferentes estndares ISO/MPEG audio. Adems, puesto que en esta tesis doctoral se propone un esquema de codicacin basado en una descomposicin paramtrica del audio, en la parte de revisin de conocimientos se va a incluir un captulo completo para revisar el estado del arte en relacin a la codicacin paramtrica de audio. En este captulo se explicarn las tcnicas de modelado de tonos, transitorios y ruido, as como las propuestas de codicadores con herramientas paramtricas encontradas en la bibliografa. Para concluir este tema es preciso indicar que la codicacin perceptual de audio es un tema an candente debido a la necesidad de nuevas aplicaciones de codicacin, como son la codicacin escalable por internet o la codicacin a bajo rgimen binario por redes de telefona mvil. Adems, las herramientas que se desarrollen para conseguir la compresin de seal bajo estas circunstancias, al tratarse de modelos de seal paramtricos, se pueden utilizar en un amplio conjunto de aplicaciones diferentes. En este sentido, los parmetros de los modelos se pueden utilizar en un futuro para la clasicacin de audio en base a contenido, o incluso, para la separacin de fuentes.
46
Captulo 3
Codicacin paramtrica de audio

Los codicadores de audio por transformada, como MP3 [MPEG92], estn diseados generalmente para operar a mltiples regmenes binarios. En el caso de querer obtener un bajo rgimen binario, se limita el ancho de banda de la seal de entrada con el objetivo de obtener una calidad satisfactoria en bajas frecuencias. Como consecuencia, el principal inconveniente de los codicadores por transformada es la rpida degradacin de la calidad del audio cuando el rgimen binario est por debajo de 40 Kbits/s. Sin embargo, los codicadores de audio paramtricos, los cuales utilizan modelos de seal combinados con un modelo perceptual, son capaces de obtener una seal de audio codicada de alta calidad por debajo de 40 Kbits/s. Adems, la obtencin de una representacin paramtrica de la seal de audio permite realizar, fcilmente y de manera directa, modicaciones de la seal en el decodicador, tales como cambio de pitch y de escala temporal (tempo o stretching ). En contraste con los codicadores de forma de onda, los codicadores paramtricos no aplican reduccin de ancho de banda para reducir el rgimen binario, sino que suelen ordenar los parmetros obtenidos de la seal segn su importancia perceptual para conseguir escalabilidad en rgimen binario [Verma99] [Myburg04]. El primer codicador completamente paramtrico aceptado en el estndar MPEG-4 es el conocido como HILN (Harmonic and Individual Lines plus Noise) [Purnhagen00] [MPEG99]. El codicador HILN puede operar en un rango de regmenes binarios que oscila de 6 a 16 Kbits/s en mono. Aunque pobre, la calidad de audio conseguida por el HILN a esos regmenes binarios es comparable a la calidad obtenida por los mejores codicadores por transformada: TwinVQ [Iwakami95] a 6 Kbits/s y AAC [MPEG97a] a 16 Kbits/s, ambos en mono [Purnhagen00]. Ms recientemente, el codicador paramtrico de audio desarrollado por Phillips [Brinker02] ha sido la respuesta de la empresa a la llamada a propuestas hecha en 2001 por MPEG [MPEG01]. Este codicador, conocido como PPC (Philips Parametric Coder), opera a un rgimen binario de 24 Kbits/s en estreo, dando como resultado una seal de audio de mayor calidad que AAC a 24 Kbits/s estreo para la mayora de las seales de prueba, salvo para las seales con transitorios y las seales vocales [Brinker02]. En Diciembre de 2003, MPEG anunci [MPEG03] que en la extensin 2 de MPEG-4 se inclua un codicador paramtrico de audio de alta calidad que coincide a grandes rasgos con el codicador PPC propuesto por Philips. Este codicador est diseado para trabajar en el rango de 16 a 24 Kbits/s por canal. Adems, el decodicador permite el cambio de pitch y de tempo (stretching ) en tiempo real [Kerkhof02] [Schuijers03]. Este resultado ilustra el potencial que puede llegar a tener la codicacin paramtrica de audio, 47
48
as well [14].
CAPTULO 3. CODIFICACIN PARAMTRICA DE AUDIO
Distorsin perceptual Codificacin paramtrica Codificacin de forma de onda 24 Rgimen binario (Kbits/s) 128
Figura 3.1: Tendencia de la distorsin perceptual en funcin del rgimen binario para codicadores de
forma de onda y paramtricos.
en el sentido de que puede ser la herramienta ptima para la codicacin de audio a bajo rgimen binario. Sin embargo, el principal inconveniente radica en que, tanto para HILN como en los dems codicadores paramtricos, un incremento en rgimen binario no se traduce en el consiguiente incremento en calidad de audio. La gura 3.1 compara la calidad de audio obtenida en funcin del rgimen binario tanto para codicacin paramtrica como para codicacin de forma de onda. Como se puede observar, la codicacin paramtrica supera en calidad a la codicacin de forma de onda a bajo rgimen binario. Sin embargo, si se quiere conseguir calidad de audio trasparente, con un alto rgimen binario, hay que usar codicadores de forma de onda. Este hecho es el responsable de la combinacin de HILN con codicacin de forma de onda a alto rgimen binario, resultando un codicador hbrido [Edler98]. Otro inconveniente de los codicadores paramtricos se produce en la codicacin de voz, donde la calidad conseguida por los codicadores de voz para el mismo rgimen binario es mayor. As, con la intencin de mejorar esta situacin se ha usado el codicador HILN en combinacin con codicadores de voz paramtricos (vocoders) [Edler98]. Un codicador paramtrico de audio necesita utilizar modelos de seal que extraigan las caractersticas de las diferentes componentes que conforman en la seal de audio. La seal de audio se descompone, de forma general, en tres componentes: Tonos La componente tonal modela los elementos casi-estacionarios de la seal de audio. De las tres componentes de la seal de audio, los tonos es la componente dominante, porque requiere un mayor rgimen binario, adems de tener una fuerte contribucin en la calidad nal de la seal codicada. Los tonos se identican como picos en la amplitud de la transformada de Fourier siendo, por tanto, sinusoides de lenta variacin en el tiempo, conocidas en la literatura como parciales (del ingls partials ). Una sinusoide (o tono) se parametriza mediante su amplitud, fase y frecuencia. La componente sinusoidal de la seal de audio son un conjunto de tonos con sus respectivos parmetros. Estos tonos pueden estar armnicamente relacionados en frecuencia, siendo entonces mltiplos de una frecuencia fundamental (o pitch ). La componente sinusoidal del audio se debe principalmente a voz sonora y a msica instrumental.
49 Los primeros indicios de modelado tonal en la literatura aparecieron asociados a los codicadores de voz que dividen la seal en una parte determinstica y otra estocstica. El modelo determinstico es, bsicamente, un modelo tonal como aparece en el vocoder de fase [Flanagan66]. Sin embargo, quizs el esquema tonal ms usado posteriormente para codicadores de audio es el modelo presentado en [Mcaulay86], ideado en un primer momento slo para seal de voz. En este modelo los tonos se detectan y extraen en cada trama de la seal de audio, por lo que antes es necesario segmentar la seal. Una vez que los tonos son detectados y extrados de la seal, se puede conseguir una ganancia de codicacin importante, agrupando los tonos entre tramas adyacentes para formar trayectorias tonales que duren ms all de una trama, llamadas caminos tonales (del ingls tracks ). Cada camino tonal se caracteriza por la variacin en el tiempo de la amplitud, frecuencia y fase del tono modelizado. Otro modelo para seal de voz que incluye tambin una seal estocstica es el vocoder de excitacin multi-banda (Multi-Band Excitation, MBE) [Grin88]. En el caso de la seal de audio, el modelo determinista de [Mcaulay86] se ha utilizado completndolo con un modelo estocstico en [Serra89]. Sin embargo, algunas seales de audio contienen ataques (por ejemplo, el sonido producido por una castauela), que no puede representarse con un modelo tan sencillo. Posteriormente, y centrndose en la seal de audio, se han utilizado diferentes estrategias para identicar y obtener los tonos. Un enfoque usado con asinuidad es el empleo del algoritmo matching pursuits [Mallat93], que extrae en cada iteracin el tono ms correlado con la seal. Este mtodo se ha extendido, incluso para que tenga en cuenta informacin perceptual en el clculo de la correlacin, de forma que extraiga en cada iteracin el tono ms importante perceptualmente [Heusdens02]. Otro enfoque aplicado [Myburg04] se centra en la reduccin del coste computacional, determinando de una vez todos los tonos, como en [Mcaulay86], evitando as un algoritmo iterativo. Por otro lado, se ha explotado la redundancia de la informacin de cada camino tonal aplicando codicacin diferencial para las amplitudes y frecuencias de los tonos, explotando de esta forma su caracterstica casi-estacionaria [Purnhagen00] [Brinker02] [Levine98] [Verma99]. En la prctica, la fase no se suele enviar en un codicador paramtrico, en su lugar el decodicador estima la fase para que la onda de la seal decodicada sea continua. Sin embargo, este esquema conduce a una seal decodicada poco natural [Levine98]. Transitorios La componente transitoria se reere a los eventos no estacionarios de la seal de audio que se presentan tpicamente en breves periodos de tiempo. La envolvente de un transitorio se caracteriza normalmente por un rpido incremento de la energa de la seal seguido de una cada de forma exponencial. Un buen modelo de parametrizacin de transitorios debe evitar que la energa del mismo se disperse y se produzca un pre-eco en la seal de audio decodicada. El sonido producido por un golpe de castauela es un buen ejemplo de transitorio en la seal de audio. La componente transitoria de la seal de audio debe ser tratada independientemente para conseguir una calidad de audio aceptable en las seales donde se presenta. Adems, los transitorios son eventos poco frecuentes, por lo que el rgimen binario necesario para su transmisin es bastante bajo, ya que la codicacin de transitorios se habilita slo cuando se detecta un transitorio. Se han propuesto varios modelos para la codicacin de transitorios
50
CAPTULO 3. CODIFICACIN PARAMTRICA DE AUDIO en la literatura. Tanto en [Levine98] como en [Ali95] se aplica la codicacin por transformada cuando aparece un transitorio, si bien [Levine98] utiliza la transformada modicada de coseno y [Ali95] un anlisis wavelet. El primer esquema que modela los transitorios con parmetros es el propuesto en [Verma99], donde se aprovecha la dualidad entre tiempo y frecuencia. El enfoque aplicado en los codicadores paramtricos de audio estandarizados (PPC y HILN) se reduce a determinar la envolvente del transitorio y estimar el nmero de tonos bajo sta [Brinker02] [Edler96].
Ruido La seal ruidosa se obtiene a partir del residuo que resulta de restar la seal original a la suma de la componente sinusoidal ms la transitoria. La necesidad de conseguir un rgimen binario bajo no permite la codicacin de la forma de onda del residuo que dejan el modelo tonal y transitorio. En su lugar, se incluye un modelo de ruido que captura las caractersticas esenciales del residuo. Esta seal residual tiene caractersticas estocsticas, por lo que se parametriza su envolvente tanto espectral como temporal y su potencia. En el decodicador, se genera un ruido sinttico con la misma potencia que el residuo del codicador para, posteriormente, adaptar mediante ltrado su envolvente espectral y temporal. Por lo tanto, el modelo de ruido acepta la suposicin de que el ruido es un proceso estocstico [Purnhagen00] [Brinker02] [Levine98] [Verma99]. La resolucin, tanto temporal como espectral, que necesita el modelo de ruido para conseguir una seal de alta calidad perceptual debe tener en cuenta el sistema auditivo humano. Los mtodos usados en la bibliografa tienen dos vertientes. Por un lado, una implementacin mediante bancos de ltros [Goodwin97], y por otro, una implementacin paramtrica basada en prediccin lineal [Purnhagen00] [Serra97] [Brinker00]. La contribucin de la componente de ruido en la calidad total de audio es de gran importancia, slo detrs de la componente tonal. Si bien, ambos modelos deben estar bien sintonizados para poder obtener una seal decodicada de alta calidad. A grandes regmenes binarios, cuando se quiere conseguir una seal codicada de audio de calidad trasparente, es necesario codicar la forma de onda del residuo implementando un codicador hbrido [Edler98]. En la literatura aparecen varios ejemplos donde se utilizan los modelos sinusoidal y de transitorios, as como un modelo de ruido para el residuo correspondiente, con el objetivo de realizar una codicacin paramtrica del audio. Esta codicacin se conoce con el nombre de codicacin STN (del ingls Sines, Transients plus Noise ). En [Levine98], se aplica un modelo sinusoidal seguido de un modelo de residuo en los segmentos estacionarios de seal, mientras que en los transitorios se aplica codicacin por transformada. En el caso del codicador HILN, se implementa una etapa inicial de anlisis para detectar los transitorios, con el n de modelizar su envolvente y reducir el tamao de la trama [Edler96]. En cualquier caso, se aplica posteriormente un modelo tonal seguido de uno estocstico. En [Ali95], primero se aplica un modelo sinusoidal y tras extraer esta componente de seal, se analiza la componente transitoria. Bsicamente, se aplica una transformada wavelet. En el caso de que una banda determinada tenga o no caractersticas estocsticas, se modela como ruido o se codica directamente su forma de onda, respectivamente. Alternativamente, tanto en [Verma00] como en el codicador PPC [Brinker02], se aplica primero el modelo de transitorios. La razn de este cambio hay que buscarla en que el modelado sinusoidal
3.1. MODELADO SINUSOIDAL
51
extrae muchos tonos cuando se aplica sobre una seal no estacionaria, de forma que si se aplica primero el modelo de transitorios se soluciona este inconveniente. A continuacin, se repasan algunas de las tcnicas ms utilizadas para modelizar cada una de las componentes de audio.
3.1.
Modelado sinusoidal
El modelo sinusoidal clsico [Mcaulay86] representa la seal de audio x[n] como la suma de un conjunto de K sinusoides con frecuencias, fases y amplitudes variantes en el tiempo:
K
x[n] x [n] =
k=1
Ak [n] cos k [n] n + k [n]
(3.1)
donde Ak [n], k [n] y k [n] representan la amplitud, frecuencia y fase del k -simo tono, respectivamente. En general, el comportamiento dinmico de la seal de audio se modeliza de forma correcta reconstruyendo la seal a partir de estos parmetros, asumiendo incluso que la amplitud Ak [n] y frecuencia k [n] del parcial k vara lentamente a lo largo del tiempo. Si se limita esta variacin, la seal de audio se analiza segmentando la seal en tramas donde las amplitudes y frecuencias de los tonos son constantes. Por lo tanto, dentro de una trama (o segmento), la amplitud es constante Ak , y el argumento del coseno en la ecuacin 3.1 es un polinomio lineal k n + k . Para obtener los parmetros descritos que representan la componente tonal de la seal, el mecanismo ms directo se basa en la identicacin de picos espectrales en el espectro de amplitud de una trama enventanada obtenido mediante la transformada discreta de Fourier (Discrete Fourier Transform, DFT). La muestra de la DFT donde el espectro de amplitud es un mximo local proporciona una estimacin de la frecuencia de un tono presente en la seal, y su valor complejo de la amplitud y fase del mismo. Sin embargo, este esquema tan sencillo debe ser completado con algoritmos que permitan discriminar si un mximo local coincide o no con un tono importante de la seal. Estos algoritmos suelen tomar como informacin la forma del espectro cerca del mximo, o bien, la predictibilidad (lo contrario de imprecibilidad) en frecuencia de la seal a lo largo del tiempo. Por ejemplo, la denicin espectral en [Serra89] se basa en el nivel en dB del pico espectral en relacin a las muestras cercanas de la DFT, con el objetivo de comprobar si coinciden con la transformada de la ventana utilizada. Sin embargo, siguiendo esta denicin se pueden extraer tonos no-estacionarios que no formen trayectorias, sino que representen caractersticas aisladas de la seal. Para solucionar este inconveniente, el clculo de la predictibilidad de la frecuencia del tono, mediante la seal en tramas adyacentes, mejora la estimacin. En cualquier caso, como se ver posteriormente, se han presentado en la literatura un nmero amplio de algoritmos para mejorar la extraccin tonal. Los parmetros de cada tono (amplitud, fase y frecuencia) deben ser codicados para la compresin de la seal de audio. En este sentido, se consigue una ganancia de codicacin signicativa si se aplica un esquema de codicacin diferencial para las amplitudes y frecuencias de los tonos entre las diferentes tramas. La explicacin de este hecho hay que buscarla en que muchos tonos se repiten de un segmento al siguiente, debido a que describen la componente estacionaria de la seal de audio. Como consecuencia, un mtodo de agrupamiento de tonos para conseguir una codicacin diferencial inter-trama (o codicacin diferencial en el tiempo) se present primera-
52
Leyenda: Frecuencia
(Hz)
: Comienzo de un camino : Continuacin de un camino
: Fin de un camino : Unin
i 1 i i +1
Trama
Figura 3.2: Unin de tonos individuales para formar trayectorias mente en [Mcaulay86], y se ha aplicado en muchos de los codicadores presentados posteriormente [Ali95] [Brinker02] [Verma99] [Levine98] [Serra89]. Este mtodo relaciona los tonos cercanos en frecuencia y amplitud entre tramas adyacentes para formar trayectorias (o caminos) tonales que se codican de forma diferencial. Cuando aparece un tono en una trama, que no puede ser relacionado con un tono de la trama anterior, se comienza una nueva trayectoria. Cuando un tono se relaciona con otro de la trama anterior, se sigue una trayectoria antes comenzada. Si se puede relacionar un tono con otro de la trama siguiente se contina la trayectoria; en caso contrario, la trayectoria se naliza. En la gura 3.2 se presenta una grca tiempo-frecuencia que ilustra el comienzo, continuacin o trmino de una serie de trayectorias tonales. Adicionalmente, se puede conseguir una reduccin del rgimen binario si no se codican las fases de los tonos. En su lugar, el decodicador aplica un algoritmo de continuacin de fase que evita que haya discontinuidades de seal en las fronteras entre tramas. Sin embargo, este esquema lleva consigo la reproduccin de una seal de audio poco natural, especialmente para seales de voz [Brinker02]. Otra alternativa para disminuir la cantidad de datos en el proceso de codicacin, aparecida en [Jensen02], es aplicar tcnicas basadas en codicacin diferencial intra-trama, relacionando los tonos dentro de una misma trama.
3.1.1.
Psicoacstica aplicada al modelo tonal
Para realizar un diseo apropiado de los parmetros del modelo sinusoidal, es necesario realizar una revisin del modelo auditivo del odo humano. Por un lado, es imprescindible tener en cuenta al segmentar la seal de audio la resolucin temporal que tiene el odo. Por otro, es necesario parametrizar las frecuencias de los tonos con la aproximacin suciente, adaptada a la percepcin humana, para conseguir una buena calidad del modelo. Incluso, es interesante realizar una extraccin tonal guiada perceptualmente, hasta el punto de conseguir extraer todas las sinusoides percibidas por el odo, siendo necesario para este propsito el clculo del umbral
3.1. MODELADO SINUSOIDAL de enmascaramiento sobre la componente tonal de la seal. Resolucin temporal y espectral
53
La resolucin espectral del modelo tonal es inversamente proporcional a su resolucin temporal. As, la capacidad de discriminar entre dos frecuencias del modelo, o resolucin espectral, crece conforme la duracin de la trama de anlisis es mayor, y se reduce la resolucin en el tiempo. Por lo tanto, el tamao de trama de anlisis debe ser lo sucientemente grande como para poder diferenciar dos frecuencias independientes de la seal de audio. En general, este no es un problema crtico, ya que las seales tonales son, frecuentemente, mltiplos de una frecuencia fundamental o pitch, cuyo rango es conocido. Bien es verdad que los tamaos de trama comnmente utilizados pueden provocar la interferencia entre tonos debida a los lbulos laterales de la ventana de anlisis. Sin embargo, el uso de ventanas de Hanning o Hamming [Harris78] solventa este problema. En cuanto a la resolucin temporal, sta tiene que ser suciente para modelizar correctamente los tonos de alta frecuencia cuyas caractersticas varan de forma rpida en el tiempo. Al nal, la eleccin del tamao de trama se realiza aplicando un valor de compromiso para poder tener una buena discriminacin en frecuencia y tiempo. La gura 3.3 ilustra el intercambio entre resolucin temporal y espectral cuando se considera un fragmento de voz sonora masculina. En esta gura se representa la seal en el tiempo para tres longitudes de trama diferentes, todas centradas en t = 0. La duracin de cada trama es de (a) 100ms, (b) 40ms y (c) 10ms. El espectro de amplitud en dB aplicando la DFT con ventana de Hanning, correspondiente a cada trama, se dibuja en los apartados (d), (e) y (f), respectivamente. Como se puede observar en el dibujo del apartado (d), todas las frecuencias estn armnicamente relacionadas, si bien por debajo de 1,2KHz estn bien denidas, mientras que en frecuencias ms altas no sucede lo mismo, debido a que los cambios de estas ltimas en el tiempo se producen de forma ms rpida que el tamao de trama usado. En el apartado (e) se denen correctamente todos los picos espectrales en el rango presentado, por lo que se puede armar que es un buen valor de compromiso. El apartado (f) presenta el resultado de seguir disminuyendo el tamao de la trama de anlisis; como era de esperar, se ha reducido tanto el tamao de trama que ya no se pueden distinguir los tonos individuales presentes en la seal, pues la resolucin espectral es insuciente. El empleo del relleno con ceros (zero padding ) para el clculo de la DFT no soluciona el problema de la discriminacin de dos tonos muy juntos en frecuencia, debido a que este mecanismo simplemente interpola en frecuencia el espectro, dndole un aspecto ms suave. Sin embargo, tiene como ventaja que permite una deteccin ms aproximada de la estimacin de la frecuencia. En la prctica, la exactitud de la obtencin del parmetro de frecuencia de cada tono es importante, porque el odo humano tiene gran discriminacin en baja frecuencia [Zwicker90], lo que lleva al uso generalizado del relleno con ceros. Adems, este mecanismo se debe utilizar para calcular la DFT mediante el algoritmo FFT (Fast Fourier Transform) con longitudes de entrada que sean potencias de 2. La habilidad del odo humano para discriminar mejor las bajas frecuencias est relacionada con el funcionamiento interno del mismo, lo cual debe ser tenido en cuenta a la hora de determinar la discriminacin del modelo tonal a lo largo de la frecuencia. Desde un punto de vista perceptual, el sistema auditivo humano tiene una primera etapa de pre-procesamiento, que se puede modelar
54
1.5 1
0.5
x 10
1.5
1 0.5
0
0.5
x 10
1.5
1 0.5
0
0.5
x 10
amplitud de seal
0 0.5
1 0.05
0 (a) tiempo
(segundos)
0.05
1 0.02
(b)
tiempo
0.02
1 5
5 0 (c) tiempo x 103
80 60
40
80 60
40
20 0
20
1000 2000 3000 4000 (d) frecuencia (Hz)
80 60
40
20 0
20
1000 2000 3000 4000 (e) frecuencia
amplitud logartmica 20 (dB)
20
40
40
40
1000 2000 3000 4000 (f) frecuencia
Figura 3.3: Evolucin de la resolucin espectral y temporal con el tamao de trama de anlisis. Las seales en el tiempo se presentan en los apartados (a), (b) y (c), donde se reduce la duracin de la trama. Sus correspondientes espectros de amplitud en dB mediante la DFT de la seal enventanada con la ventana de Hanning se presenta en los apartados (d), (e) y (f ), respectivamente.
55
por un banco de ltros paso banda. Este banco de ltros tiene la caracterstica propia de tener anchos de banda pequeos en baja frecuencia, que se incrementan en frecuencia. Los anchos de banda de este banco de ltros auditivo se aproximan con la escala de Bark (de Barkhausen) [Zwicker90], o escalas similares de carcter logartmico [Glasberg90], y se conocen como bandas crticas. En el odo interno se compone la seal de salida de las bandas crticas, por lo que si dos tonos estn en la misma banda crtica el odo humano tendr menor capacidad de distinguirlos que si estn en bandas crticas diferentes. Como conclusin, la discriminacin en frecuencia del odo es mucho mayor en baja frecuencia y depende de la escala de Bark. Como cualquier analizador tiempo-frecuencia, el odo tiene una mayor discriminacin temporal donde su discriminacin espectral es menor. Como consecuencia, la resolucin temporal del odo es mucho mejor en alta frecuencia [Zwicker90]. Este hecho sugiere la necesidad del empleo de un anlisis con mltiples escalas temporales en funcin de la frecuencia para adaptarse a las caractersticas del odo humano, anlisis que se conoce como anlisis multi-resolucin. En la prctica, se suelen utilizar tramas de larga duracin en el tiempo para las bajas frecuencias y de corta duracin para las altas frecuencias en la mayora de los codicadores paramtricos de audio [Brinker02] [Levine98] [Verma99] [Goodwin97] (aproximando la resolucin que se obtiene con un banco de ltros wavelet). En la mayora de los casos, slo se utilizan dos o tres escalas diferentes por simplicidad. Las ventajas del anlisis multi-resolucin se aprecian en la gura 3.4, donde se analiza el sonido de una gaita. En esta gura, se presenta la seal en el tiempo, centrada en t = 0, con diferentes tamaos de trama: (a) 10ms y (b) 80ms. El espectro de amplitud en dB, aplicando la DFT con ventana de Hanning, se presenta respectivamente en las grcas (c) y (d). La frecuencia fundamental de la componente tonal se sita aproximadamente en 640Hz , pero slo se observa de forma clara en la grca (d), donde el rango de frecuencias se sita de 0 a 2KHz . En la grca (c), la corta duracin de la trama temporal no permite una visin clara de este valor. Un estudio multi-resolucin de la seal permite, por lo tanto, un compromiso adaptado de resolucin tiempo-frecuencia para todo el rango de frecuencias. Pese a que en la mayora de los codicadores se realiza un anlisis multi-resolucin, las longitudes de trama para cada escala son en general jas, sin tener en cuenta ningn conocimiento sobre el comportamiento local de la seal. As, la longitud de los segmentos de seal se elige como un compromiso entre la variabilidad de la seal y la limitacin en rgimen binario. La primera alternativa a este problema consiste en realizar una segmentacin en funcin de la frecuencia fundamental del complejo armnico de la seal [Kleijn95] [Serra97], como se hace en voz. Este esquema segmenta la seal de forma que se agrupan unos pocos periodos (tres o cuatro tpicamente) de su frecuencia fundamental, con el n de tener una resolucin espectral suciente para discriminar entre tonos armnicos y adaptarse a las variaciones de seal. Es posible agrupar mayor longitud de seal si se adapta a los cambios de sta. Por ejemplo, cuando aparece un crecimiento de la frecuencia fundamental en el tiempo (efecto chirp ), se puede transformar la seal en el eje temporal para que el periodo sea constante [Sluijter99]. Los inconvenientes que tiene esta tcnica, muy til en seal de voz, son: hay que detectar la frecuencia fundamental de forma exacta (lo que aade complejidad) y la seal de audio puede no tener frecuencia fundamental (cuando el conjunto de tonos no tiene relacin armnica). Sin embargo, se puede admitir revisando la bibliografa que una alternativa muy interesante al anlisis multi-resolucin es la segmentacin adaptativa, que aplica una longitud variable de la trama de anlisis [Xiong97] [Prandoni97]. La ventaja de este mecanismo radica en la posi-
56
4000 3000
2000

4000 3000
2000
1000 0
1000
2000
0 (a) tiempo
amplitud de seal
1000 0
1000
2000 3000 5
5
(segundos) x 10
3000 0.04
0 0.02 (b) tiempo
(segundos)
0.02
0.04
80
60
23 1
80
60
1 2 3
amplitud logartmica 20 (dB)
40
40
20
0 20
0.5
20
40
1 1.5 (c) frecuencia (Hz)
2 x 10
4
40
500
1000 1500 (d) frecuencia (Hz)
2000
Figura 3.4: Ventajas del anlisis multi-resolucin. Una trama, centrada en t = 0, con 10ms de duracin
se presenta en el apartado (a), mientras que su espectro de amplitud en dB se dibuja en el apartado (c). Una trama ms larga de 80ms, centrada tambin en t = 0, aparece en el apartado (b), con su espectro en dB en (d). Se compara la discriminacin de los tres primeros armnicos en las grcas (c) y (d).
bilidad de adaptar la longitud de la trama al comportamiento local de la seal. As, las partes estacionarias de la seal de audio se deben modelar con tramas mayores, mientras que en las partes no estacionarias las fronteras de las tramas se tienen que adaptar para evitar artefactos del tipo pre-eco de la seal codicada. Sin embargo, el precio a pagar es el incremento de la complejidad computacional. Mediante el uso de segmentacin adaptativa, en [Painter01] se observa que se pueden alcanzar mejores resultados en rgimen binario que con anlisis multi-resolucin con tramas jas para cada escala. Es ms, se puede incluso conseguir una distorsin mnima del modelo sinusoidal aplicando este esquema [Heusdens02b]. Como se ha observado, el principal inconveniente de la segmentacin adaptativa es su alta complejidad computacional, especialmente si se quiere obtener un tamao de segmento ptimo. Ante la necesidad de algoritmos de baja complejidad para conseguir segmentacin adaptativa, han aparecido en la literatura las varias propuestas [Gonzalez01] [Ruiz02]. Umbral de enmascaramiento para la componente tonal En codicacin paramtrica de audio, el bajo rgimen binario deseable restringe generalmente el nmero de tonos que se pueden codicar en el modelo sinusoidal. Para obtener una seal de audio decodicada de alta calidad, es necesario seleccionar el conjunto de tonos a transmitir de forma que la distorsin perceptual producida sea lo menor posible. En este sentido, si la distorsin perceptual est por debajo del umbral de enmascaramiento, se considera que sta es inaudible, siendo la seal decodicada una copia trasparente, desde el punto de vista perceptual, de la seal original. Sin embargo, debido al bajo rgimen binario, este resultado es demasiado
57
ambicioso en los codicadores paramtricos, por lo que se reduce a conseguir la mejor calidad perceptual posible. En el clculo de la distorsin perceptual de un tono determinado se tiene en cuenta el umbral de enmascaramiento de la componente tonal. A continuacin, se presenta un resumen de las caractersticas principales del umbral de enmascaramiento para la componente tonal. Una descripcin detallada de modelos de enmascaramiento se puede encontrar en [Zwicker90], [MPEG92], [Painter00] o [Par02]. Hasta la aparicin de los codicadores paramtricos de audio, el umbral de enmascaramiento calculado era el de ruido, puesto que la distorsin producida en el proceso de codicacin era el ruido de cuanticacin de alguna transformada de la forma de onda. Sin embargo, hace tiempo que se conocen las propiedades de enmascaramiento entre tonos y entre ruido y tonos [Zwicker90]. En general, el clculo del umbral de enmascaramiento para los tonos sigue el mismo algoritmo que para el caso del ruido, aunque tiene caractersticas propias. Este umbral se calcula analizando segmentos de seal enventanada en el dominio de la frecuencia. Al igual que en el caso del ruido, hay que clasicar la seal de entrada en mscaras tonales y ruidosas, puesto que los tonos son mscaras menos efectivas que el ruido [Hawkins50] [Zwicker82]. Para realizar esta clasicacin, se puede analizar la forma del espectro de la seal en cada banda crtica [Johnston88b], o bien calcular la predictibilidad de cada pico espectral de la transformada [MPEG92]. Sin embargo, en el caso de un codicador paramtrico, esta distincin es directa si se aplica antes la extraccin tonal. Tras esta separacin, se evala el enmascaramiento que produce cada mscara mediante la funcin de dispersin (spreading en la bibliografa en ingls). Esta funcin de dispersin se utiliza para simular el efecto del banco de ltros paso banda del sistema auditivo humano y expresa la potencia que produce la mscara a la salida de este banco de ltros. El umbral de enmascaramiento nal se calcula sumando las potencias de cada mscara tras la funcin de dispersin [MPEG92]. Una vez obtenida la mscara, sta se utiliza para evaluar la distorsin perceptual producida por el proceso de codicacin. Ahora bien, para realizar este clculo correctamente, hay que tener en cuenta algunos principios psicoacsticos. En primer lugar, para deteminar si una distorsin es audible, hay que compararla con el umbral de enmascaramiento en toda la frecuencia, puesto que el odo integra todas las distorsiones del banco de ltros auditivos [Langhans92] [Buus86]. Adems, el sistema auditivo humano es capaz de integrar la informacin acstica a lo largo del tiempo, ms all de la duracin de una trama. Este tiempo se estima en unos 300ms [Brink64]. Por lo tanto, la detectabilidad de una distorsin aumenta con su duracin, lo que debe ser tenido en cuenta por el modelo psicoacstico [Par02]. En codicacin paramtrica de audio, la importancia perceptual de un pico espectral se evala mediante la relacin seal-a-mscara (Signal-to-Mask Ratio, SMR), que es la distancia entre la potencia del pico espectral y la mscara a esa frecuencia [Verma99b]. Sin embargo, esta denicin no tiene en cuenta ni la integracin de la frecuencia tras el banco de ltros auditivos, ni la integracin temporal, ms an cuando un tono representa la parte estacionaria de la seal de audio. Ambas cuestiones se han tenido en cuenta en algunos modelos tonales propuestos. As en [Heusdens02], se integra sobre toda la frecuencia para calcular la importancia perceptual. En [Levine98], se da mayor importancia perceptual a aquellas trayectorias tonales de mayor duracin. En cualquier caso, una vez calculada la importancia perceptual de cada tono mediante el umbral de enmascaramiento de la componente tonal, esta informacin no slo puede servir para determinar los tonos audibles, sino que se debe tener en cuenta para clasicar los tonos
58
desde un punto de vista perceptual.
3.1.2.
Tonos con relacin armnica y tonos aislados
La componente sinusoidal de la seal de audio se divide en dos sub-componentes: una armnica y otra de tonos aislados. La sub-componente armnica se incluye por dos razones. La primera es que los sonidos armnicos ocurren de forma natural en la seal de audio, unas veces aislados y otras en combinacin con otros sonidos. La segunda razn hay que buscarla en la reduccin de informacin que supone la representacin de la seal en: frecuencia fundamental y nmero de armnicos. Esta representacin es muy eciente sobre todo cuando el nmero de armnicos es alto. Los tonos aislados se tienen que incluir para modelar los tonos que no tienen relacin armnica. Esta clasicacin de los tonos aparece en algunos codicadores de audio [Serra97] [Purnhagen98] [Masri96]. Sin embargo, en otros, como el codicador PPC [Brinker02], dicha clasicacin no se tiene en cuenta, puesto que en la seal de audio puede haber ms de un complejo armnico y esto complica sobremanera el codicador. En teora, las frecuencias con relacin armnica son mltiplos enteros de la frecuencia fundamental f . El modelo ms simple de un complejo armnico es aquel donde las amplitudes y frecuencias de los tonos son constantes durante la duracin de una trama:
Nh
shc [n] =
k=1
Ak cos k f n + k
(3.2)
En esta expresin, Nh es el nmero de armnicos, Ak la amplitud del armnico k -simo y k su fase. Los algoritmos para la estimacin de la frecuencia fundamental f se han desarrollado primero en el campo del tratamiento de seal de voz, y son diversos [Kleijn95] [Hess83] [Rabiner78] [Sondhi68]. De forma similar, el modelo para tonos aislados con amplitudes y frecuencias constantes es
Nc
sis [n] =
k=1
Ak cos k n + k
(3.3)
donde Nc es el nmero de tonos y k la frecuencia del tono k . Si bien este modelo tan bsico se ha usado en algunos codicadores paramtricos de audio es generalmente inadecuado para un rango amplio de seales de audio [Myburg04]. Complejo armnico El modelo matemtico de la ecuacin (3.2) para un complejo armnico es demasiado simple para su empleo en la prctica debido a dos razones: 1) los cambios no estacionarios que se producen en algunas seales armnicas y 2) las propiedades no lineales en frecuencia de algunos instrumentos. Los cambios en el complejo armnico de algunas seales afectan a varios de sus parmetros, siendo la seal de voz la que tiene tpicamente un comportamiento dinmico ms cambiante. Como se puede observar en la gura 3.3, la variacin de amplitud de la seal ha de tenerse en cuenta en la duracin de una trama. Una solucin consiste en el modelado de la amplitud de los tonos mediante un polinomio de orden bajo. Otro aspecto a tener en cuenta es el cambio de la
59
frecuencia fundamental con el tiempo, lo que afecta a todo el conjunto de armnicos. Un modelo para este efecto [Sluijter99] se basa en suponer una variacin lineal de la frecuencia fundamental (f + 2c n), donde c es el cambio de frecuencia y n el tiempo discreto. La estimacin del parmetro de cambio de frecuencia c se realiza aplicando modicaciones sobre el eje temporal (time warping ) [Sluijter99]. En cuanto a las propiedades no lineales de algunos instrumentos de cuerda, como el piano, el efecto en trminos de seal corresponde a que la relacin entre la frecuencia fundamental f y el resto de frecuencias armnicas no es un nmero entero, sobretodo para los armnicos de alta frecuencia. Este efecto, conocido como inharmonicity en la literatura, se puede predecir para el armnico k mediante: kf donde el parmetro B vale 3 d4 E (3.5) 64T L2 y depende de las caractersticas fsicas de la cuerda como: el dimetro d, el factor de Young o elasticidad del material E , su tensin T y su longitud L [Fletcher64]. Hay varias tcnicas en la literatura para estimar el parmetro B . En [Lattard93], se obtiene aplicando la ecuacin (3.4) a partir de las frecuencias estimadas. En [Galembo99], se realiza una bsqueda sobre un rango especicado de valores de B . Los mismos autores en [Askenfelt00] aplican tcnicas basadas en el cepstrum. Pese a este desarrollo de mecanismos para utilizar el complejo armnico, el codicador HILN [Purnhagen98] es el nico que distingue esta sub-componente, teniendo en cuenta las propiedades de los instrumentos de cuerda. As, la frecuencia del armnico k -simo se calcula como ([MPEG99b, anexo A]) B= 2) kf (1 + Bk (3.6) 1 + Bk 2 (3.4)
En el codicador HILN, primero se estima la frecuencia fundamental a partir del cepstrum mediante un de la seal. Despus, se extraen todos los armnicos, para calcular el parmetro B algoritmo iterativo [Edler96] que minimiza el error entre los tonos calculados mediante (3.6) y los previamente estimados [MPEG99b]. Tonos aislados Como en el caso del complejo armnico, el modelo simplista propuesto para los tonos aislados en 3.3 es inadecuado cuando los tonos no son estacionarios. Este modelo se ha complementado para tener en cuenta la no estacionareidad tanto en amplitud como en frecuencia. Para la no estacionareidad en las amplitudes, se han llegado a proponer modelos de tonos que abarcan el modelado de transitorios. As, en [Goodwin97] [Friedlander95] se hace referencia al modelado de la seal con amplitudes tonales exponenciales Ak [n] = Ak ek n , con k < 0. Esta extensin del modelo tonal se utiliza en [Heusdens00] [Nieuwenhuijse98], en combinacin con una segmentacin adaptativa dependiente de la seal, para el modelado de transitorios en un codicador paramtrico de audio. Tambin hay propuestas menos ambiciosas con amplitudes tonales
60
polinmicas [George87]. La no estacionareidad en frecuencia se modela generalmente mediante fase polinmica [Goodwin97]. Por ejemplo, en [George87] se considera la variacin de fase como k [n] = k + k n + k n2 siendo suciente para los tonos de la seal de audio.
3.1.3.
Mtodos para mejorar la extraccin tonal
La obtencin ptima de los parmetros de un tono (amplitud, fase y frecuencia) es un problema difcil, debido a que frecuencia y fase estn contenidas dentro del argumento de la funcin coseno. Como se ha visto anteriormente, el empleo de la transformada de Fourier es la primera piedra de toque en el clculo de estos parmetros. La distribucin tiempo-frecuencia que desarrolla la transformada de Fourier para una seal segmentada se conoce como STFT (Short-Time Fourier Transform) [Cohen95]. Esta distribucin es computacionalmente eciente gracias al algoritmo FFT, aunque su resolucin es poco exible. As, la descomposicin se realiza con funciones base exponenciales complejas con amplitud constante y, por tanto, estacionarias en la trama de anlisis. Si la seal de audio es no es estacionaria en un segmento (que para este caso es similar a decir que la amplitud o frecuencia de los tonos varen en un segmento), la descomposicin obtenida mediante la STFT es poco til. Sin embargo, para la mayora de los segmentos de audio, la estacionareidad es suciente para la STFT. La asignacin de tonos a los picos espectrales de la STFT es un algoritmo directo y simple de obtencin de parmetros del modelo sinusoidal. Sin embargo, la exactitud del modelo, sobre todo en frecuencia, est limitada por el muestreo en frecuencia de la DFT y es insuciente. Se necesitan algoritmos de obtencin ms robustos, especialmente desde un punto de vista psicoacstico, por lo que han aparecido en la literatura una serie de mtodos con aplicacin a codicacin paramtrica de audio para mejorar la extraccin tonal de la STFT. Entre estos mtodos se destacan los siguientes: Relleno con ceros e interpolacin. Si se rellena con ceros la seal enventanada antes de realizar la DFT, el efecto en el espectro es la interpolacin. Como resultado el mximo de los picos espectrales se puede obtener de una forma ms aproximada, lo que redunda en una estimacin de frecuencia ms exacta. [Serra97]. Derivada de la seal. La aplicacin de la derivada de la seal para obtener una frecuencia ms aproximada se realiza en [Desainte00]. Anlisis de la distorsin de fase. La forma de la fase del espectro en las zonas prximas a un pico espectral permite estimar si el tono tiene una amplitud exponencial. Tambin es posible determinar si se produce un cambio de frecuencia del tono durante la trama de anlisis [Masri96] [Masri98]. Optimizacin no lineal restringida. En [Hamdy99] se formula un problema de optimizacin no lineal con bsqueda limitada de soluciones. La funcin de coste a minimizar propuesta es similar a c = (x[n] smodelo [n]) w[n]
2
(3.7)
donde x[n] es la seal original en la trama actual de tamao Ns , smodelo [n] es la seal sinttica obtenida mediante los parmetros del modelo tonal y w[n] es la ventana utilizada.
61
La bsqueda de los parmetros tonales se restringe a un mbito reducido. Por ejemplo, para el caso de la frecuencia, el rango de bsqueda es: k,inicial Bs Bs < k,mejorada < k,inicial + 2 2 (3.8)
2 es la separacin de las muestras del espectro de la DFT en rad/s, k,inicial es donde Bs = N s la estimacin inicial de la frecuencia, y k,mejorada la estimacin mejorada de la frecuencia. Tambin se restringen las amplitudes de una manera similar. La soluciones aportadas por este planteamiento conducen a una deteccin considerablemente exacta de los parmetros de frecuencia y amplitud de cada tono.
Optimizacin por el mtodo de Gauss-Newton. En [Depalle97] se utiliza el mtodo numrico de Gauss-Newton para obtener una estimacin ms aproximada de frecuencia y fase. El modelo usado es el ms sencillo, puesto que tanto frecuencia como amplitud son constantes en la trama de anlisis. Los resultados obtenidos maniestan una alta sensibilidad a la forma de la ventana, por lo que se necesita el uso de ventanas sin lbulos laterales. En el proceso iterativo de optimizacin los tonos muy prximos en frecuencia se llegan a fusionar en uno solo. Mtodo de Newton. En [Vos99] se realiza una bsqueda de soluciones ptimas haciendo uso del gradiente o mtodo de Newton para mejorar la deteccin inicial de la DFT. Este mtodo se ha extendido, permitiendo amplitudes exponenciales de los tonos en [Heusdens00]. Anlisis de la fase. El anlisis de la fase de la transformada como un polinomio de la forma k [n] = k + k n + k n2 permite la deteccin bastante exacta de la frecuencia k y del cambio de frecuencia k . La primera propuesta que aparece en la bibliografa [Tretter85] tiene el inconveniente de tener que obtener una funcin de fase lineal (unwrapping ). Este inconveniente es evitado en [Kay89] mediante el uso de datos de fase diferenciales, por lo que esta tcnica se ha incluido con xito en codicadores paramtricos de audio [Edler96]. Algoritmo matching pursuits. Este es uno de los mtodos ms utilizados en codicacin paramtrica de audio. El origen de este enfoque hay que buscarlo en el empleo de descomposiciones atmicas, que se tratar con detenimiento en el prximo captulo. Bsicamente, la idea es descomponer la seal enventanada en un conjunto de funciones que pertenecen a un diccionario. Este diccionario debe tener un conjunto amplio de funciones, es decir, debe ser sobre-completo. La ventaja que permite el empleo de un diccionario de estas caractersticas es la de descomponer la seal en slo unas pocas funciones (con el objetivo de comprimir al mximo la seal). El algoritmo ms utilizado para realizar la descomposicin es matching pursuits [Mallat93]. Este es un algoritmo iterativo que en cada iteracin elige, para el caso del modelo sinusoidal, el tono ms correlado con la seal, es decir, aquel tono que extrae ms energa de la seal. La principal ventaja del algoritmo matching pursuits radica en que no se extraen picos espectrales debidos a lbulos laterales [Myburg04]. Sin embargo, como inconveniente, es destacable que si se produce una extraccin errnea de un tono, esta decisin puede afectar a otros tonos extrados posteriormente. Este algoritmo ha sido extendido incluyendo informacin psicoacstica con el objetivo de extraer en cada iteracin el tono ms importante perceptualmente [Verma99b] [Heusdens02b].
62
Estimacin por mxima semejanza. Este enfoque ha surgido en la literatura para otras aplicaciones; en concreto, para usos geofsicos. En esta tcnica se emplea un conjunto de ventanas ortogonales, llamadas ventanas discretas esferoidales, y usa adems el test estadstico F-test para decidir si un tono existe en una frecuencia particular [Thomson82]. El test estadstico ayuda a la discriminacin entre picos espectrales y lbulos secundarios puesto que da valores altos en el primer caso. Minimizacin por mnimos cuadrados. Esta tcnica est diseada expresamente para reducir la complejidad, con el objetivo de evitar una bsqueda iterativa demasiado costosa en ocasiones para la codicacin en tiempo real. Por lo tanto, se extraen todos los tonos se forma simultnea, directamente a partir de los picos espectrales [Mcaulay86]. Posteriormente, en lugar de elegir los parmetros de amplitud y fase directamente del espectro, se resuelve un conjunto de ecuaciones lineales que minimizan por el mtodo de mnimos cuadrados el error entre la seal original y la obtenida por el modelo [George87]. La ventaja de este enfoque es que no hay propagacin del error. Sin embargo, se pueden identicar como tonos picos espectrales debidos a los lbulos laterales de la ventana de anlisis. Otras distribuciones tiempo-frecuencia. Como se ha visto, el empleo de la STFT tiene una serie de dicultades, siendo la principal de ellas que no est pensada para que la frecuencia del tono cambie durante una trama. Por esta causa, han surgido en la literatura una serie de distribuciones adaptadas al carcter no estacionario de la seal y que ofrecen otras resoluciones tiempo-frecuencia. Cuando la seal de entrada tiene un nico tono, la distribucin mejor adaptada para estima un cambio de frecuencia lineal es la distribucin de Wigner (WD) [Cohen95]. Ahora bien, cuando hay varios tonos en la seal, esta distribucin no es viable porque surgen productos cruzados en el plano tiempo-frecuencia. Como solucin a este problema se pueden emplear las clases de Cohen, las cuales proporcionan un conjunto de distribuciones tiempo-frecuencia [Cohen95]. El clculo de la transformada de Fourier sobre un plano tiempo-frecuencia con una distribucin de este tipo permite la extraccin de los parmetros tonales. Esta transformada se conoce como la funcin de ambigedad (AF) para la distribucin de Wigner [Peleg91] o funcin de ambigedad de orden elevado (HAF) para las distribuciones de Cohen. An calculando la funcin HAF, se producen algunos trminos cruzados entre los tonos, por lo que en [Barbarossa98] se presenta una modicacin llamada funcin ambigedad de orden elevado mediante producto (PHAF) que suprime estos trminos. El nico problema residente con la funcin PHAF aparece cuando las amplitudes de los tonos tienen un rango dinmico amplio. Un algoritmo iterativo apropiado en codicacin paramtrica de audio que hace uso de estas tcnicas aparece en [Ikram01]. Este algoritmo, al igual que matching pursuits, extrae en cada iteracin el tono con mayor peso, aunque en la funcin PHAF en este caso, por lo que tiene el mismo problema de propagacin de error. A la vista de la revisin de mtodos realizada, se puede concluir que hay un gran nmero de opciones a la hora de elegir el mtodo a utilizar en un codicador paramtrico de audio. Si bien los mejores resultados subjetivos se han conseguido con el algoritmo matching pursuits con adaptacin psicoacstica [Heusdens02b], ste tiene una complejidad demasiado elevada para su
3.2. MODELADO DE TRANSITORIOS
63
implementacin en tiempo real. Las diferentes opciones elegidas por los codicadores paramtricos de audio propuestos en la bibliografa se comentarn posteriormente.
3.2.
Modelado de transitorios
El modelado sinusoidal combinado con un modelado de ruido adecuado es un modelo simple y eciente para un conjunto amplio de seales de audio. Sin embargo, este modelo mixto de dos componentes no puede modelizar de forma eciente todas las seales de audio. El principal inconveniente de este modelo reside en el hecho de que no est preparado para manejar de forma correcta los transitorios presentes en la seal. En esta seccin se introduce el problema del modelado de transitorios, que complementa al modelado sinusoidal consiguiendo un modelo eciente y adaptado a seales de audio genricas de gran ancho de banda. A continuacin, se razona la necesidad de un modelo explcito para la parte transitoria de la seal, y se resumen las tcnicas utilizadas en la literatura para el modelado de transitorios.
3.2.1.
La necesidad de un modelado de transitorios
Como se ha visto anteriormente, el modelo sinusoidal extrae las componentes tonales que tienen una lenta variacin en el tiempo, dejando como residuo aquellas componentes de seal que no cumplen con esta premisa, como son las componentes transitoria y ruidosa de la seal [George87][Serra89]. En cualquier caso, extrayendo un gran nmero de tonos mediante el modelado sinusoidal, es posible obtener las otras componentes, como hace la Transformada de Fourier, aunque no es la manera ms eciente, puesto que para representar un transitorio, corto en el tiempo, con tonos de larga duracin se necesitan un gran nmero de frecuencias. En [George87] el modelado sinusoidal est pensado para aplicarlo sobre la seal de voz. En este caso, el residuo formado por transitorios y ruido es normalmente enmascarado por la componente tonal de la seal en los segmentos sonoros de sta. Sin embargo, en aplicaciones de seal de audio de alta calidad este residuo es necesario para la integridad perceptual de la seal. Codicadores posteriores [Serra89], diseados para seal de audio, incluyen un modelo explcito para el residuo. Este modelo es tan simple como un ruido blando ltrado en tiempo y frecuencia a partir de las caractersticas del residuo. Sin embargo, esta tcnica no se ajusta a las caractersticas de la componente transitoria de la seal, lo que produce que los ataques se dispersen en el tiempo y se perciban como una seal ruidosa. Por lo tanto, debido a que los transitorios no se pueden modelar con alta calidad y de forma eciente con los modelos sinusoidal y de ruido, es necesario la inclusin de un modelo de transitorios que maneje de forma independiente esta componente de la seal de audio.
3.2.2.
Tipos de modelado de transitorios existentes
El primer mtodo considerado para el tratamiento independiente de los transitorios se basa en separar las reas transitorias del residuo. Para las partes no transitorias, se implementa un modelo de ruido, mientras que la componente transitoria se codica por transformada, ya sea usando la transformada discreta de coseno [Levine98] o la transformada wavelet-packet [Ali95]. Aunque este mtodo tiene buenos resultados perceptuales, se aleja de la codicacin paramtrica
64
en tanto en cuanto no se tiene un modelo de transitorios sino su transformada codicada. Adems, este enfoque no permite la modicacin de la seal de audio en el dominio codicado. La necesidad de un modelo paramtrico de baja complejidad para los transitorios, que permita un amplio rango de modicaciones de seal y se complemente con los modelos sinusoidal y de ruido existentes, ha motivado la aparicin de diferentes enfoques para la solucin del problema planteado. Sin embargo, muchos de estos mtodos no consiguen sintetizar de forma satisfactoria los ataques de la mayora de los instrumentos musicales. Inversin de la envolvente del transitorio y modelado sinusoidal. Debido a que la componente transitoria de la seal se caracteriza por un breve intervalo de alta energa, una estrategia para parametrizarla consiste en la obtencin de la envolvente [Brinker02] [MPEG03]. Tras esto, se divide la seal entre la envolvente, obtenindose un segmento de caractersticas estacionarias en energa, el cual se puede modelar mediante la herramienta de extraccin tonal para conseguir un residuo blanqueado. La envolvente se modela utilizando la funcin de Meixner de tiempo discreto [Brinker95]. La ventaja de esta funcin es que dene dos parmetros: uno para describir la cresta del ataque y otro para modelizar su cada exponencial. Los resultados demuestran que la envolvente denida de esta forma se ajusta correctamente a diferentes ejemplos de transitorios que aparecen en las seales de audio [Brinker02]. Con este modelo de transitorios se generan los siguientes parmetros: La posicin donde comienza el transitorio. Los dos parmetros de la envolvente denida como funcin de Meixner. Los parmetros sinusoidales (amplitud, frecuencia y fase) que describen la seal bajo la envolvente. El principal problema de este mtodo es que la suposicin de que la seal bajo la envolvente se puede modelizar con un modelo tonal no es del todo cierta. Para obtener un modelo de transitorios siguiendo este enfoque, con resultados psicoacsticamente satisfactorios, son necesarios un elevado nmero de tonos en el modelo sinusoidal subyacente y, por lo tanto, un rgimen binario elevado. Los resultados subjetivos conseguidos a regmenes binarios reducidos (24 Kbits/s) mediante pruebas de audicin [Brinker02] muestran que en las seales con transitorios, como las castauelas, la calidad obtenida es baja, obtenindose para estas seales mejores resultados con codicadores por transformada. Aplicacin de un modelo sinusoidal sobre el dominio transformado. La dualidad tiempofrecuencia tiene propiedades que, utilizadas convenientemente, pueden ayudar al desarrollo de un modelo de transitorios basndose en el modelado sinusoidal ya conocido [Verma99]. La premisa a tener en cuenta es que el modelado sinusoidal es capaz de describir seales tonales, de lenta variacin en el tiempo, debido a que corresponden a picos en el dominio de la frecuencia. Como se ha visto anteriormente, mediante la transformada de Fourier en cada segmento de seal (STFT) se realiza un anlisis de seguimiento de picos espectrales, deniendo los tonos importantes de la seal de audio. Sin embargo, los transitorios tambin se denen como picos, si bien en el dominio del tiempo. Al contrario que las seales tonales, su transformada de Fourier da lugar a oscilaciones suaves del espectro. Por lo tanto, ha-
3.2. MODELADO DE TRANSITORIOS
65
ciendo el mismo seguimiento de picos, en el dominio adecuado, se puede llegar a obtener un modelo de transitorios similar al modelado sinusoidal previamente estudiado. En [Verma98] se utiliza la transformada discreta de coseno (DCT) como dominio sobre el que se aplica el modelo sinusoidal. La estructura del modelo de transitorios se basa en aplicar primero la transformada discreta de coseno (DCT) para, posteriormente, hacer un seguimiento de picos espectrales sobre la transformada de Fourier de segmentos consecutivos (STFT) de seal en el dominio de la DCT. De esta forma, se consigue, segn [Verma98], una descripcin precisa basada en parmetros de la parte transitoria de la seal. Sin embargo, los resultados obtenidos no han sido muy relevantes, obteniendo calidades aceptables a regmenes binarios del orden de 32 Kbits/s, donde hay codicadores por transformada con calidad mayor, como, por ejemplo, el AAC [MPEG97a]. La razn de estos resultados hay que buscarla en la idoneidad del mtodo propuesto para la extraccin de transitorios. As, en el modelo sinusoidal cada pico espectral se sustituye en el tiempo por un tono, suponindose que ese pico espectral se corresponde con el mximo de la transformada de la ventana utilizada desplazada a la frecuencia del tono modelado. Esta suposicin es vlida porque la seal de audio es muy tonal es los segmentos estacionarios. En este modelo de transitorios, esta suposicin aplicada para segmentos transitorios en el dominio de la DCT no tiene por qu ser cierta. Muy al contrario, los picos que se obtienen aplicando la transformada de Fourier sobre la seal en el dominio DCT tienen una naturaleza muy diversa como corresponde a los diferentes tipos de transitorios. En cualquier caso, ste es el primer intento de modelado de transitorios que, tras estudiar las caractersticas propias de la parte transitoria del audio, aplica un modelo paramtrico que se basa en esos resultados. Descomposiciones atmicas con tomos de Gabor o exponenciales amortiguadas. De entre los diferentes mtodos propuestos para el modelado de transitorios, el empleo de sinusoides amortiguadas exponencialmente (Exponentially Damped Sinusoids, EDS) es la eleccin con mayor xito encontrada en la literatura [Nieuwenhuijse98] [Goodwin97b], debido a la presencia de estas funciones en las seales de carcter oscilatorio. Una funcin de este tipo corresponde a la respuesta al impulso de un polo complejo, lo cual es una caracterstica idnea para representar transitorios, especialmente aquellos producidos por sistemas lineales [Goodwin97]. Se han aportado diferentes soluciones para el desarrollo de un modelo de transitorios; sin embargo, el trabajo mejor documentado [Goodwin97] utiliza una descomposicin atmica basada en matching pursuits [Mallat93] como mtodo para extraer las caractersticas de la seal. Una mayor discusin acerca de estas descomposiciones se tratar en el siguiente captulo. El algoritmo matching pursuits utiliza un diccionario sobre-completo compuesto por tomos, que no son ms que funciones a extraer de la seal. En cada iteracin del algoritmo se extrae el tomo ms correlado (el que extrae ms energa) con la seal. El diccionario se disea para extraer ciertas caractersticas de la seal. As, si se compone de exponenciales complejas [Verma99], se utiliza para modelado sinusoidal. En el caso de querer modelar transitorios, el diccionario se ajustar a este propsito cuando se componga de funciones exponenciales amortiguadas (EDS). En cada iteracin del algoritmo se extrae una funcin de la familia EDS caracterizada por tres parmetros: factor de amortiguamiento, frecuencia y tiempo de comienzo. Si bien la parametrizacin conseguida con este mtodo es completa y los resultados prom-
66
Distorsin perceptual
Tonos
Tonos y ruido
16
24
64
Rgimen binario (kbits/s)
Figura 3.5: Esbozo de la distorsin perceptual en relacin al rgimen binario cuando se utiliza slo el
modelado sinusoidal o el modelado sinusoidal ms un modelo de ruido.
etedores [Goodwin97], el principal problema radica en la gran complejidad necesaria para la obtencin de los parmetros del modelo, debida, principalmente, al enorme tamao del diccionario necesario. Aunque se ha trabajado sobre el tema aplicando bancos de ltros recursivos [Goodwin97b] para la actualizacin de las correlaciones del algoritmo matching pursuits [Mallat93], la complejidad sigue siendo demasiado elevada para obtener descomposiciones en tiempo real [Vera04a].
3.3.
Modelado de ruido
Como se ha visto anteriormente, un segmento estacionario de la seal de audio se puede descomponer en un conjunto de tonos mediante la aplicacin del modelado sinusoidal. Sin embargo, por muchos tonos que se incluyan en la descripcin de la seal la calidad obtenida no es satisfactoria sin la inclusin de un modelo de ruido. La explicacin de este hecho hay que buscarla en que tanto la componente sinusoidal como el ruido son dos entidades fundamentales en el campo de la percepcin. Por ejemplo, el sonido producido por una auta contiene estos dos elementos. Por un lado hay un conjunto de tonos relacionados armnicamente, y por otro, est el silbido (o ruido) producido por la corriente de aire. En el caso de la seal de voz, hay una distincin entre fonemas sonoros (tonales) y sordos (ruidosos). Si no se incluye el modelo de ruido, el resultado de la seal codicada no es natural, en cualquiera de los dos ejemplos. Esto conduce a la necesidad de incluir un modelo de ruido para codicar la seal residual derivada de la aplicacin del modelo sinusoidal y del modelo de transitorios. La gura 3.5 ilustra que la descomposicin de una seal de audio en un modelo tonal ms un modelo ruidoso da como resultado una seal codicada de mayor calidad que cuando slo se utiliza el modelo tonal, especialmente a bajo rgimen binario. Los modelos de ruido utilizados en la literatura se ocupan de parametrizar la envolvente de la seal en tiempo y frecuencia, ignorando la forma de onda como tal. Tanto la resolucin espectral como la temporal del modelo deberan ajustarse a las propiedades de percepcin de ruido del
3.3. MODELADO DE RUIDO
67
odo humano. El modelo de ruido en general es comn a las diversas propuestas encontradas [Goodwin96] [Fitz95] [Ding97] [Lam99] [Purnhagen99]. As, en el decodicador, lo primero que se hace es generar ruido blanco, de donde se deriva el nombre de modelo estocstico asignado con frecuencia al modelo de ruido. En la literatura aparece un ejemplo donde incluso se genera una excitacin multipulso [Ding97]. Esta seal estocstica se conforma despus en tiempo y frecuencia. La conformacin temporal se consigue tpicamente dividiendo la seal de entrada en tramas cuyo tamao se aproxima a la resolucin temporal del odo humano [Goodwin97], si bien esta resolucin depende de la frecuencia de la seal (4 ms a 1 KHz, 1 ms a 4 KHz) [Schijndel99]. Para la conformacin espectral, se obtiene la envolvente espectral de la seal, aunque en este caso hay un gran nmero de opciones en la literatura. A continuacin, se tratan ms detenidamente las tcnicas ms utilizadas para modelar el ruido en frecuencia.
3.3.1.
Esquemas de modelado de ruido basados en prediccin lineal
El primer intento de parametrizar la envolvente del espectro del residuo corresponde a [Serra89], quien propuso una aproximacin del espectro del residuo en segmentos lineales. Sin embargo, el mismo autor [Serra89] considera que el mejor mtodo para obtener la envolvente del residuo se basa en la utilizacin de un ltro con respuesta al impulso innita (Innite impulse response, IIR) todo polos. Utilizando la seal residual como entrada, un sistema de prediccin lineal (Linear Predictive Coding, LPC) optimiza los coecientes del ltro [Markel76]. Una vez conseguidos estos coecientes, el ltro necesario en el decodicador se debe implementar mediante una estructura en celdas (o lattice ) para evitar problemas de estabilidad. Otros autores han usado la tcnica LPC para modelizar la componente residual [Serra97] [Purnhagen00]. Incluso, en algunos trabajos [Brinker00], se han utilizado ltros con ceros y polos (Auto-Regressive Moving Average, ARMA), pese al enorme crecimiento en complejidad del esquema de prediccin lineal. Pese a todo, el mayor inconveniente de los modelos LPC es que la resolucin lineal en frecuencia que obtienen no coincide con la resolucin logartmica (en escala de bark) del sistema auditivo humano [Zwicker90]. Una variante que solventa este problema es el uso de la tcnica warped -LPC [Strube80], en la que se aumenta la resolucin en bajas frecuencias a expensas de reducirla en altas frecuencias, de modo similar a como opera el odo humano. Este modelo LPC de frecuencia modicada debe tener una resolucin similar a la escala de bark [Smith95] [Harma01], con el objetivo de seguir principios psicoacsticos. La tcnica warped -LPC ha sido aplicada en codicacin de audio en diversas ocasiones [Schuijers02] [Myburg04], debido a sus ventajas: 1) la resolucin espectral de la prediccin lineal se ajusta a la del odo humano, de tal forma que el error de cuanticacin de los coecientes tiene una distribucin similar al umbral de enmascaramiento en frecuencia [Harma00a], 2) la complejidad necesaria para obtener los coecientes del ltro lineal, as como su para su implementacin, es baja. Una alternativa a la tcnica warped -LPC es el uso de LPC con ltros de Laguerre [Brinker03], cuya estructura y resultados son similares. La validez de este mtodo ha provocado su inclusin en los estndares de codicacin paramtrica de audio de MPEG-4 [Schuijers02] [MPEG03].
3.3.2.
Esquemas de modelado de ruido basados en ltros perceptuales
Otra va de obtener la envolvente en frecuencia de la componente residual de audio consiste en disear un banco de ltros cuya respuesta en frecuencia tenga en cuenta las caractersticas del
68
odo humano. Este tipo de banco de ltros se disea basndose en el hecho de que el odo humano es sensible al conjunto de la energa de ruido en cada banda crtica, independientemente de su distribucin dentro de cada banda crtica [Zwicker90]. Teniendo esto en cuenta, si el residuo es ruido de banda ancha, se puede generar una rplica, indistinguible psicoacsticamente, a partir de ruido blanco ltrado, de forma que cada banda del ltro establezca la energa original de la seal residual en cada banda crtica. Sin embargo, el elevado nmero de bandas crticas hace que el rgimen binario de un modelo de este tipo, que obtenga como parmetros la potencia de ruido de cada banda crtica, sea demasiado elevado. Para poder llevar a la prctica un modelo con estos principios, es necesario reducir el nmero de bandas del banco de ltros. Siguiendo este criterio, en [Goodwin97] se utiliza el concepto de ERB (Equivalent Rectangular Bandwidth) [Goodwin96], que proviene del concepto de bandas crticas, en el sentido de que el ancho de banda de cada banda es proporcional al de la banda anterior y crece en frecuencia. Este enfoque ha sido utilizado en algunos codicadores de audio [Verma99], porque es particularmente apropiado para la compresin de la seal.
3.4.
Codicadores paramtricos
En este apartado se revisarn las caractersticas y herramientas utilizadas en los diversos codicadores paramtricos encontrados en la literatura. Como es lgico, el uso de herramientas paramtricas en los codicadores de audio ha sido un proceso evolutivo, es decir, se han ido incorporando modelos paramtricos para las componentes de la seal de audio a codicadores por transformada previos, con el objetivo de optimizar su funcionamiento a bajo rgimen binario.
3.4.1.
Codicadores hbridos
La primera aparicin de herramientas paramtricas se produce con la utilizacin del modelo tonal en codicadores por transformada, dando lugar a codicadores hbridos. En estos codicadores, en la mayora de los casos, se incluye el modelado sinusoidal como un mecanismo de anlisis cuando la seal tiene propiedades estacionarias. En algunos casos, adems, se ha usado la sustitucin de ciertas bandas de la transformada con caractersticas estocsticas por ruido generado sintticamente. Estos dos modelos paramtricos son los ms usados por los codicadores hbridos. A continuacin, se detalla el funcionamiento de los codicadores hbridos ms relevantes. Codicador de Ali [Ali95] El primer codicador de audio que introduce tanto el modelado sinusoidal como la sustitucin de bandas de seal con propiedades estocsticas por ruido es el descrito en la tesis de Ali [Ali95]. En la gura 3.6 se observa el esquema de funcionamiento de este codicador, donde el uso de transformadas se reduce, bsicamente, al tratamiento de los transitorios por una transformada wavelet. A grandes rasgos, el codicador lo primero que realiza es una anlisis tonal que elimina de la seal esta componente produciendo un residuo. El modelo tonal est basado en el desarrollado por [Mcaulay86] para seal de voz, aunque no se utiliza el algoritmo de minimizacin por
3.4. CODIFICADORES PARAMTRICOS
69
Masking model
Encode side information
Input data
Harmonic analysis
Harmonic reconstruction
Encode harmonics
Residual Wavelet analysis Tracking of transients Encode transients Bit packing Coded data
Remove transients
Encode as noise
Figura 3.6: Esquema del funcionamiento del codicador hbrido propuesto en [Ali95]. mnimos cuadrados para la deteccin tonal. En este caso, se hace uso de una tcnica, no utilizada previamente en audio sino en aplicaciones geofsicas, descrita en [Thomson82]. Al residuo obtenido, que contiene transitorios y ruido, se le aplica una transformada wavelet. Se consideran como ruidosas aquellas bandas wavelet por encima de 11 KHz, codicndose como ruido. Los parmetros codicados son la potencia de cada banda y la cada exponencial de su distribucin de amplitudes. Las dems bandas se consideran transitorios y se cuantican directamente los coecientes de la transformada. En cuanto a resultados, el codicador de Ali obtiene un rgimen binario de 1 bit/muestra, que equivale a 44 Kbits/s, suponiendo seales mono con calidad CD. El autor etiqueta su codicador de alta calidad o casi transparente, lo que equivaldra a un valor de 4 en la escala MOS, segn la recomendacin BS.1116-1 del ITU-R. Adems, se admite que la seal con peor resultado subjetivo es la correspondiente a las castauelas, que est incluida dentro del conjunto de seales de test para codicacin de MPEG [MPEG03b], debido a la aparicin de pre-ecos en la seal decodicada . Codicador de Levine [Levine98] Este codicador, propuesto por [Levine98] en su tesis doctoral, tiene como nalidad conseguir ciertos tipos de procesado de seal en el dominio comprimido, como son: modicaciones en el pitch y en la escala temporal. Para ello, es necesario conseguir separar las diferentes componentes (transitorios, tonos y ruido) de la seal de audio. Por ejemplo, para el cambio de tempo, hay que realizar la modicacin de la duracin de los tonos y el ruido de la seal en el tiempo, mientras que los transitorios slo deben ser trasladados en el eje temporal. Como se observa en la gura 3.7, para conseguir esta separacin, un determinado segmento de la seal de audio se etiqueta como transitorio o como estacionario. Si se tiene un segmento transitorio, se aplica codicacin por transformada, mientras que si el segmento es estacionario, se aplica un modelo tonal seguido de otro de ruido. El codicador proporciona las herramientas necesarias para que un cambio de etiquetado no produzca distorsiones en la seal codicada. En cuanto a las tcnicas utilizadas, la codicacin por transformada se realiza mediante la
70
transient detector
Input signal
multiresolution sinusoidal modeling transform-coded transients
Sines
Transients
Bark-band noise modeling
Noise
Figura 3.7: Esquema del funcionamiento del codicador hbrido propuesto en [Levine98]. transformada de coseno modicada MDCT, con un tamao de ventana muy reducido, puesto que se aplica slo en segmentos transitorios de la seal. Para realizar el modelado sinusoidal, se aplica un modelo multi-resolucin, con tamaos de ventana decrecientes en la frecuencia para adaptarse a las caractersticas del odo. Una caracterstica destacable de este codicador es que el modelado sinusoidal se aplica por debajo de 5 KHz, suponiendo que por encima de esta frecuencia la seal se puede modelar mediante ruido. La estimacin de las frecuencias se realiza de la misma forma que en el codicador de Ali, mediante estimacin de mxima semejanza [Thomson82]. En cuanto al modelo de ruido, se utiliza un modelado en banda de bark, es decir, se calcula en el codicador la potencia en cada banda de bark, sintetizndose el residuo en el decodicador mediante un banco de ltros con esta distribucin en frecuencia. En cuanto al anlisis de resultados, el codicador de Levine est diseado para proporcionar un rgimen binario entre 20 y 32 Kbits/s. En lo relativo a la calidad subjetiva, como arma el autor, se introducen necesariamente algunos artefactos de codicacin. En esta tesis se proporcionan una serie de cheros codicados a 32 Kbit/s para comparar los resultados entre AAC y este codicador. Con los cheros elegidos no se aprecian excesivas diferencias, aunque la calidad del codicador AAC es algo mejor. En cualquier caso, es de esperar que al reducirse el rgimen binario, el codicador de Levine tenga un menor descenso de calidad perceptual que el codicador AAC, al tratarse este ltimo de un codicador por transformada.
3.4.2.
Codicadores completamente paramtricos
Como se ha visto, los codicadores hbridos dejan entrever las posibilidades de la codicacin paramtrica. Sin embargo, el paso a un codicador completamente paramtrico se puede considerar demasiado ambicioso, por el simple hecho de que en los comienzos de la codicacin paramtrica no exista un modelo apropiado para manejar los transitorios de seal. Como consecuencia, en las seales donde est presente esta componente, los codicadores por transformada obtienen mejores resultados frente a los paramtricos. Adems, hay que tener en cuenta que, en un codicador completamente paramtrico, los modelos de seal deben complementarse. Por ejemplo, el modelo sinusoidal no debe dejar componentes tonales en el residuo, aunque estos tonos no se escuchen, porque si se sintetizan como ruido el resultado perceptual es bastante pobre [Heusdens02b]. Como contrapartida, la completa parametrizacin de la seal de audio permite la realizacin, de manera directa y en el dominio comprimido, de modicaciones en la seal como

Perception Model Parameter Estimation Harmonic Components Model Based Audio Decomposition Signal Sinusoidal Components Noise Components Parameter Coding Quant Quant Quant Mux
71
selection of relevant components
Bit Stream
Figura 3.8: Esquema del funcionamiento del codicador paramtrico HILN [Purnhagen00]. el cambio de pitch o de tempo. Se realiza, a continuacin, un estudio ms pormenorizado de los codicadores paramtricos que han sido estandarizados por MPEG-4. Codicador HILN El codicador HILN [Purnhagen00] es el primer codicador de audio paramtrico estandarizado, ya que est incluido en la versin 2 de MPEG-4 [MPEG99c]. La seal de entrada se descompone en los siguientes parmetros, como se observa en la gura 3.8: Tonos sin relacin armnica o tonos individuales. Se modelan con su amplitud y frecuencia. Tonos con relacin armnica. Se describen por su frecuencia fundamental, amplitud y envolvente espectral de los parciales. Para todas las componentes tonales se utiliza el esquema de caminos tonales de [Mcaulay86] con una estimacin por mxima semejanza [Purnhagen02]. Ruido. Se modela por su amplitud en el tiempo y su envolvente en frecuencia. En este caso, la envolvente frecuencial es parametrizada mediante prediccin lineal (LPC). Adicionalmente, cuando un transitorio est presente, se incluyen los parmetros que describen la envolvente de la seal, siendo esta simple herramienta el modelo de transitorios usado. Debido a que el rgimen binario para el que est diseado va de 6 a 16 Kbits/s, slo se puede transmitir un pequeo conjunto de parmetros. Por lo tanto, se produce una seleccin de parmetros mediante criterios perceptuales. Respecto a la denicin inicial, el codicador HILN ha sido mejorado [Purnhagen00], introduciendo cuanticacin entrpica, cuanticacin dependiente de criterios psicoacsticos e, incluso, escalabilidad en rgimen binario. En cuanto a los resultados perceptuales, aunque pobres, se pueden comparar a los proporcionados por los codicadores por transformada estandarizados a similar rgimen binario. Esta armacin se verica analizando la gura 3.9, donde se incluyen los resultados de HILN no escalable a 6 Kbits/s, HILN escalable a 6 Kbits/s, AAC con TwinVQ (cuanticacin vectorial) a 6 Kbits/s, HILN no escalable a 16 Kbits/s, HILN escalable a 16 Kbits/s y AAC a 16 Kbits/s.
72
excellent good fair poor bad

5 4 3 2 1
6 H IL N H IL N Ba se Tw in VQ 6 H H I L IL N N 16 6+ 10 En ha AA C 16 6+ 10
Figura 3.9: Resultados de los test subjetivos para el codicador HILN. Para el mismo rgimen binario,
se ha usado HILN no escalable y escalable. Se comparan codicacin HILN no escalable a 6 Kbits/s (HILN 6), codicacin HILN escalable a 6 Kbits/s (HILN 6+10 Base), Twin VQ a 6 Kbits/s, HILN no escalable a 16 Kbits/s (HILN 16), codicacin HILN escalable a 16 Kbits/s (HILN 6+10 Enha) y AAC a 16 Kbits/s. [Purnhagen00].
Notar que la seal de entrada tiene un ancho de banda de 8 KHz. Es destacable que la calidad desciende slo un poco cuando se introduce la escalabilidad. Codicador paramtrico de Philips (PPC) El codicador PPC ha sido estandarizado en la versin 3 de MPEG-4. La necesidad de este codicador surge para aplicaciones de audio con alta calidad y un rgimen binario muy reducido. Ante este problema, MPEG realiz una llamada a propuestas [MPEG01] para estandarizar un codicador paramtrico con mejor calidad que AAC a un rgimen binario alrededor de 24 Kbits/s. Pese a que el objetivo inicial era muy ambicioso, al nal del proceso se ha conseguido estandarizar un codicador completamente paramtrico. La tecnologa utilizada por este codicador viene limitada por la complejidad, de forma que las tcnicas elegidas obtienen una buena relacin calidad/complejidad. Para describir el funcionamiento del codicador PPC, se detallan las tcnicas utilizadas para cada una de las componentes del audio: Los transitorios se clasican en dos tipos: transitorios de paso que no son tratados de forma especial, slo se segmenta la seal en ese instante temporal; y transitorios propiamente dichos, los cuales son parametrizados mediante la envolvente de Meixner [Brinker95] y un modelado sinusoidal. Los tonos son extrados, sin una bsqueda iterativa sino de forma paralela, siguiendo un algoritmo que minimiza una funcin de coste no perceptual similar a la optimizacin no lineal restringida [Hamdy99]. Se emplea un anlisis multi-resolucin, aunque no se agrupan las componentes armnicas [Myburg04].

100
Informal tes
73
Excellent
80
Good
60
Fair
40
Poor
20
Bad
0
AAC24
AAC32
Par24
Figura 3.10: Resultados de los test subjetivos para el codicador PPC. Se comparan los resultados a 24
Kbit/s de PPC (Par en la gura) con AAC [Breebaart04].
El modelo de ruido se implementa mediante un ltro LPC con frecuencia modicada o ltro warped-LPC, empleando para ello ltros de Laguerre [Schuijers02]. Si bien el codicador se dise en un primer momento para codicacin a 24 Kbits/s en mono [Myburg04], posteriormente se incluyeron las seales estreo. El mtodo utilizado para tratar las seales estreo emplea el codicador mono y una serie de parmetros para las relaciones entre canales, resultando un rgimen binario adicional de 0,7 a 8 Kbits/s [Breebaart04] dependiente de la calidad deseada. Finalmente, el codicador se optimiz para obtener 24 Kbits/s en estreo [Schuijers04]. Los resultados no han llegado a ser todo lo satisfactorios que se deseaba en un principio. Si bien, como aparece en la gura 3.10, la calidad segn el test MUSHRA [ITU-R01] es superior en media, empleando las seales de prueba de MPEG, que la obtenida con AAC. Para algunas muestras de audio, como las seales vocales o las castauelas, la calidad es sensiblemente menor [Brinker02].
3.4.3.
Codicadores paramtricos escalables
Una de las mayores ventajas de la codicacin paramtrica es la consecucin, en base a informacin psicoacstica, de la escalabilidad en rgimen binario. En este sentido, la codicacin paramtrica, como se ha visto anteriormente, permite ordenar los tonos (e incluso las bandas de ruido) en una escala perceptual. De esta forma, si es necesario reducir el rgimen binario, la codicacin paramtrica proporciona buenos resultados perceptuales, limitando la distorsin introducida por el codicador a aquellas componentes con menor peso perceptual. Un codicador
74
x[n]
Sinusoidal sinusoidal Analysis parameters Block DCT
Sinusoidal sinusoids Synthesis Sinusoidal Synthesis
1st residual: transients+noise Block transients IDCT
Sinusoidal transient Analysis parameters

Optional Transient location Information
2nd residual: noise noise
Noise Analysis
noise parameters
Noise Synthesis
Figura 3.11: Esquema del funcionamiento del codicador paramtrico de Verma [Verma99]. escalable es deseable desde varios aspectos. La reduccin del rgimen binario, con una lenta y progresiva reduccin de la calidad, puede permitir una robustez del codicador muy til en la prctica. Por ejemplo, el codicador se puede adaptar de antemano a las caractersticas de la red o medio de transmisin utilizado, enviando la seal de audio con la mayor calidad posible. Un escenario para este funcionamiento es la telefona mvil. An ms, un codicador escalable puede ser utilizado de forma que se adapte en tiempo real a los requerimientos de la red utilizada, especialmente en internet. Para lograr este objetivo, el codicador usado debe cambiar el rgimen binario de forma na y sin incrementar la complejidad, de modo que se pueda usar en un escenario a tiempo real. A continuacin, se detallan las propuestas que aparecen en la bibliografa acerca de codicadores paramtricos escalables. Estos codicadores han sido diseados especialmente para lograr alta escalabilidad en rgimen binario, consiguiendo un ajuste no del rgimen binario, si es necesario. Codicador de Verma [Verma99] El codicador propuesto por Verma en su tesis doctoral [Verma99] es una adaptacin del codicador de Levine para incluir escalabilidad en rgimen binario. En este sentido, el autor realiza un esfuerzo para clasicar los diferentes parmetros de audio segn su importancia perceptual, de forma que se consiga una prdida lenta de la calidad conforme se reduce el rgimen binario en el codicador. Adems, Verma realiz un importante esfuerzo en la actualizacin de los algoritmos de extraccin de parmetros de la seal, destacable sin duda al introducir el primer mecanismo de parametrizacin de los transitorios. El esquema general del codicador de Verma se introduce en la gura 3.11. Como se observa, es un codicador paramtrico clsico de transitorios, tonos y ruido. Para la extraccin de transitorios, Verma introduce la aplicacin del modelo sinusoidal sobre el dominio de la transformada de coseno [Verma98], eliminando por completo la codicacin por transformada que empleaba Levine. El modelo tonal se mejora mediante el empleo del algoritmo matching pursuits [Mallat93] con un diccionario de exponenciales complejas. En el caso del modelo de ruido, Verma reduce el nmero de bandas en frecuencia en el banco de ltros de Levine, hablndose ahora de un banco de ltros ERB.
75
Bit-stream: S QL 1 L , N
Sinusoidal coder
Bit-rate scalability
. . . S QL 1&2, N
s [n ]
S QL 1, N MUX
Base layer synthesis s sinusoid,bl [n ] + sresidual,bl [n ]
Noise coder
Figura 3.12: Esquema del funcionamiento del codicador paramtrico de Myburg [Myburg04]. El rgimen binario obtenido vara desde 6 a 80 Kbits/s, aunque slo a partir de 16 Kbits/s el chero codicado contiene las tres componentes de la seal de audio. Segn el autor, el codicador escalable propuesto a 80 Kbits/s obtiene una calidad similar al codicador AAC de MPEG-4 a 64 Kbits/s [Verma00], mientras que cuando el rgimen binario se reduce a 16 Kbits/s la calidad de ambos codicadores es muy similar. Como consecuencia, la calidad obtenida por el codicador de Verma es algo menor que la alcanzada por AAC para todos los regmenes binarios, excepto cuando se baja a 16 Kbits/s, pero teniendo la ventaja de ser un codicador escalable. Codicador de Myburg [Myburg04] El codicador implementado por Myburg [Myburg04] es una adaptacin del codicador PPC de Philips para conseguir escalabilidad. En este sentido, el autor estudia, adems de la escalabilidad en rgimen binario, la escalabilidad en complejidad del codicador para su uso en aplicaciones en tiempo real. El resultado es que, bsicamente, el codicador de Myburg simplica o elimina algunas de los algoritmos utilizados en el codicador PPC de Philips. El esquema de funcionamiento del codicador de Myburg se esboza en la gura 3.12. La principal particularidad del codicador radica en que nunca se descarta como no audible ninguna parte (de la energa total) de la seal de audio. Esto se consigue enviando al codicador siempre los parmetros del ruido correspondientes al rgimen binario menor o capa bsica (basic layer ). Los tonos enviados dependen del rgimen binario objetivo y estn separados por capas. Para conseguir el ruido nal en el decodicador, se elimina de la potencia de ruido (de la capa bsica) la potencia de los tonos de las capas superiores. Como consecuencia, la potencia de ruido sintetizado para capas superiores (alto rgimen binario) es la resultante de restar a la potencia de la capa bsica la potencia de los tonos de las capas superiores. De esta forma, nunca se elimina potencia de seal; eso s, a bajo rgimen binario, habr informacin tonal generada por el modelo de ruido, que generar una distorsin ruidosa en el decodicador. En relacin a las tcnicas utilizadas para implementar los modelos de seal, se producen algunas variaciones con respecto al codicador PPC de Philips. La extraccin tonal es simplicada para reducir la complejidad, aplicando una extensin del mtodo de Gauss-Newton [Myburg01]
76

All items 100 90 80 70 MUSHRA score 60 50 40 30 20 10 0
Anchor 3.5 kHz mono
Codec 40 kb/s mono
Codec 32 kb/s mono
Codec 24 kb/s mono
Codec 20 kb/s mono
Figura 3.13: Calidad perceptual obtenida por el codicador de Myburg a diferentes regmenes binarios. Las seales de comparacin son una seal ltrada paso bajo a 3,5 KHz, otra ltrada a 7 KHz y la codicada mediante PPC. Se representa el valor medio y el intervalo del 95 % de conanza [Myburg04]. para la extraccin de forma paralela de los tonos. Adems, se incluye un agrupamiento de los tonos en conjuntos armnicos con la nalidad de reducir el rgimen binario. El modelo de ruido no cambia sustancialmente, pero el principal inconveniente del codicador es la eliminacin del tratamiento para los transitorios. Si bien se realiza con la idea de reducir al mximo la complejidad, el impacto que tiene en la calidad perceptual hace cuestionable esta decisin. Un resumen de la calidad obtenida por el codicador de Myburg se presenta en la gura 3.13. Como se puede observar, el principal inconveniente de este codicador es que, debido a la ausencia de un modelo de transitorios, la calidad perceptual no crece cuando se incrementa el rgimen binario por encima de 24 Kbits/s, estando siempre por debajo de la calidad del codicador PPC de Philips. Cuando el rgimen binario se reduce de 24 a 16 Kbits/s, tambin se reduce la calidad, pero de una forma progresiva. Este intervalo de funcionamiento es, por tanto, el idneo para el codicador de Myburg.
Codec 16 kb/s mono
Anchor 7 kHz mono
PPC 24 kb/s mono
Captulo 4
Descomposiciones atmicas
4.1. Introduccin
La representacin de seales en funcin de tomos tiempo-frecuencia es un tema de inters desde su introduccin por Gabor en los aos 40 [Gabor46]. La nocin fundamental de los modelos atmicos es que una seal se puede descomponer en funciones elementales localizadas en tiempofrecuencia. Estas descomposiciones son muy tiles para aplicaciones como anlisis y codicacin. La descomposicin de una seal en funciones es un problema complejo que tiene un gran nmero de soluciones. Si una seal x[n] se descompone en un conjunto de funciones g m [n], el modelo de seal queda de la forma,
I
x[n] =
i=1
m(i) gm(i) [n]
(4.1)
donde m(i) son los coecientes asociados a cada funcin gm(i) [n] y el nmero de funciones es I . De forma general, para tratamiento digital de la seal, la longitud de la seal x[n] ha de ser nita, de valor N . Para la mayora de las aplicaciones de tratamiento de seal se utilizan descomposiciones basadas en transformadas, como las de Fourier o wavelet. En estos casos, las funciones forman una base y el nmero de funciones para descomponer la seal es I = N . Una forma de expresar el mtodo de clculo de estas transformadas es mediante la notacin matricial, x = D (4.2)
donde x es un vector columna (N 1), que representa la seal, un vector columna (N 1) de coecientes y D = [g1 g2 . . . gm . . . gN ] una matriz (N N ), cuyas columnas son los vectores columna gm de funciones. El clculo de los coecientes, cuando D es invertible, viene denido por, = D1 x (4.3)
Cuando las funciones en D forman una base se cumple D1 = DH , donde el superndice H denota conjugada y traspuesta. En este caso, los coecientes individuales se calculan como,
H m = g m x =< x, gm >
(4.4)
77
78
CAPTULO 4. DESCOMPOSICIONES ATMICAS
Debido a esta fcil manera de calcular la descomposicin, las transformadas han sido ampliamente usadas en tratamiento de la seal. El principal problema de las transformadas es que no proporcionan un modelo compacto para seales arbitrarias [Goodwin97]. Para aplicaciones de anlisis y codicacin es importante modelizar la seal a partir de un nmero muy reducido de funciones, que representen las caractersticas principales de la seal a tratar. En este sentido, se ha trabajado con transformadas para determinar aquella base que mejor represente la seal. Este algoritmo conocido como la seleccin de la mejor base (Best Orthogonal Basis, BOB) [Coifman92] ha sido utilizado en los ltimos aos en la codicacin de audio con bases wavelet packet. En codicacin de audio, se ha utilizado la medida de la entropa perceptual para seleccionar la mejor base [Ruiz01]. Sin embargo, para la seal de audio, que es una seal excepcionalmente variable, no se consigue mediante la seleccin de la mejor base la mxima reduccin del nmero de coecientes signicativos. Para resolver los inconvenientes de las transformadas, mejorando la capacidad de compresin de la descomposicin, una solucin es incrementar el nmero de funciones en que se puede descomponer la seal. Aplicando este principio, cuando el nmero de funciones del diccionario D es M > N , queda una matriz (N M ) en la ecuacin 4.2, y no se puede hablar ya de base ortogonal, sino que se dice que el diccionario es sobrecompleto . El diseo del diccionario debe incorporar, a priori, un amplio rango de comportamientos tiempo-frecuencia, para adaptadarse a las caractersticas de la seal a tratar. El principal problema de las descomposiciones sobrecompletas es el mtodo de clculo de los coecientes [Davis94]. En este caso, ya no es posible el uso de la matriz inversa del diccionario D1 , puesto que, pese a que el diccionario debe estar formado por funciones linealmente independientes entre s, la matriz D no es singular, lo que quiere decir que la solucin no es nica. Como consecuencia, han aparecido varios mtodos para el clculo de una descomposicin atmica. En cualquier caso, la seleccin de aquellas funciones o tomos y el clculo asociado de sus coecientes es un problema no lineal, donde se busca que unos pocos tomos describan el comportamiento de la seal. El principal inconveniente de las descomposiciones atmicas es la alta complejidad asociada a su clculo, lo que limita en gran medida su uso. Un problema derivado de la complejidad en el clculo de las descomposiciones atmicas es la necesaria limitacin del tamao del diccionario. As, conociendo la seal a tratar, o realizando un preprocesamiento de la misma, se utiliza un tipo de diccionario u otro, con el n de extraer las caractersticas de la seal en un tiempo de computacin razonable. En el campo del audio, esto se traduce, por ejemplo, en etiquetar cada segmento de la seal de audio con un preprocesado sencillo que clasique la seal en transitoria o tonal. En base a este valor, se puede elegir un diccionario formado por seales impulsivas u otro formado por seales sinusoidales. Ms adelante, se tratar con detenimiento el diseo del diccionario. A continuacin, se revisan los mtodos ms usuales para la obtencin de las descomposiciones atmicas, con sus ventajas e inconvenientes, as como algunos ejemplos de su funcionamiento.
4.2.
Mtodos de clculo
En general, las diferentes estrategias para seleccionar las funciones y calcular los coecientes de stas, con el n de obtener una descomposicin atmica, se pueden clasicar en dos categoras
4.2. MTODOS DE CLCULO principales:
79
Mtodos iterativos. Como primera aproximacin, el clculo de una descomposicin atmica se puede realizar siguiendo un proceso iterativo, de tal forma que, en cada iteracin, se elija el tomo y su coeciente asociado o peso. La seleccin iterativa de los tomos se debe regir por un proceso de optimizacin de una medida determinada. Se pueden encontrar varios ejemplos en la literatura que siguen este esquema, aunque todos son derivaciones del algoritmo iterativo conocido como matching pursuits (MP) [Mallat93]. Es importante tener en cuenta que, aunque se elija el tomo ptimo en cada iteracin, un algoritmo de este tipo conduce a una solucin subptima, ya que no se considera una optimizacin conjunta de todos los tomos elegidos. Sin embargo, el uso de estos algoritmos se ha extendido en muchas aplicaciones de tratamiento de seal, debido a que permiten el clculo de una descomposicin atmica con una complejidad razonable y unos resultados satisfactorios [Goodwin97]. Mtodos paralelos. En este caso, no se restringe la bsqueda de los tomos a seleccionar un tomo en cada iteracin del mtodo, sino que se realiza de forma paralela, es decir, se optimizan el conjunto de los tomos seleccionados de foma simultnea, conduciendo, por tanto, a soluciones ptimas. Para cada mtodo, se dene la medida sobre la seal que se desea optimizar, aunque la losofa sea la misma para todos ellos. Pese a encontrar soluciones ptimas globalmente, este tipo de mtodos han sido escasamente utilizados, debido principalmente a que la ventaja que aportan no compensa el incremento de complejidad necesario para su implementacin. Seguidamente, se detalla el procedimiento que siguen los mtodos ms destacados que se encuentran en la bibliografa.
4.2.1.
Mtodos paralelos
Los mtodos paralelos se caracterizan generalmente por llegar a soluciones ptimas basadas en una medida global a optimizar y por su gran carga computacional. El nombre de mtodos paralelos es debido a que en el clculo de la solucin se determina a la vez el valor de todos los coecientes. Mtodo de tramas (MOF) El mtodo de tramas (Method Of Frames, MOF) [Daubechies88] escoge, de entre todas las soluciones, aquella en la que los coecientes en su conjunto tienen norma l 2 mnima, es decir, en la que los coecientes tienen energa mnima. La notacin matricial del problema queda expresada como, min||||2 para D = x (4.5)
La solucin a este problema M OF es nica y es la solucin de longitud mnima. Por lo tanto, desde un punto de vista geomtrico, de todas las soluciones posibles, que pertenecen al espacio multidimensional que representan los tomos del diccionario, la solucin adoptada por el mtodo MOF es aquella que est ms cerca del origen (en distancia eucldea).
80
Una ventaja del mtodo MOF es que existe una manera directa de calcular la descomposicin [Daubechies88], mediante la matriz pseudo-inversa de Moore Penrose D + , que vale D+ = DH (DDH )1 . Con esta matriz, se calcula la solucin de mnima longitud de un sistema de ecuaciones lineales de la forma, M OF = D+ x = DH (DDH )1 x (4.6)
Debido a esta forma sencilla de clculo, el mtodo de tramas es computacionalmente poco complejo, aunque los resultados que obtiene no son adecuados. La descomposicin obtenida por el mtodo de tramas tiene dos inconvenientes principales [Chen96]: El nmero de tomos con un coeciente distinto de cero es elevado, es decir, no se reduce la solucin a unos pocos tomos. Esto es debido a que la medida utilizada no penaliza a los tomos con un coeciente de valor bajo, puesto que estos valores no incrementan signicativamente la energa. Como resultado, en la solucin suelen aparecer todos los tomos con una correlacin con la seal distinta de cero. La resolucin tiempo-frecuencia es limitada. La causa de este problema hay que buscarla en el mtodo de clculo de la solucin, estando la resolucin limitada por el operador DD H . Esto hace que, aunque la seal a descomponer est formada slo y exclusivamente por uno de los tomos del diccionario, la prdida de resolucin al aplicar el operador mencionado, provoca que la energa se expanda entre muchos tomos correlados con el buscado. Como demostracin de las dos armaciones anteriores, se incluyen las guras 4.1 y 4.2. En primer lugar, en la gura 4.1 se dibuja un plano tiempo-frecuencia o plano de fase ideal [Daubechies88] de una funcin wavelet-packets. A continuacin, tomando como seal a analizar esta funcin formada por un tomo del diccionario, que en este caso es un conjunto de funciones wavelet packets, se dibuja en la gura 4.2 el plano tiempo-frecuencia de la solucin ideal y la obtenida por el mtodo de tramas o MOF. Como se observa, la solucin adoptada por el mtodo MOF no se reduce a un slo tomo, como sera deseable, sino que la energa se ha dispersado entre muchos de los tomos correlados con el que se ha construido la seal. Basis pursuits La denicin del mtodo Basis pursuits (BP) [Chen95] est basada en la del mtodo MOF, en el sentido de que la solucin se basa tambin en la minimizacin de una norma de los coecientes, salvo que en este caso la norma utilizada es el valor absoluto de la amplitud o norma l 1 , quedando matricialmente, min|||| para D = x (4.7)
Este mtodo resuelve el principal problema del MOF, al cambiar la norma. Ahora, los coecientes con valores pequeos tienen una penalizacin mayor y tienden a desaparecer de la solucin, quedando como solucin, para el caso de la seal formada por un slo tomo, el mismo tomo. Una prueba de este hecho se puede observar en la gura 4.3, pudiendo armarse que este mtodo tiene gran capacidad de concentracin de la solucin en unos pocos tomos
4.2. MTODOS DE CLCULO
81
1 0.8
Frequency
(a) Frequency Domain
1 0.8
Frequency
(b) Phase Plane
0.6 0.4 0.2 0 0 1 2 3 |FFT(WaveletPacket(3,3,7))|
0.6 0.4 0.2 0 0 0.5 Time (c) Time Domain 1
1
WaveletPacket(3,3,7)
0.5
-0.5 0
0.5 Time
Figura 4.1: Plano de fase ideal de una funcin wavelet-packets. Figura obtenida mediante el toolbox
atomizer de Matlab disponible en la direccin de Internet http://www-stat.stanford.edu/atomizer/.
0.4 0.2 0 -0.2 -0.4 0
(a) Signal: Hydrogen
0.5 (b) Ideal Phase Plane
1 (c) Phase Plane by MOF
1 0.8
Frequency
1 0.8
Frequency
0.6 0.4 0.2 0 0 0.5 Time 1
0.6 0.4 0.2 0 0 0.5 Time 1
Figura 4.2: Ejemplo de funcionamiento del mtodo de tramas o MOF. Figura obtenida mediante el toolbox
atomizer de Matlab.
82
1 0.8
Frequency

(b) Ideal Phase Plane
0.6 0.4 0.2 0 0 0.5 Time 1
Figura 4.3: Ejemplo de funcionamiento del mtodo basis pursuits (BS) para una seal formada por un tomo wavelet packets. Se dibuja el plano de fase de la solucin mediante BS con un diccionario wavelet packets que incluye al tomo de la seal. Figura obtenida mediante el toolbox atomizer de Matlab. [Chen96]. El principal inconveniente del BS radica en que los algoritmos a utilizar para calcular la descomposicin son excesivamente complejos, sobre todo para aplicaciones de compresin. La solucin al problema de optimizacin planteado por el mtodo BS es nica, aunque no existe una formulacin matemtica asociada para su clculo, es decir, se trata de un mtodo heurstico. La descomposicin mediante BS habra que calcularla, en el peor de los escenarios, siguiendo una bsqueda exahustiva. Esta no es una aproximacin vlida en la prctica, por lo que Chen al presentar BS en [Chen95] sugiri algunos de los algoritmos que pueden ayudar a encontrar la solucin. En este sentido, en [Chen96] se revisan las relaciones del mtodo BS con las estrategias de programacin lineal, con el objetivo de encontrar un algoritmo cuya complejidad crezca linealmente (y no exponencialmente) con el tamao de la seal de entrada. Como resultado, Chen propone usar dos algoritmos alternativos, cuyas diferencias se estudian a continuacin: Simplex . Este algoritmo llega a la solucin ptima a costa de una gran complejidad. El algoritmo comienza con una solucin no ptima al problema de la minimizacin con norma l1 ; por ejemplo, la solucin del mtodo MOF. A continuacin, comienza un proceso iterativo en el que se cambia a otra solucin (o conjunto de coecientes) que reduce la norma. Existen reglas que garantizan la convergencia hacia la solucin ptima [Gill91] y evitan procesos cclicos. El proceso continua hasta que no hay mejora posible, es decir, cuando se halla la solucin ptima. Interior-point . Este algoritmo es menos complejo y, adems, se puede parar en cualquier momento, obtenindose una solucin subptima reducida a un subgrupo de tomos. Bsicamente, es una modicacin del algoritmo anterior para reducir su complejidad. Ahora, se comienza considerando un slo tomo en el diccionario; por ejemplo, el ms correlado con la seal. Esto no es una solucin al problema, porque el diccionario es menor que el tamao de la seal. En cada iteracin, se aade un tomo y se encuentran los coecientes que minimizan la norma l1 para ese nmero de tomos, por ejemplo va simplex. La solucin ptima se encuentra cuando se incluyen todos los tomos. Las ventajas de este mtodo se hacen evidentes cuando el diccionario es capaz de modelizar con unos pocos tomos a la seal, ya que en este caso el tiempo de computacin es reducido. Adems, este mtodo es el indicado cuando est limitado el tiempo de computacin. Aunque se detenga el proceso de bsqueda antes de llegar a la solucin ptima, se puede representar la mayor parte de la seal con unos pocos tomos. Est especialmente indicado en aplicaciones de denoising,

(a) Signal: FM
Frequency
83
(b) Phase Plane: Ideal
2 0 -2 0
0.5
0.5 (c) PhasePlane: MOF
0.5 Time (d) PhasePlane: BOB
Figura 4.4: Seal FM y su plano de fase ideal. Figura obtenida mediante el toolbox atomizer de Matlab.
1
Frequency
Phase Plane: BP Iteration = 0

Frequency
1 0.5 0 0 1
Frequency
Phase Plane: BP Iteration = 1
0.5 0 0 1
0.5 1 Time Phase Plane: BP Iteration = 2
Frequency
0.5 0 0 1
0.5 0 0 1

Frequency
0.5 1 Time Phase Plane: BP Termination
Frequency
0.5 0 0
0.5 0 0
0.5 Time
0.5 Time
Figura 4.5: Ejemplo de funcionamiento del algoritmo interior-point para el mtodo basis pursuits (BS) para una seal FM con un diccionario de cosine packets. Figura obtenida mediante el toolbox atomizer de Matlab. determinando una parada anterior a la solucin nal, o en la bsqueda de los tomos que mejor representan la seal, por ejemplo, para la solucin de direcciones de llegada [Chen96]. En la gura 4.4 se muestra una seal FM y su plano de fase ideal. Aplicando un diccionario de cosine packets y el algoritmo interior-point, el resultado de cada iteracin se muestra en la gura 4.5. Se puede observar como el algoritmo es, por decirlo de alguna manera, embebido, porque en cada iteracin va renando el plano de fase, obtenindose una idea del mismo desde las primeras iteraciones. La implementacin de ambos algoritmos para desarrollar el mtodo BP, as como la posibilidad de elegir entre varios tipos de diccionario, se encuentra en una toolbox de Matlab en la direccin de internet: http://www-stat.stanford.edu/atomizer/. Adems, se incorpora en estos programas la posibilidad de obtener otro tipo de mtodos para calcular descomposiciones atmicas, como el MOF y algunos ms que se tratarn posteriormente. La complejidad de los diferentes mtodos es un factor importante a la hora de evaluar la aplicacin prctica de los mismos. En el caso del mtodo MOF, la complejidad es de orden O(M log (M )) (donde M es el tamao del diccionario) y viene determinada por la expresin 4.6. Sin embargo, la complejidad del mtodo BS depende del algoritmo utilizado en el clculo, de la
84
seal de entrada y del tipo de diccionario. As, lo ms que se puede hacer en este caso es calcular el lmite superior de complejidad del mtodo. Aplicando el algoritmo interior-point, la complejidad mxima est limitada a O(M log (M )) por etapa. Teniendo en cuenta que el nmero de etapas puede llegar a ser tan grande como el tamao del diccionario, la complejidad se torna prohibitiva. Como conclusin, cabe decir que el mtodo basis pursuits slo ha sido empleado con xito en aplicaciones donde el nmero de tomos necesarios para modelizar la seal es limitado, con el objetivo de no incrementar demasiado la complejidad. Un ejemplo de este tipo de aplicaciones es la eliminacin de ruido o denoising de la seal [Chen95]. FOCUSS Como se ha dejado entrever en el mtodo anterior, en muchas aplicaciones no es necesario encontrar una solucin que describa la seal de entrada por completo, a partir de los tomos del diccionario, sino que basta con que los coecientes encontrados aproximen, de forma suciente, la seal de entrada
I
x[n] o en notacin matricial,
i=1
m(i) gm(i) [n]
(4.8)
x D
(4.9)
Este sera el resultado, por ejemplo, de parar el mtodo basis pursuits calculado mediante el algoritmo interior-point en una iteracin intermedia. Adems, desde un punto de vista prctico, debido a que las seales suelen estar contaminadas por ruido, no tiene mucho sentido encontrar soluciones exactas, porque se estar representando en la descomposicin la parte ruidosa, y eso se pretende evitar en aplicaciones de anlisis de seal. Una vez tenido en cuenta que las soluciones prcticas pueden ser aproximaciones de la seal, se puede introducir la denicin del mtodo FOCUSS (FOCal Underdetermined System Solver), como aparece en [Gorodnitsky97]. Este mtodo se utiliza cuando se supone que el nmero de tomos del diccionario para representar la mayor parte de la seal es pequeo con respecto al tamao del diccionario. El mtodo FOCUSS necesita una inicializacin de los coecientes de los tomos 0 , como ocurra en la implementacin del algoritmo simplex para basis pursuits. Sin embargo, la inicializacin de este mtodo debe ser algo particular. Se deben dejar a cero los coecientes de aquellos tomos de los que se tenga la constancia que no forman parte de la solucin y evaluar slo aquellos que puedan formar parte de la misma. Como se ver porteriormente, el algoritmo funciona con cualquier inicializacin, pero si esta no es correcta, la complejidad crece demasiado. En cada iteracin del algoritmo, el mtodo FOCUSS implementa una minimizacin del subespacio que forman los I tomos con coecientes iniciales distintos de cero. Sin embargo, a diferencia del mtodo MOF, esta minimizacin est pesada por una matriz W i , por lo que se minimiza en cada iteracin, min||Wi 1 ||2 para D = x (4.10)
85
La solucin a la expresin 4.10 se realiza de la misma forma que para el mtodo MOF mediante la pseudo-inversa de Moore Penrose, i+1 = Wi (DWi )+ x (4.11)
En funcin de la denicin que se haga de la matriz Wi , y partiendo de i , se cambia el peso de los tomos en la minimizacin del error. Aunque puede ser otra cualquiera, la denicin ms extendida es [Lee87], Wi = diag (i ) (4.12)
por lo que, desde un punto de vista de seales, se minimiza en cada iteracin la funcin,
M l=1, i [l]=0
[l] i [l]
(4.13)
El mtodo FOCUSS converge en el sentido de que lleva hacia cero aquellos tomos que no corresponden a la solucin nal y refuerza el subconjunto, dentro de los I inicializados, que describen la solucin nal. Se puede decir que el mtodo FOCUSS focaliza la posible solucin dentro de un subconjunto de tomos. Adems, este mtodo est exclusivamente diseado para aplicaciones que concentren la solucin slo en un pequeo grupo de tomos. Una pregunta que surge en este momento es cuando parar el algoritmo. Las propuestas encontradas en la literatura [Gorodnitsky97] se limitan a detener el algoritmo cuando haya dos grupos claros de tomos, un grupo cercano a cero y otro con valores representativos, que formar la solucin nal. Est claro que el mtodo FOCUSS conduce a soluciones subptimas, pero, en aplicaciones prcticas, estas son admisibles para reducir la complejidad. La medida de la carga computacional del algoritmo es sencilla, puesto que se puede deducir a partir del mtodo MOF. As, el orden de complejidad por iteracin es O(Ilog (I )), siendo I el nmero de tomos distintos de cero en la inicializacin 0 . Notar que la complejidad depende en gran medida de este valor inicial. Adems, segn las referencias [Lee87] [Gorodnitsky97], el nmero de iteraciones necesario para lograr un resultado satisfactorio es altamente dependiente de la eleccin de 0 . Se puede armar, visto su funcionamiento, que el mtodo FOCUSS extiende un puente entre los mtodos paralelos globales y los mtodos iterativos, puesto que proporciona una solucin subptima, aunque en cada iteracin optimice los tomos inicializados en su conjunto. Las aplicaciones del mtodo FOCUSS son variadas, pero se encuentra casi siempre relacionado en la bibliografa con la resolucin de direcciones de llegada [Lee87] y del tratamiento de la seal elctrica o magntica que produce el cerebro, seales EEG o MEG, respectivamante.
4.2.2.
Mtodos iterativos
Los mtodos iterativos se caracterizan por obtener soluciones subptimas en descomposiciones atmicas de seales y calcularse mediante mtodos que permiten una complejidad reducida. La principal caracterstica de los mtodos iterativos es que deciden la eleccin de uno o varios tomos (y sus coecientes asociados) en cada iteracin, manteniendo estos valores jos para las siguientes iteraciones. Esta premisa permite reducir la complejidad, porque en el clculo slo se optimiza el tomo (o los tomos) a elegir en la iteracin actual. Una consecuencia derivada de este tipo
86
de clculo es que las soluciones obtenidas slo pueden aproximarse a la seal de entrada segn la ecuacin 4.8. Matching pursuits El primer mtodo iterativo para la obtencin de descomposiciones atmicas encontrado en la bibliografa es matching pursuits [Mallat93]. Posteriormente, han surgido una serie de modicaciones sobre la base de este mtodo para intentar solucionar los inconvenientes que ste introduce. En cualquier caso, estos intentos no han tenido el xito esperado, porque incrementan demasiado la carga computacional del mtodo, que es una de sus grandes ventajas. La denicin del mtodo matching pursuits es muy sencilla. Es un mtodo iterativo que en cada iteracin extrae de la seal el tomo que minimiza la energa del resto. Por lo tanto, en cada iteracin i se extrae un tomo gm(i) con su coeciente (o peso) asociado m(i) , ri = x i=0 ri1 m(i) gm(i) i > 0 (4.14)
Como se puede observar, el mtodo inicializa la seal residuo, r0 , a la seal de entrada x, y trabaja para el resto de iteraciones con el residuo ri . Tanto la eleccin del tomo ptimo, como su coeciente asociado, se determinan a partir de la minimizacin de la energa del residuo en cada iteracin. En notacin matricial quedara, m n ||ri ||2 para ri = ri1 i m gm (4.15)
gm D
donde los valores i m son los coecientes asociados a cada uno de los elementos g m del 2 i diccionario D. De entre todos los valores i m , se elige el que minimiza la norma l de r , que es el coeciente del tomo ptimo, m(i) . A partir de esta denicin, se obtiene, adems, la expresin para calcular los coecientes i m . El problema planteado se resuelve mediante la introduccin i del valor de r en el clculo del mnimo. m ngm D ||ri ||2 = i 1 i 2 m ngm D ||r m gm || = i 1 2 i 2 i 2 i 1 i 1 i m ngm D ||r || + |m | ||gm || < m gm , r > < r , m gm >
(4.16)
Como el vector ri1 es una constante en la iteracin i, en lugar de minimizar la funcin anterior, se puede maximizar,
i1 > + < ri1 , i g > |i |2 ||g ||2 = m axgm D < i m m m m m gm , r i |2 ||g ||2 i 1 g > } | m axgm D 2Re{< r , i m m m m
(4.17)
El valor de i m se halla simplemente obteniendo el valor mximo de la funcin anterior. La solucin nal se puede escribir como,
2 m ax ||i m ||
gm D
para i m =
< ri1 , gm > ||gm ||2
(4.18)
87
A partir de ahora, y sin prdida de generalidad, se supondr que los elementos del diccionario tienen energa unidad, es decir, ||gm ||2 = 1. La ecuacin inicial del mtodo se puede re-escribir como, ri = x i=0 i 1 i 1 r < r , gm(i) > gm(i) i > 0 (4.19)
escogindose en la iteracin i el elemento del diccionario gm(i) que maximice la funcin, gm(i) = arg m ax || < ri1 , gm > ||2
gm D
(4.20)
En vista de la ecuacin 4.20, se comprueba que el mtodo matching pursuits (MP) trabaja con las correlaciones como valor para obtener la descomposicin. En cada iteracin se escoge como tomo ptimo, y por lo tanto se elige en la descomposicin, el tomo ms correlado con el residuo. Se puede comprobar, observando la ecuacin 4.4, que este mtodo utiliza exactamente la misma medida que las transformadas, lo que redunda en el uso de algoritmos de clculo rpidos, ya desarrollados para stas. Aunque el principal problema parezca el clculo de la correlacin (que debe realizarse en cada iteracin), se puede simplicar este clculo relacionando las correlaciones entre iteraciones sucesivas. As, aplicando la relacin obtenida en la ecuacin 4.19, se puede escribir, < ri , gm >=< ri1 , gm > < ri1 , gm(i) >< gm(i) , gm > (4.21)
La actualizacin de correlaciones mediante este procedimiento limita el clculo directo a la primera iteracin, < x, gm >. Para el resto de iteraciones, se utiliza la ecuacin 4.21, que necesita tener almacenadas en memoria las correlaciones cruzadas entre todos los elementos del diccionario. A partir de estas correlaciones cruzadas y del peso asociado al tomo ptimo, m(i) =< ri1 , gm(i) >, se implementa fcilmente el procedimiento de actualizacin de las correlaciones. Otro aspecto signicativo a tener en cuenta, al ser el coeciente del tomo ptimo, m(i) =< i 1 r , gm(i) >, es que el residuo en la iteracin i est incorrelado con el tomo ptimo g m(i) , es decir, se cumple el principio de ortogonalidad, < ri , gm(i) >= 0 (4.22)
Como consecuencia de esta propiedad, se puede decir que el mtodo MP extrae la proyeccin del tomo ptimo en el espacio, como se observa en la gura 4.6. Un resultado derivado a tener en cuenta es que la energa del residuo en la iteracin i se puede expresar como, ||ri ||2 = ||ri1 ||2 + |m(i) |2 (4.23)
resultado lgico al cumplirse el principio de ortogonalidad. Como consecuencia se puede demostrar [Mallat93] que el mtodo converge, es decir, que la energa del residuo tiende asintticamente a cero. Para simplicar se resumirn los pasos del algoritmo,
88

$ & 9A@ !#" %' $& %' (0)214365 $ & 78&
BDCFEG3HCPIRQAS2THU V )2E'3WIRT1

Figura 4.6: Mtodo matching pursuits y el principio de ortogonalidad [Goodwin97]. Inicializacin: 1. Se inicializa r0 = x. 2. Se calcula el valor inicial de las correlaciones 1 m =< x, gm > Para cada iteracin: 1. Se escoge como funcin ptima aquella que da lugar al valor mximo de las correlaciones: 2 gm(i) = arg m axgm D ||i m || con su coeciente asociado m(i)
i1 2. Se actualizan las correlaciones i m = m m(i) < gm(i) , gm >
La complejidad asociada al mtodo matching pursuits siguiendo el algoritmo arriba descrito es la siguiente: 1. Para la inicializacin, hay que calcular las correlaciones entre la seal y todos los tomos del diccionario. Este clculo queda matricialmente 1 = DH x. De forma general, esta complejidad es de orden O(M log (M )) [Gribonval01]. Sin embargo, para la mayora de los diccionarios, es posible encontrar algoritmos de clculo eciente de las correlaciones, como ocurre en el caso de un diccionario compuesto de exponenciales complejas o wavelet packets. 2. Para cada iteracin, es necesario actualizar las correlaciones, lo cual tiene un orden de complejidad de orden O(M ). El principal problema del algoritmo propuesto radica en la cantidad de memoria necesaria para guardar las correlaciones cruzadas entre todos los elementos del diccionario. En algunos casos, cuando el tamao de esta memoria se hace demasiado elevado, es posible intercambiar memoria por complejidad, dejando la puerta abierta al clculo directo de las correlaciones en todas las iteraciones, o mejor, a algoritmos mixtos de clculo [Goodwin97]. En estos algoritmos mixtos, se actualizan las correlaciones a partir de algunas de las correlaciones cruzadas y algunos clculos, gracias las propiedades especcas del diccionario elegido. Como se observa analizando el coste computacional del algoritmo MP, ste crece con el nmero de tomos extrados de la seal, por lo que es recomendable limitar el nmero de iteraciones. Por otro lado, cuantas ms iteraciones se realicen se obtendr una representacin ms exacta de la seal. Est claro que cuando el nmero de iteraciones sea alto, se puede escribir,

(a) Signal: TwinSine
89
0.2 0.1 0 -0.1 -0.2 0
0.5 (c) MP Coefs
2 1.5
Amplitude
1 0.5 0 -0.5 0.1 0.11 0.12 0.13 0.14 Frequency/Nyquist
Figura 4.7: Descomposicin en un plano de fase de dos tonos prximos en frecuencia con el mtodo MP. Figura obtenida mediante el toolbox atomizer de Matlab.
x[n]
i=1
m(i) gm(i) [n]
(4.24)
El nmero de iteraciones I para detener el algoritmo depende de la seal a analizar, del diccionario y de la aplicacin en cuestin. En general, es una suposicin aceptable que la seal de entrada estar distorsionada por ruido. As, cuando el nmero de iteraciones sea elevado y se halla extrado la mayor parte de la energa de la seal, el residuo no estar correlado con los elementos del diccionario y los coecientes tendrn valores reducidos. Este hecho permite detener el algoritmo cuando se halla modelizado la mayor parte de la energa de la seal, o bien cuando los coecientes a extraer estn por debajo de un determinado umbral. Como ejemplo de funcionamiento se modela una seal formada por dos tonos prximos en frecuencia. En la gura 4.7 se observa la descomposicin obtenida mediante las frecuencias elegidas con un diccionario tonal. Se puede observar como el primer valor es errneo, puesto que no extrae ninguno de los dos tonos de la seal (en lneas punteadas), sino que extrae un tono intermedio. Esto es debido a que los dos tonos que forman esta seal tienen una correlacin cruzada alta, siendo el tono ms correlado con la seal un tono intermedio. El efecto que provoca esta situacin es que el mtodo MP se equivoqua en una iteracin temprana y despus no se puede conseguir una descomposicin adecuada. Si bien la mayor ventaja es su reducido coste computacional, en el caso de una descomposicin
90
con pocos coecientes el mtodo MP tiene algunos inconvenientes, como son: En seales formadas por tomos del diccionario correlados entre s, un error del mtodo en iteraciones tempranas puede hacer que no se extraiga el tomo adecuado y se necesiten varias iteraciones adicionales para eliminar la energa de la seal. Este efecto se debe a que la medida utilizada es la mayor correlacin con todos los tomos (y es un algoritmo iterativo). An tratando con seales formadas por tomos del diccionario no correlados, en el escenario habitual de empleo con un diccionario altamente sobre-completo, cuyos elementos representan densamente el espacio de la seal, se producen problemas cuando se implementan muchas iteraciones. En las primeras iteraciones, los primeros tomos elegidos en la descomposicin tendern a ser ortogonales entre s. El resultado, desde un punto de vista geomtrico, es que las sucesivas proyecciones de cada tomo elegido sern independientes. Sin embargo, en iteraciones posteriores, esta tendencia se invierte, llegndose a extraer tomos correlados con tomos elegidos anteriormente. Este problema, conocido como readmisin, puede ponerse de maniesto por una mala eleccin del umbral de parada del mtodo. Para solventar los problemas anteriores, han surgido en la bibliografa numerosas modicaciones sobre el mtodo MP bsico. Sin embargo, casi ninguno de ellos ha tenido un efecto prctico importante, porque solucionan los problemas de MP a base de incrementar su complejidad. Se introducen brevemente estas modicaciones, en funcin de la causa que origin su propuesta. 1. Para evitar la re-admisin: este problema est generado por la correlacin entre tomos elegidos en diversas iteraciones del diccionario. La solucin ms apropiada parece ser la ortogonalizacin de los elementos no elegidos del diccionario respecto al elemento extrado en cada iteracin mediante el proceso de ortogonalizacin de Gram-Schmidt. Este mtodo, conocido como Orthogonal Matching Pursuits (OMP) [Pati93] debido al proceso de ortogonalizacin, llega a una solucin exacta en N iteraciones, es decir, en tantas iteraciones como longitud tenga la seal. Como contrapartida, OMP vara el contenido del diccionario, ya que las funciones del diccionario se ven modicadas en el proceso de clculo de los coecientes. Esto genera un inconveniente en algunas aplicaciones de anlisis, porque al modicar los tomos pueden variar algunas de sus caractersticas. Otra desventaja es el incremento en la carga computacional asociado al proceso de ortogonalizacin. En la bibliografa han aparecido gran nmero de propuestas que intentan disminuir la carga computacional del mtodo OMP [Chen95b] [Natarajan95] [Adler96] [Rebollo02]. 2. Para evitar errores con tomos correlados: en este caso est claro que si se quiere evitar este problema lo ms lgico sera utilizar mtodos paralelos que no jan un tomo por iteracin, sino que re-calculan los mismos. Sin embargo, en la literatura aparece un mtodo, conocido como High Resolution Pursuits (HRP) [Gribonval96][Jaggi98] que, diseado en base a MP, intenta solucionar este problema. Un tratamiento ms exhaustivo de este mtodo se realizar posteriormente. 3. Para cambiar la medida de energa: la medida que utiliza matching pursuits para elegir el tomo que extrae en cada iteracin es la energa. En algunas aplicaciones, este guiado
91
por energa puede no ser el mtodo ms indicado. En este sentido, en aplicaciones de audio quizs sea ms interesante extraer el tomo ms importante perceptualmente. Se dice entonces que hay un guiado perceptual. Este campo ha sido explotado empleando el mtodo MP con un diccionario de exponenciales complejas para mejorar el modelo sinusoidal. As, se dene una medida perceptual [Verma99b] [Heusdens02] que elige el tono ms importante psicoacsticamente en cada iteracin del algoritmo. High resolution pursuits Como se ha detallado anteriormente, el algoritmo Matching Pursuits (MP) optimiza la energa que se extrae en cada iteracin. Esto, como se observa en la gura 4.7, produce errores cuando la seal de anlisis incluye tomos correlados entre s. La causa hay que buscarla en que MP realiza la eleccin del tomo ptimo optimizando la energa global de la seal, pero que no se adapta a las caractersticas locales de la misma. Este problema se puede solventar aplicando el algoritmo Basis Pursuits, pero la complejidad asociada a este algoritmo paralelo lo hacen prohibitivo. Sin embargo, en [Jaggi98], se propone un algoritmo iterativo que, basado en MP y en correlaciones, permite, gracias a modicaciones en las mismas, adaptarse a la estructura local de la seal. Este algoritmo se conoce como High Resolution Pursuits (HRP) y exhibe una resolucin cercana a la presentada por BP. Adems, el mtodo HRP tiene una complejidad similar al mtodo MP, debido a que est basado en las mismas medidas. La diferencia radica en que slo se tiene en cuenta la correlacin con los tomos del diccionario que tienen una alta resolucin temporal (o frecuencial). Para el resto de tomos, con baja resolucin, no se tiene en cuenta la correlacin, sino la correlacin cruzada con los anteriores, llamada similaridad . El algoritmo esta diseado de forma que no se incrementa en ningn caso la energa local de la seal. Para implementar el mtodo HRP, se divide el diccionario en dos sub-diccionarios disjuntos D = Da Db , donde Da representa los tomos con alta resolucin temporal y Db el conjunto de tomos con baja resolucin temporal. Para los tomos del sub-diccionario con alta resolucin, la medida para elegir el tomo ptimo es la correlacin, como sucede en MP: S (ri1 , gm ) = ri1 , gm , gm D a (4.25)
Para cada tomo del diccionario con baja resolucin, no se puede utilizar directamente la correlacin, porque puede modicar el comportamiento local de la seal. En su lugar, como se muestra a continuacin, hay que utilizar la similaridad, que se va a denir mediante la correlacin con los tomos de alta resolucin y la correlacin cruzada entre stos y el tomo de baja resolucin en cuestin. Para realizar este proceso, se dene un subconjunto de tomos g m Lm asociado a cada tomo con baja resolucin gm Db . Los tomos del subconjunto Lm se eligen de entre los tomos de alta resolucin que tienen un soporte temporal incluido en el soporte del tomo gm y estn modulados en la misma frecuencia. En general, para los tomos pertenecientes al subconjunto Lm , la correlacin ri , gm representa la cantidad de energa de ri localizada en la seccin tiempo-frecuencia de gm . Por lo tanto, la medida que se utilice en HRP para representar el peso de g m Db no debe daar la energa local de la seal, es decir debe cumplir, | S (ri1 , gm )gm , gm | | ri1 , gm | (4.26)
92
A partir de la ecuacin (4.26), se deriva la nueva medida de similaridad S (r i1 , gm ) para el sub-diccionario de baja resolucin del algoritmo HRP. Esta medida maximiza la cantidad de energa que se puede extraer al elegir el tomo gm en la iteracin i-sima del algoritmo sin daar la energa local: S (ri1 , gm ) = m n | ri1 , gm | , | g m , g m | gm D b (4.27)
donde se incluye para no daar a ninguno de los componentes del subconjunto L m . Aunque se escoja el valor mnimo de todos los valores del subconjunto, la eleccin es vlida siempre que todas las correlaciones cruzadas tengan el mismo signo, dado se evala segn: Si ri1 , gm tiene el mismo signo para todos los tomos gm Lm , entonces es el signo comn. En otro caso = 0. En MP, el producto interno usado no tiene en cuenta si el tomo elegido tiene o no una resolucin adecuada, por lo que al utilizar esta medida se puede variar el comportamiento local de la seal. Sin embargo, en HRP se utiliza el producto interno slo para los tomos con alta resolucin, usando para los tomos con baja resolucin la similaridad denida en la ecuacin (4.27). Esto evita crear energa donde no la haba en la seal original y, adems, permite distinguir caractersticas con alta resolucin temporal. La implementacin del mtodo se puede resumir, a partir de la ecuacin inicial como, ri = x i=0 ri1 S (ri1 , gm(i) )gm(i) i > 0 (4.28)
gm Lm
Para elegir el tomo ptimo gm(i) en la iteracin i-sima, es necesario calcular el valor de la medida de la similaridad para todos los tomos del diccionario S (r i1 , gm ). Este valor se calcula dependiendo de la resolucin propia de cada tomo: S (ri1 , gm ) = ri1 , gm , m ngm Lm
| ri1 ,gm | | gm ,gm | ,
gm D a gm D b
(4.29)
escogindose en la iteracin i el elemento del diccionario gm(i) que maximice la funcin, gm(i) = arg m ax ||S (ri1 , gm )||2
gm D
(4.30)
El principal inconveniente asociado a HRP es la cuidadosa organizacin que ha de realizarse de los elementos del diccionario: Por un lado, es necesario separar los tomos del diccionario entre tomos con alta resolucin y tomos con baja resolucin para formar los conjuntos Da y Db , respectivamente. Esta distincin habr que realizarla en funcin de la resolucin deseada y las caractersticas a determinar. De forma general, basta con determinar la resolucin deseada y clasicar los tomos en base a esa eleccin. Sin embargo, no siempre es posible esta separacin. As, en el caso de la gura 4.7, no se puede obtener una resolucin mayor en frecuencia, puesto que los tomos son todos tonos con la misma resolucin.

a. Carbon Signal b. HRP Phase Plane
93
1 0.8
Frequency
0.5 c. BP Phase Plane 1
0.5
0.6 0.4 0.2
0.5 0
0 0
0.5 Time d. MP Phase Plane
1 0.8
1 0.8
Frequency
0.6 0.4 0.2 0 0 0.5 Time 1
Frequency
0.6 0.4 0.2 0 0 0.5 Time 1
Figura 4.8: Descomposicin de una seal formada por cuatro elementos del diccionario. (a) Seal en el
tiempo. (b) Descomposicin con HRP. (c) Descomposicin con BP. (d) Descomposicin con MP. Figura obtenida mediante el toolbox atomizer de Matlab.
Por otro lado, la seleccin del conjunto de tomos de alta resolucin g m Lm Da relacionados con cada tomo de baja resolucin gm Db es una cuestin de diseo muy comprometida, puesto que los resultados del algoritmo pueden variar mucho en funcin de esta eleccin. En [Vera03a], se demuestra que no es necesario incluir en el subconjunto gm Lm todos los tomos de alta resolucin con correlacin cruzada no nula con el tomo gm Db , sino que incluyendo slo los mximos locales de la correlacin cruzada, se puede reducir, como se ver posteriormente, la complejidad del algoritmo. Sin embargo, este procedimiento es altamente dependiente de la naturaleza de las correlaciones cruzadas entre los elementos del diccionario. Un ejemplo de funcionamiento donde el HRP demuestra sus ventajas debe incluir una seal formada por tomos altamente correlados. As, en la gura 4.8 se analiza la descomposicin obtenida por BP, MP y HRP de una seal formada por cuatro tomos: una delta en el tiempo, un tono de alta frecuencia y dos tomos wavelet packets altamente correlados entre s. En esta gura, el diccionario utilizado es un diccionario formado por funciones wavelet-packet, tonos y deltas. Como se observa en la gura, el algoritmo HRP obtiene resultados similares que el BP, pudiendo descomponer la seal en los cuatro tomos que la forman, mientras que en MP los tomos correlados provocan un error en una de las iteraciones tempranas evitando de esta forma la mejor descomposicin. Esta elevada resolucin temporal se consigue sin incrementar el orden de complejidad del algoritmo [Gribonval96]. En realidad, para el sub-diccionario de tomos de alta resolucin D a se implementa un MP, pero el nmero de multiplicaciones vara para el sub-diccionario de tomos de baja resolucin Db . Para ste, no se calcula directamente la correlacin de los tomos con la seal, ni la actualizacin de correlaciones, sino que desde la primera iteracin es necesario implementar la ecuacin (4.27). Esta ecuacin necesita tantas divisiones por tomo g m Db
94
como tamao tenga el subconjunto Lm , por lo que el nmero de operaciones depende de este valor. El algoritmo HRP ha sido utilizado con xito en la extraccin de caractersticas, en la resolucin de direcciones de llegada [Jaggi98], as como en audio con un diccionario compuesto de con tomos de Gabor [Gribonval96] .
4.2.3.
Resultados
A continuacin, se incluyen una serie de ejemplos tomados de [Chen95], en los que se pretende analizar el rendimiento de algunos mtodos para la obtencin de descomposiciones atmicas. En general, cabe decir que el rendimiento de cada mtodo es muy dependiente de la aplicacin y la seal de entrada a analizar. Sin embargo, cada mtodo tiene una serie de problemas, que pueden aparecer para cualquier seal de entrada. La nalidad de este apartado es mostrar grcamente los problemas comentados previamente en la explicacin de cada mtodo. En primer lugar, se presenta la gura 4.9, que pretende mostrar los problemas que se producen con el mtodo matching pursuits cuando la seal de entrada est formada por elementos del diccionario con alta correlacin cruzada entre ellos. La seal de prueba en este caso est formada por dos senos muy prximos en frecuencia, y se analiza con un diccionario DST (Discrete Sine Transform ) . Como se observa en la gura, el mtodo MOF obtiene una representacin muy poco compacta, puesto que la energa de la seal se reparte entre muchos elementos del diccionario. Adems, el mximo de energa no est en los tomos que forman la seal sino en un mximo intermedio a ambos. Para el caso de matching pursuits, se produce un error en la primera iteracin del diccionario, al extraer un tomo intermedio entre los dos que forman la seal. Se puede observar que este error no tiene solucin, al tratarse de un mtodo iterativo, y, en las iteraciones siguientes, el algoritmo simplemente trata de arreglar esta mala eleccin inicial. Por su parte, el algoritmo BP obtiene la descomposicin ideal, pudiendo discriminar los dos tomos que forman la seal. Como conclusin, cabe decir que el mtodo BP, al tratarse de un mtodo paralelo, tiene una mayor resolucin que los mtodos iterativos y el mtodo MOF, a costa de incrementar la complejidad computacional. A continuacin, se analiza la descomposicin obtenida por los distintos mtodos revisados, con seales sintticas generadas, para comprobar la adaptacin de cada mtodo a sus caractersticas. En primer lugar, en la gura 4.10 se analiza una seal formada por una delta de Dirac, un tono y cuatro tomos wavelet packets. Para todos los mtodos, se utiliza un diccionario wavelet packets. El plano de fase obtenido por el mtodo MOF es muy difuso e incluye gran cantidad de elementos del diccionario. El mtodo MP ofrece un buen resultado para la delta y el tono, pero comete errores al descomponer los cuatro tomos wavelet packets, al estar muy prximos en el plano tiempo-frecuencia. La descomposicin obtenida bajo las siglas BOB (Best Orthogonal Basis ) se consigue determinando la base wavelet packets ortogonal que obtiene la mejor descomposicin bajo un criterio dado. En este caso, se puede observar como esta descomposicin tiene problemas en distinguir correctamente la delta temporal del tono en el plano de fase, por lo que obtiene un resultado ms pobre que MP. El mejor resultado, de nuevo, se obtiene con el mtodo BP. El siguiente ejemplo es el de la gura 4.11. En este caso, la seal no est formada por elementos del diccionario, ya que la seal se sintetiza mediante la suma de un tono puro y una seal FM obtenida mediante la modulacin de un tono. El diccionario se forma a partir de un
95
0.2 0.1
(a) Signal: TwinSine
2 1.5
Amplitude
(b) MOF Coefs
0 -0.1 -0.2 0
1 0.5 0
0.5 (c) MP Coefs
-0.5
0.1
0.11 0.12 0.13 0.14 Frequency/Nyquist (d) BP Coefs
2 1.5
Amplitude
2 1.5
Amplitude
Figura 4.9: Ejemplo de funcionamiento de diferentes mtodos de obtencin de descomposiciones atmicas con una seal formada por dos tonos muy prximos en frecuencia y un diccionario DST. Figura obtenida mediante el toolbox atomizer de Matlab.
96
2 1 0 -1 0 1
Frequency
(a) Signal: Carbon

Frequency
1 0.5 0 0 1
Frequency
0.5 (c) Phase Plane: MOF
0.5 Time (d) Phase Plane: BOB
0.5 0 0 1
0.5 0 0 1
0.5 Time (e) Phase Plane: MP
0.5 Time (f) Phase Plane: BP
Frequency
0.5 0 0
Frequency
0.5 0 0
0.5 Time
0.5 Time
Figura 4.10: Comparacin del resultados de mtodos para obtener descomposiciones con una seal formada por una delta de Dirac, un tono y cuatro funciones wavelet-packets. Se utiliza un diccionario wavelet packets. Figura obtenida mediante el toolbox atomizer de Matlab.

(a) Signal: FM
Frequency
97
2 0 -2 0 1
Frequency
0.5
0.5 (c) PhasePlane: MOF
0 1
Frequency
0.5 Time (d) PhasePlane: BOB
0.5 0 0 1
0.5 0 0 1
0.5 Time (e) PhasePlane: MP
0.5 Time (f) PhasePlane: BP
Frequency
0.5 0 0
Frequency
0.5 0 0
0.5 Time
0.5 Time
Figura 4.11: Comparacin del resultados de mtodos para obtener descomposiciones con una seal formada un tono ms una seal tonal modulada en FM. Se utiliza un diccionario cosine packets. Figura obtenida mediante el toolbox atomizer de Matlab.
rbol cosine packets. Debido a que ahora el diccionario no puede representar de forma exacta la seal con unos pocos tomos, los planos de fase obtenidos no se corresponden en ningn caso con el plano de fase ideal. Pese a ello, se puede armar que el plano de fase del mtodo BP es el ms parecido al plano ideal, obteniendo un resultado similar a efectos prcticos los mtodos MP y BOB, mientras que el mtodo MOF vuelve a producir el resultado ms pobre. Como conclusin, cabe decir que, en general, el mtodo BP obtiene una descomposicin ms apropiada, a costa de incrementar el coste computacional. El mtodo MP obtendr una descomposicin mejor que la determinacin de la mejor base ortogonal (BOB) cuando el diccionario sea altamente sobrecompleto, puesto que en este caso el mtodo MP dispone de muchos tomos para realizar la descomposicin, y el mtodo BOB, al n y al cabo, es la mejor transformada posible (que tiene tantas funciones base como longitud tenga la seal). El mtodo MOF no tiene aplicacin prctica, puesto que los resultados que se obtienen no son satisfactorios en ningn caso. Para nalizar los ejemplos de seales, se introduce la gura 4.12 donde se analiza una seal transitoria de audio con un diccionario de cosine-packets. El plano de fase ideal de esta seal debe reejar altas frecuencias en el momento del golpe del instrumento y, despus, la frecuencia debe acercarse cada vez ms a la frecuencia de resonancia producida. Como se observa en la gura, este plano de fase se obtiene con todos los mtodos, sin que haya una diferencia apreciable entre ellos (salvo para MOF). Quizs, la descomposicin con BP proporcione un resultado ms claro, aunque las diferencias son mnimas. As pues, para seales prcticas, que no estn formadas por
98
(a) Signal: Gong
1 0 -1 0 1
Frequency
0.5 (c) Phase Plane: MOF
1 1
Frequency
(d) Phase Plane: BOB
0.5 0
0.5 0
0.5
1
Frequency
0.55 0.6 Time (e) Phase Plane: MP
0.65
0.5
1
Frequency
0.55 0.6 Time (f) Phase Plane: BP
0.65
0.5 0
0.5 0
0.5
0.55 Time
0.6
0.65
0.5
0.55 Time
0.6
0.65
Figura 4.12: Comparacin del resultados de mtodos para obtener descomposiciones con un transitorio de
audio. Se utiliza un diccionario cosine packets. Figura obtenida mediante el toolbox atomizer de Matlab.
elementos del diccionario, y que no tienen un plano tiempo frecuencia conocido, los resultados obtenidos son similares para todos los mtodos (salvo para MOF). Por ltimo, es interesante incluir un ejemplo prctico de aplicacin para las descomposiciones atmicas. Para varios mtodos de descomposicin como BP o MP, se puede obtener una aproximacin de la seal en pocas iteraciones de los algoritmos de clculo. Por lo tanto, una aplicacin ideal para probar la validez de estos mtodos es la eliminacin de ruido o denoising. En el caso de matching pursuits, al utilizar la correlacin como herramienta de clculo, la potencialidad para eliminar ruido blanco de la seal (incorrelado con la misma y con los tomos del diccionario) es enorme. En el caso de basis pursuits, si se utiliza como algoritmo de clculo interior point, se puede detener el algoritmo en una iteracin temprana con una aproximacin basada en unos pocos tomos de la seal. En general, para todas las descomposiciones, la eliminacin de ruido se realiza mediante umbralizacin, ya sea de la transformada obtenida mediante BOB, de la descomposicin por el mtodo MOF, o deteniendo el clculo de la descomposicin en una iteracin dada en MP o BP con interior point. En la gura 4.13 se dibuja la seal resultado para las diferentes formas de obtener una descomposicin. Como se observa en la parte de seal donde est el transitorio, los resultados son similares para BP y MP, y algo peores para BOB, siendo realmente malos para MOF. Para aplicaciones prcticas, los diferentes mtodos obtienen resultados similares. No obstante, conforme ms complejo es el mtodo, tiende a obtener mejores resultados. En la literatura ha sido muy utilizada la descomposicin BOB (que estrictamente hablando no es una descomposicin atmica), por ejemplo en audio [Ruiz01]. Sin embargo, dentro de una complejidad razonable,
4.3. TIPOS DE DICCIONARIOS TIEMPO-FRECUENCIA

(a) Signal: Gong (b) Noisy Gong: SNR = 1
99
20 0 -20 0 20 0 -20 0 20 0 -20 0
20 0 -20 0 20 0 -20 0 20 0 -20 0
0.5 (c) Recovered: MOF
0.5 (d) Recovered: BOB
0.5 (e) Recovered: MP
0.5 (f) Recovered: BP
0.5
0.5
Figura 4.13: Comparacin del resultados de mtodos de descomposiciones para eliminacin de ruido en
un transitorio de audio. Figura obtenida mediante el toolbox atomizer de Matlab.
est siendo utilizado cada vez ms el mtodo MP [Heusdens02] [Verma99], que obtiene una descomposicin atmica y, por tanto, puede ser aplicado para obtener codicadores paramtricos de audio.
4.3.
Tipos de diccionarios tiempo-frecuencia
Para el desarrollo de un modelo general de descomposicin de seal, los tomos han de ser elegidos de forma que se correspondan con las caractersticas bsicas de la seal. Este enfoque se recomienda especialmente para aplicaciones de anlisis y codicacin de seal, porque cada tomo puede describir un comportamiento concreto de la seal de entrada. Adems, si el diseo del diccionario es paramtrico, en el sentido de que cada tomo est denido por parmetros con signicado fsico, tales como localizacin temporal, frecuencia de modulacin o escala, la relacin entre estos parmetros y las caractersticas propias de la seal puede ser muy directa. Caben distinguir dos enfoques en el diseo del diccionario. Por un lado, los primeros trabajos en descomposiciones atmicas siguieron el camino de utilizar un gran diccionario generalista que incluyera una gran variedad de comportamientos en la denicin paramtrica de los tomos [Mallat93]. Sin embargo, esta aproximacin no es ptima desde el punto de vista de la complejidad por el gran tamao del diccionario. Como consecuencia, se suele disear el diccionario en funcin de la aplicacin para la que se utilice la descomposicin. Por ejemplo, para realizar un modelado sinusoidal parece lgico implementar un diccionario compuesto de exponenciales complejas, sin
100
considerar funciones transitorias dentro diccionario. A continuacin, se revisan las caractersticas de los diccionarios ms utilizados en la bibliografa para el clculo de descomposiciones atmicas, as como sus principales utilidades.
4.3.1.
tomos de Gabor
Este tipo de tomos se utiliza cuando se disea un diccionario de grandes dimensiones para proporcionar una representacin tiempo-frecuencia de la seal, siendo la representacin resultante paramtrica y compacta [Mallat93]. Los tomos de Gabor [Gabor46] son funciones con una buena localizacin tiempo-frecuencia, que permiten modelar un gran rango de comportamientos de la seal a analizar. Debido a esta propiedad, los tomos de Gabor se han convertido en un clsico en la bibliografa sobre el tema, siendo su uso recurrente en descomposiciones de carcter general. En tiempo continuo, los tomos de Gabor se obtienen, a partir de una ventana g (t), realizando una modulacin en frecuencia y un desplazamiento y escalado en el tiempo: 1 g{s,, } (t) = g s t s ej(t ) (4.31)
Esta denicin se puede extender a tiempo discreto muestreando los tomos. Una forma de escribir este muestreo es la siguiente: g{s,, } [n] = fs [n ]ej(n ) (4.32)
donde fs [n] es una ventana de energa unidad que se puede escalar mediante el parmetro s. Como se puede observar, aparte de normalizar la energa de cada tomo, un diccionario formado por tomos de Gabor se indexa a partir de los parmetros {s, , }. Esta estructura permite una descripcin muy simple de cada tomo, siendo muy valiosa en aplicaciones de anlisis o compresin. Un diccionario compuesto por tomos de Gabor suele ser altamente sobre-completo e incluir bases de Fourier (al variar la frecuencia) y wavelet (al variar la escala). Sin embargo, este tipo de diccionario tiene unos importantes inconvenientes. Por un lado, debido al gran tamao necesario para abarcar un conjunto sucientemente representativo de comportamientos tiempofrecuencia, la complejidad requerida para el clculo de la descomposicin es demasiado elevada para la mayora de las aplicaciones de compresin, aunque se hayan ideado algunos algoritmos para reducir la complejidad [Goodwin97]. Adems, el resultado de la descomposicin es altamente dependiente de la ventana utilizada. De forma general, se utilizan ventanas simtricas. La gura 4.14 representa varios tomos a diferente frecuencia y escala para este caso concreto de ventana simtrica. Sin embargo, en aplicaciones donde la seal tiene un comportamiento transitorio, los tomos de Gabor pueden no ser la mejor eleccin. En la gura 4.15 se aprecia el pre-eco producido por la eleccin de una ventana simtrica en una seal formada por una exponencial amortiguada. Una solucin a este problema puede consistir en el empleo del algoritmo high resolution pursuits para el clculo de la descomposicin, aunque para seales transitorias puede haber otros diccionarios ms apropiados, como por ejemplo el formado por sinusoides amortiguadas. Este problema, surgido de la imposibilidad de un diccionario de representar correctamente aquellas seales cuyo comportamiento no se adapta a los tomos que lo forman, puede aparecer en funcin de las caractersticas de la seal. As, para el caso de la seal de audio o de la seal
101
Figura 4.14: tomos de Gabor con ventana simtrica variando la frecuencia de modulacin y la escala de la ventana.
1 0 1 0 1 0 1 0 1 0 1 0 20 40 60 80 100 120 140 160 180 200 20 (c) 40 60 80 100 120 140 160 180 200 20 (b) 40 60 80 100 120 140 160 180 200 (a)
Figura 4.15: Representacin de un efecto de pre-eco producido al utilizar tomos de Gabor simtricos. (a)
Seal formada por una exponencial amortiguada. (b) Primer tomo de Gabor elegido mediante matching pursuits. (c) Residuo tras la primera iteracin donde se aprecia el efecto de pre-eco.
radar, es comn encontrar ejemplos donde la frecuencia de la seal cambia con el tiempo, algo no contemplado en la denicin de los tomos de Gabor. Esta modulacin en frecuencia o chirp se puede incluir implementando un diccionario an ms amplio [Gribonval01]. Sin embargo, este enfoque, basado en generalizar el diccionario para responder a cualquier comportamiento de la seal de entrada, no parece la solucin ms idnea cuando la complejidad de la descomposicin se incrementa exponencialmente con el tamao del diccionario. Al contrario, para poder realizar descomposiciones acordes al problema a solucionar, se disean diccionarios a medida, donde se mantienen slo las propiedades a analizar, reduciendo as el nmero de tomos y por tanto la complejidad. A continuacin, se presentan una serie de diccionarios menos generalistas, adaptados a aplicaciones concretas, a partir de los cuales se analizarn los problemas que aparecen en la descomposicin de la seal de audio.
4.3.2.
Sinusoides amortiguadas
La aparicin de oscilaciones con cada exponencial en muchas seales naturales justica la consideracin de tonos que tienen una cada exponencial para el diseo del diccionario. Al n y al cabo, una seal de estas caractersticas es la respuesta al impulso de un ltro con un polo complejo, siendo esta propiedad interesante cuando se intentan modelizar seales producidas por sistemas lineales. Un diccionario formado por estas seales representa de forma ms ecaz los transitorios presentes en seales reales que un diccionario formado por tomos de Gabor con ventanas simtricas [Goodwin97]. Un diccionario formado por sinusoides amortiguadas se indexa al igual que
102
Figura 4.16: tomos de sinusoides amortiguadas variando la frecuencia de modulacin y el factor de

amortiguamiento.
un diccionario formado por tomos de Gabor con tres parmetros, que ahora son: el factor de amortiguamiento a, la frecuencia de modulacin y el tiempo de comienzo : g{a,, } [n] = Sa a(n ) ej(n ) u[n ] (4.33)
donde el factor Sa se incluye para conseguir norma unidad. Ejemplos de tomos de este tipo se dibujan en la gura 4.16. Lgicamente, este tipo de tomos se puede denir tambin a partir de tomos de Gabor con una ventana basada en una exponencial multiplicada por la funcin impulso unidad. En la literatura han aparecido diversos enfoques que utilizan tomos tiempo-frecuencia con comportamiento exponencial. En [Friedlander95], las sinusoides amortiguadas se utilizan para proporcionar una representacin tiempo-frecuencia a partir de la cual los transitorios de la seal se pueden identicar fcilmente. Sin embargo, en esta referencia se supone un cierto conocimiento a priori del factor de amortiguamiento, que es razonable para aplicaciones de deteccin, pero inapropiado para obtener descomposiciones de seales arbitrarias. En cualquier caso, un diccionario con sinusoides amortiguadas obtiene una descomposicin adecuada para seales transitorias [Goodwin97b]. En el caso concreto de la seal de audio, cuando se desea aplicar una descomposicin atmica, este diccionario obtiene una descomposicin adecuada para representar la parte transitoria [Nieuwenhuijse98]. El precio a pagar es una complejidad muy alta para el modelado de los transitorios de audio, lo que ha hecho que su uso sea reducido en codicadores paramtricos de audio.
4.3.3.
Exponenciales complejas
Cuando la descomposicin atmica se va a realizar sobre una seal muy tonal, como una seal armnica de audio, los tomos a extraer deben estar basados en sinusoides. En el caso particular de una seal real, el conjunto de tomos debera estar formado por un conjunto de tonos de diferente frecuencia y fase : g{,} [n] = Sc cos (n + ) (4.34)
donde Sc es una constante para obtener potencia unidad. Con estos tomos, el tamao del diccionario viene determinado por el nmero de frecuencias y fases, siendo el tamao total la multiplicacin de ambos valores. Sin embargo, haciendo uso de la matemtica compleja, el tamao del diccionario se puede reducir signicativamente. As, deniendo los tomos como exponenciales complejas:
103
g [n] = Se ejn
(4.35)
no es necesario incluir la fase en la denicin de los tomos, puesto que sta se calcula por medio de la matemtica discreta. Por ejemplo, si se aplica matching pursuits, la correlacin con nmeros reales es un valor real de amplitud, mientras que para nmeros complejos, la correlacin de la seal con cada tomo es ahora un valor complejo con amplitud y fase. Con esta denicin de los tomos como exponenciales complejas, se reduce por tanto el tamao del diccionario a slo el nmero de frecuencias que necesite la descomposicin atmica. En el caso particular de emplear matching pursuits para el clculo de la descomposicin atmica, es posible realizar una modicacin del algoritmo que permite un funcionamiento apropiado con tomos complejos y seales reales. Esta modicacin del algoritmo se basa en extraer en cada iteracin un subespacio de seal, por lo que se conoce en la bibliografa como subspace pursuits [Verma99] [Goodwin97]. Un subespacio de seal se dene como una suma ponderada de varios tomos, siendo estos subespacios la seal que se extrae en cada iteracin. En el caso de exponenciales complejas, el subespacio de seal est formado por la suma de cada tomo y su complejo conjugado. De esta forma, cada subespacio es real y, como estos subespacios son los que se extraen de la seal, el residuo nal tambin lo es. Esta denicin de subespacios para tomos exponenciales complejos se denomina en ingls conjugate subspaces. Para esta situacin, en cada iteracin i, se extrae un tomo g(i) con su coeciente (o peso) asociado (i) y su conjugado, ri = x i=0 i 1 r ((i) g(i) + (i) g(i) ) i > 0 (4.36)
donde el coeciente (i) = |(i) |ej es un valor complejo con mdulo y fase, pudindose escribir el residuo en funcin del coseno para el caso de tomos exponenciales complejos como, ri = x i=0 i 1 r 2Se |(i) |cos(n + ) i > 0 (4.37)
Aunque ahora la obtencin de los coecientes no se basa simplemente en la correlacin de la seal con los tomos, si depende muy directamente de este valor [Goodwin97]. Adems, la correlacin de una seal discreta con un conjunto de exponenciales complejas es el clculo de la Transformada Discreta de Fourier de la seal. Las exponenciales complejas han sido utilizadas como tomos en el clculo de descomposiciones atmicas con la nalidad de aplicar un modelado sinusoidal. Este modelo de seal se ha aplicado para voz y audio con generalidad [Mcaulay86]. Otra ventaja adicional de este enfoque consiste en la introduccin de informacin psicoacstica para el clculo de los coecientes asociados a cada exponencial. No se extrae el tomo que minimiza la energa del residuo, si no aquel que minimiza la importancia perceptual del mismo. Se han propuestos varios enfoques en la bibliografa para este problema [Verma99b] [Heusdens02].
4.3.4.
Diccionarios basados en transformadas
Como en el caso de las exponenciales complejas, es posible denir diccionarios basados en transformadas y bancos de ltros. Como se ha visto en el apartado anterior, es posible denir un
104
diccionario de exponenciales complejas y aplicar la Transformada Discreta de Fourier (Discrete Fourier Transform, DFT ) para matching pursuits. Esta propiedad se deriva del hecho de que tanto matching pursuits, como otros mtodos para calcular descomposiciones atmicas, utilizan como medida la correlacin entre los tomos y la seal. Esta correlacin se calcula directamente al aplicar una transformada o un banco de ltros, si se denen los tomos a partir de la respuesta del banco de ltros de sntesis o de las funciones base de la expresin de la transformada inversa. La transformada o banco de ltros a utilizar depende en gran medida de la aplicacin a desarrollar o de la seal de entrada. En este sentido, cuando se busca implementar un modelado sinusoidal mediante una descomposicin atmica parece lgico utilizar la Transformada Discreta de Fourier como herramienta de clculo de las correlaciones, lo que da lugar a un diccionario de exponenciales complejas. Tambin es posible utilizar otras transformadas, como la cosine packets, sine packets, Transformada Discreta del Coseno o del Seno, basadas en elementos sinusoidales, que tienen la posibilidad (al igual que la DFT) de denir un nmero de coecientes de la transformada superior a la longitud de la seal de entrada para poder obtener un diccionario sobrecompleto. En el caso de la DFT, esto se consigue rellenando con ceros la seal de entrada. Cuando se desea implementar un modelado de transitorios, las transformadas anteriores no son las ms idneas. En su lugar, es mejor utilizar transformadas como la Transformada Wavelet o Wavelet-Packets, que obtienen mejores resultados cuando se pretende representar componentes transitorias presentes en la seal de audio [Ruiz01]. Sin embargo, para cumplir el requisito de que el diccionario sea sobrecompleto, es necesario la eleccin de la Transformada Wavelet-Packets (Wavelet-Packets Transform, WPT ) . El uso de una WPT para implementar un modelado de transitorios mediante una descomposicin atmica es muy prometedor [Vera04a]. En el caso de un diccionario wavelet packets, los tomos que lo forman son todas aquellas funciones del rbol de descomposicin hasta el nivel de descomposicin J , siendo este valor el nmero de veces que es sobrecompleto el diccionario. Los tomos de este diccionario se identican a partir de tres ndices {s, p, r}, que indican la subbanda en un nivel de descomposicin dado, la profundidad de descomposicin y el retardo dentro de cada subbanda, respectivamente. Los tomos se pueden denir como, g{s,p,r} [n] = g{s,p} [n 2p r] (4.38)
donde la secuencia g{s,p} [n] es la versin en el tiempo de la funcin en el dominio z , G{s,p} (z ). Esta funcin se puede calcular directamente a partir de las funciones de transferencia de los ltros de sntesis paso bajo y paso alto, G0 (z ) y G1 (z ), respectivamente, de la transformada WPT. Estos ltros son los que implementan la transformada WPT inversa. Resumiendo, la funcin G {s,p} (z ) se puede expresar como [Vera04a]:
p1 d=0 2d
G{s,p} (z ) =
G((
s/2d ))2 (z
(4.39)
donde ((k ))L representa (k modulo L). Como se puede observar, una vez que se decide la transformada a utilizar, los tomos de la descomposicin son las respuestas al impulso de cada coeciente de la transformada. De esta forma, el clculo de la correlacin se simplica a calcular la transformada directa.
105
Para el caso del mtodo matching pursuits, la ventaja adicional de utilizar un diccionario estructurado en una transformada es la obtencin sencilla de las correlaciones cruzadas entre tomos necesarias para la actualizacin de las mismas. Por ejemplo, en el caso de diccionario wavelet packets, la memoria para guardar las correlaciones cruzadas se reduce a la necesaria para almacenar las respuestas al impulso de cada funcin base o coeciente [Vera04a]. Debido a esta caracterstica, los diccionarios basados en transformadas necesitan menos requerimientos de memoria que otros diccionarios previamente revisados, como los tomos de Gabor o las sinusoides amortiguadas. En general, los diccionarios basados en una transformada precisan un nmero de tomos reducido. En el caso de la WPT, dicho nmero viene determinado por la profundidad de la transformada. Adems, estrictamente hablando, no se trata de diccionarios paramtricos, en el sentido de que los parmetros del diccionario no tienen sentido fsico en relacin a la seal a analizar.
4.3.5.
Diccionarios mixtos
Una forma de conjugar la adaptacin de los diccionarios revisados a las caractersticas de la seal de entrada es la utilizacin de diccionarios mixtos. En este sentido, la incapacidad de los tomos de Gabor de representar transitorios de seal se soluciona incluyendo en la denicin del diccionario un conjunto de tomos con las caractersticas de las sinusoides amortiguadas. Esta unin de diccionarios se ha utilizado con el objetivo ltimo de denir un diccionario generalista que incluya el mximo de comportamientos tiempo-frecuencia para adaptarse a la seal de entrada [Goodwin97] [Gribonval01]. Siempre que se propone el uso de un diccionario mixto de este tipo es necesario hacer un estudio para reducir al mximo los requisitos de memoria y complejidad de la descomposicin atmica. An as, el uso de un diccionario de este tipo es muy restringido, debido a la alta complejidad asociada al clculo de la descomposicin. Un ejemplo de funcionamiento para comprobar las ventajas de utilizar un diccionario mixto aparece en la gura 4.17. La seal de prueba est formada por la suma de un seno ms dos impulsos unidad desplazados en el tiempo. Como se puede comprobar, el uso independiente de los diccionarios individuales con el algoritmo BP no produce un resultado compacto, puesto que los tomos no estn adaptados a todas las caractersticas de la seal. En cambio, con un diccionario mixto (o merge en ingls) se obtiene un resultado altamente satisfactorio, porque recoge en tres coecientes las propiedades de la seal de entrada. Para el caso de la seal de audio que incluye un comportamiento muy tonal con zonas transitorias, el uso de un diccionario mixto puede ser una herramienta de gran potencia para separar en anlisis la parte tonal de la transitoria. Sin embargo, la complejidad no puede ser muy alta si se pretende realizar una descomposicin con posible aplicacin prctica. Una idea desarrollada con cierto xito es la de utilizar un diccionario mixto formado por exponenciales complejas, que se adapten a la parte tonal de la seal, y tomos derivados de la transformada wavelet packets, apropiados para capturar la parte transitoria del audio [Vera05a]. El principal problema a solventar, si se utiliza el algoritmo matching pursuits, es la actualizacin de las correlaciones, que exige almacenar en memoria las correlaciones cruzadas entre tomos sinusoidales y wavelets packets. En este caso concreto, slo es preciso guardar la transformada discreta de Fourier de las funciones wavelets packets [Vera05a]. En general, para el caso de los algoritmos iterativos (por ejemplo matching pursuits ), el uso
106
4 2 0 2 4 6 0
(a) Seal: Impulsos unidad + seno
0.2
0.4
0.6
0.8
1 (c) Representacion con diccionario DST
(b) Representacion con diccionario de impulsos unidad
10
10
10
0.2
0.4
Posicion
0.6
0.8
20
0.2
0.4 0.6 Frecuencia discreta
0.8
(d) Coeficientes BP de la parte de impulsos
5 0
(e) Coeficientes BP de la parte DST
5 10
15 20
10
0.2
0.4
Posicion
0.6
0.8
25
0.2
0.4 0.6 Frecuencia discreta
0.8
Figura 4.17: Ejemplo de uso de un diccionario mixto. (a) Seal formada por un seno ms dos impulsos
unidad retardados en el tiempo . (b) Coecientes obtenidos mediante BP con un diccionario de impulsos unidad. (c) Coecientes con BP y un diccionario DST (Discrete Sine Transform). (d) Coecientes de la parte de impulsos unidad del diccionario mixto (impulsos unidad ms DST) con BP. (e) Coecientes de la parte DST del diccionario mixto (impulsos unidad ms DST) con BP.
107
de un diccionario mixto obtiene mejores resultados que la aplicacin en serie de diccionarios individuales. La causa de esta armacin hay que buscarla en que si se aplican descomposiciones en serie surge el problema de cundo parar una descomposicin para empezar la siguiente con el residuo resultante. Si se realizan la descomposicin en base a pocos tomos extrados, es muy posible que no se hayan extrado todos los tomos que modelen el comportamiento de la seal adaptado al primer diccionario. Al contrario, si se permite la extraccin de demasiados tomos en la primera descomposicin, se puede modicar el comportamiento de la seal en relacin al siguiente diccionario. Al n y al cabo, el problema de determinar la parada del algoritmo se soluciona con una solucin de compromiso. Sin embargo, con el uso de un diccionario mixto este problema no se produce, puesto que se extrae en cada iteracin el tomo ptimo, calculado teniendo en cuanta ambos diccionarios. Como contrapartida, la complejidad de la descomposicin crece, sobre todo con la inclusin dentro del diccionario mixto de tomos de diferente naturaleza.
108
Parte II
Desarrollo y Metodologa de la Investigacin
109
Captulo 5
Modelado sinusoidal
A partir de la revisin realizada anteriormente acerca del modelado sinusoidal, se llega a la conclusin de que hay una gran cantidad de posibles opciones a la hora de mejorar los resultados de este modelo implementado mediante una simple deteccin de picos espectrales en la DFT. A la hora de elegir la opcin ms apropiada es muy importante tener en cuenta las siguientes consideraciones: Tiempo computacional Cuando el funcionamiento en tiempo real es un requisito indispensable a la hora de implementar el modelado tonal, es necesario evitar algoritmos con carcter iterativo [Myburg04]. Bajo esta premisa, los mtodos de clculo disponibles son aquellos que optimizan los parmetros sinusoidales de manera global. Para este grupo de algoritmos, se utiliza como primera aproximacin los valores calculados mediante la DFT y la deteccin de picos espectrales para, posteriormente, utilizar algn tipo de mtodo numrico para minimizar las desviaciones que se producen en el cmputo de los parmetros sinusoidales. Los mtodos ms utilizados en codicacin paramtrica de audio son la estimacin por mxima semejanza propuesta en [Thomson82] y utilizada en el codicador HILN [Purnhagen02] y en los codicadores hbridos de Ali [Ali95] y Levine [Levine98], y la minimizacin por mnimos cuadrados propuesta en [George87] y usada en la versin escalable del codicador PPC [Myburg04]. Inclusin de informacin perceptual Los mejores resultados prcticos a la hora de implementar un modelo sinusoidal se consiguen mediante el algoritmo matching pursuits [Myburg04]. El precio a pagar es el incremento de la complejidad computacional debido al uso de un algoritmo de carcter iterativo. Sin embargo, el uso de matching pursuits aporta como ventaja adicional la posible modicacin del algoritmo para incluir informacin psicoacstica en la seleccin del tono ms importante en cada iteracin. As, por denicin [Mallat93], el mtodo MP elige en cada iteracin el elemento del diccionario que extrae mayor energa del residuo actual. Esta medida de energa, que se calcula mediante la correlacin, se puede modicar [Verma99b] [Heusdens02b] para extraer el tomo perceptualmente ms importante con la simple introduccin en las ecuaciones del umbral de enmascaramiento calculado para los tonos. Con esta modicacin, el algoritmo MP tiene una gran potencialidad como herramienta para calcular el modelo tonal en aplicaciones de codicacin de audio, de tal forma que en este apartado se revisar con detalle la forma de implementar 111
112 un mtodo matching pursuits perceptual.
CAPTULO 5. MODELADO SINUSOIDAL
5.1.
Implementacin mediante matching pursuits
Como se coment en el apartado 4.3.3, para la implementacin de un modelo sinusoidal mediante el mtodo MP, es una ventaja disponer de un diccionario de exponenciales complejas, aunque la seal sea real, puesto que se limita el tamao del diccionario al nmero de frecuencias a buscar en la seal, mientras que la fase se calcula como parte de la correlacin en las operaciones complejas. Eso s, para trabajar con seales reales, es necesario utilizar subespacios de seal formados por cada tomo y su conjugado al objeto de extraer en cada iteracin slo seales reales. Esta pequea modicacin del algoritmo matching pursuit no cambia sustancialmente su funcionamiento. Para implementar el modelado sinusoidal de seales de longitud nita, el diccionario sobrecompleto D debe estar compuesto de funciones sinusoidales enventanadas que puedan variar en frecuencia y fase. Como se ha comentado, el empleo de funciones exponenciales complejas reduce la complejidad computacional del modelo tonal en comparacin con el empleo de funciones senoidales reales. Como se muestra a continuacin, la proyeccin de cada funcin exponencial compleja contiene la informacin de fase. El diccionario est formado, por tanto, de un conjunto de funciones exponenciales complejas enventanadas que se puede denir de la forma, gk [n] = Sw w[n]ej
2k n 2L
k = 0, . . . , L,
n = 0, . . . , N 1
(5.1)
donde la constante Sw se elige para obtener tomos de norma unidad, w[n] es la ventana de anlisis de longitud N y L + 1 el nmero de frecuencias dentro del diccionario. En cada iteracin, el residuo se calcula a partir de la expresin (en notacin matricial), ri = x i=0 i 1 r (k(i) gk(i) + k(i) gk(i) ) i > 0 (5.2)
donde el coeciente k(i) = |k(i) |ej es un valor complejo con mdulo y fase, pudindose escribir en funcin del coseno como, ri = x i=0 2k i 1 r 2Sw w|k(i) |cos( 2L n + ) i > 0 (5.3)
Para conocer el tomo ptimo y su coeciente asociado, se minimiza la energa del residuo en cada iteracin, m n ||ri ||2 para ri = ri1 2Re{i k gk } (5.4)
gk D
En cada iteracin se elige el peso que minimiza la norma l 2 de ri , que se corresponde con el coeciente del tomo ptimo i(k) . Introduciendo el valor de ri y minimizando la funcin, se obtiene que lo anterior equivale a maximizar
i1 2 m ax 2Re{(i , gk >} |i k) < r k | gk 2 2 Re{(i k ) < gk , gk >}
gk D
(5.5)
5.1. IMPLEMENTACIN MEDIANTE MATCHING PURSUITS Maximizando esta funcin, la solucin nal se puede expresar de la forma [Goodwin97], m ax
2 ||i k ||
113
gk D
para
i k
Se puede comprobar que el clculo de los pesos de cada tomo cumple el principio de ortogonalidad, y que ahora el residuo en la iteracin i, ri , es ortogonal al tomo ptimo gk(i) y a su conjugado, < ri , gk(i) > = 0 < r i , gk (i) > = 0 (5.7)
, g > < ri1 , gk > < ri1 , gk > < gk k = , g > |2 1 | < gk k
(5.6)
De la misma forma que para el algoritmo matching pursuits con un diccionario simple, para el caso de subespacios de complejos conjugados, es tambin posible la obtencin de una ecuacin para actualizar las correlaciones de forma rpida,
< ri , gk >=< ri1 , gk > k(i) < gk(i) , gk > k(i) < gk(i) , gk >
(5.8)
5.1.1.
Implementacin eciente
Gracias al empleo de tomos complejos conjugados, las correlaciones necesarias se pueden calcular de manera eciente aplicando la transformada rpida de Fourier (FFT, Fast Fourier Transform ). Esto es posible puesto que las correlaciones entre la seal x[n] y los tomos g k [n] son simplemente una Transformada Discreta de Fourier (DFT, Discrete Fourier Transform ), < x[n], gk [n] >= Sw
N 1 n=0
xw [n]ej
2k n 2L
= Sw Xw [k ]
(5.9)
donde xw [n] = x[n] w[n] es la seal de entrada multiplicada por la ventana, Xw [k ] es la DFT de longitud 2L de la seal de entrada enventanada y L > N , siempre que se quiera tener un diccionario sobre-completo. Para calcular las correlaciones iniciales, como se expresa en (5.9), es necesario, por tanto, aplicar la FFT a la seal de entrada enventanada, rellenando con ceros hasta llegar a una longitud 2L. La misma consideracin se puede hacer a la hora de pre-calcular las correlaciones cruzadas entre los tomos del diccionario,
N 1 j < gk(i) [n], gk [n] > = |Sw |2 n =0 u[n]e 2 = |Sw | U [((k k (i)))2L ]
2 (kk(i)) n 2L
(5.10)
donde u[n] = |w[n]|2 and U [k ] la DFT de longitud 2L de u[n] y ()2L denota modulo 2L. Al ser u[n] una seal real basta con almacenar L + 1 valores de la transformada U [k ] para aplicar la actualizacin de correlaciones. A partir de las ecuaciones (5.10) y (5.11), se deduce que las correlaciones entre el tomo ptimo gk(i) [n] en la iteracin i-sima y el resto de tomos gk [n] D tambin se pueden calcular mediante la FFT, en este caso conociendo la transformada de la ventana al cuadrado (u[n] =
N 1 j [n], g [n] > = |S |2 < gk w k n=0 u[n]e (i) = |Sw |2 U [((k + k (i)))2L ]
2 (k+k(i)) n 2L
(5.11)
114
|w[n]|2 ). Por lo tanto, dicha transformada se tiene que pre-calcular y guardar en memoria para actualizar las correlaciones de forma directa. El uso de un diccionario de exponenciales complejas permite [Verma99]: 1) calcular las correlaciones iniciales entre la seal y los tomos del diccionario mediante una FFT de longitud 2L; 2) que las correlaciones cruzadas entre tomos del diccionario slo requieran una memoria compleja de longitud L + 1.
5.1.2.
Extensin para el anlisis de seales no estacionarias
Las seales no estacionarias se pueden analizar trama a trama, de forma que la seal se enventana en cada trama donde posee caractersticas estacionarias o, al menos, cambian poco. Una condicin suciente para asegurar la convergencia del modelo tonal mediante matching pursuits se expresa a continuacin, w[n lP ] = 1 (5.12)
donde P N representa el salto de seal entre tramas. Se pueden utilizar varios tipos de ventanas. La ventana ms extendida es la ventana triangular [Verma99], pero esta eleccin conlleva un solapamiento que en la prctica provoca el incremento del nmero de tonos por muestra. En esta tesis se propone el uso de ventanas que eviten por completo el solapamiento en (5.12). Para ello, se consideran ventanas rectangulares en el modelo tonal. Esta eleccin trae consigo la apariencia de un efecto de bloque (artefactos audibles) en las fronteras entre tramas, inconveniente que se solventa si en el receptor, a la hora de sintetizar la seal tonal, hay un pequeo solapamiento entre tramas adyacentes [Vera04b]. La forma de implementar esta idea es extendiendo en sntesis las tramas ms all de su duracin en anlisis, usando ventanas trapezoidales que suavicen la transicin entre tramas. Con estas ventanas de sntesis, se consigue que los tonos que desaparecen de una trama a la siguiente no lo hagan de forma brusca, o los tonos que empiezan lo hagan de una forma suave. La mayor ventaja de este enfoque es que se evita el solapamiento en la etapa de anlisis, siendo sta una propiedad muy interesante para aplicaciones de codicacin que usen el model tonal. Una forma alternativa al uso de ventanas es el empleo de la interpolacin de parmetros sinusoidales entre tramas de la seal de audio [George97]. Esta tcnica hace uso de las trayectorias tonales que surgen en el modelo tonal, lo que signica que generalmente muchos tonos de una trama continan generalmente en la siguiente, puesto que el modelo tonal trabaja con la parte armnica de la seal de audio. Para conseguir que el modelo pueda seguir las variaciones de la seal de entrada, se introduce la interpolacin de parmetros en la ecuacin (5.13),
K
x[n] x [n] =
k=1
Ak [n] cos k [n] n + k [n]
(5.13)
es decir, los valores Ak [n], k [n] y k [n] se detectan en cada trama, se relacionan los tonos entre tramas adyacentes para formar trayectorias, y se modican los parmetros entre una trama y otra siguiendo un procedimiento de interpolacin que, generalmente, es lineal para la amplitud y polinmico para la frecuencia y fase [George97].
5.1. IMPLEMENTACIN MEDIANTE MATCHING PURSUITS Tabla 5.1: Seales de audio utilizadas en el test del modelo tonal. Seal si01 si03 sm01 sm03
trama de audio
115
Descripcin Clavicordio Diapasn Gaita Punteos de guitarra

+ +
residuo
Anlisis sinusoidal
Parmetros sinusoidales
Sntesis sinusoidal
Figura 5.1: Esquema experimental usado para comparar de forma objetiva diferentes mtodos de implementacin del modelo tonal. A continuacin, se comparan ambos mtodos de sntesis tonal, pero antes es necesario poner de maniesto que, desde el punto de vista de la implementacin, el tratamiento de ventanas es ms rpido, puesto que es posible realizar la implementacin en frecuencia mediante la FFT [Goodwin97]. Esta implementacin se realiza sumando en frecuencia la transformada de cada tono extrado de la seal, realizando, una vez sumados todos los tonos, la transformada inversa y obteniendo la seal en el tiempo. Sin embargo, mediante la interpolacin de parmetros, esto no es posible, puesto que al variar los parmetros (amplitud, frecuencia y fase) de cada tono con el tiempo n, es necesario realizar la sntesis de la seal en el tiempo mediante un oscilador. Como resultado, es necesario para implementar la interpolacin de parmetros un banco de osciladores, donde hay un oscilador por cada frecuencia a sintetizar. Para determinar el mejor mtodo de anlisis/sntesis para implementar el modelo sinusoidal, se han llevado a cabo varios experimentos con un conjunto de seales de prueba mono de calidad CD y alto contenido tonal. Las seales de audio elegidas son un subconjunto de las seales de prueba de MPEG-4 y se listan en la tabla 5.1. La medida objetiva para comparar los diferentes mtodos ser la relacin residuo a seal (RSR, Residual to Signal energy Ratio ). Esta relacin se calcula comparando la energa de la seal de entrada con el residuo obtenido tras aplicar el modelo tonal. Este residuo es el resultado de restar a la seal de entrada la seal salida del modelo tonal, es decir, la seal sintetizada tras extraer los parmetros con el modelo tonal. Un esquema de la obtencin de esta seal residuo aparece en la gura 5.1. Los diferentes mtodos evaluados para las etapas de anlisis y sntesis sinusoidal son: A. Extraccin tonal mediante bsqueda de picos espectrales en la DFT (spectral peak picking ), y sntesis mediante interpolacin de parmetros [Mcaulay86]. B. Extraccin tonal mediante matching pursuits, y sntesis mediante interpolacin de parmetros del modelo tonal. C. Extraccin tonal mediante matching pursuits, y uso de enventanado con ventana triangular tanto en anlisis como en sntesis [George97][Verma99].
116
SI01

SI03
14
12
RSR (%) en media
14
12
RSR (%) en media
10
8
6 4
2
0
50 20 30 40 10 Nmero de frecuencias por segmento
SM01
10 8
6
4 2
0
SM03
14
12
RSR (%) en media
14
12
RSR (%) en media
10 8
6
4 2
0
10 8
6
4 2
0
Figura 5.2: Variacin de la relacin residuo a seal RSR( %) conforme aumenta el nmero de frecuencias
extradas para los cuatro mtodos considerados: A (rombos), B (tringulos), C (crculos), D (cuadrados).
D. Extraccin tonal mediante matching pursuits, y uso de enventanado con ventana rectangular en anlisis y trapezoidal (con un solapamiento del 10 %) en sntesis (mtodo propuesto). Los resultados que se muestran a continuacin se han obtenido con un diccionario de exponenciales complejas con L + 1 = 4097 frecuencias y una longitud de trama de N = 1024 muestras. En primer lugar, se comparan resultados con valores objetivos obtenidos por los mtodos anteriormente citados. As, en la gura 5.2 se muestran los valores medios de la relacin residuo a seal, expresados en porcentaje RSR( %), conforme aumenta el nmero de frecuencias extradas por el modelo sinusoidal. Como se observa en la gura 5.2, los mtodos C y D mejoran claramente los resultados de los mtodos A y B. La diferencia entre ambos grupos est en el empleo de interpolacin en sntesis (mtodos A y B) frente al empleo de un esquema de enventanado (mtodos C y D). Por lo tanto, una conclusin importante es que el uso de la interpolacin de parmetros limita los resultados del modelo sinusoidal. En este sentido, la interpolacin no es capaz de seguir las variaciones de la seal de entrada, lo que hace imposible reducir la relacin residuo a seal. Al contrario, el enventanado es una tcnica de reconstruccin perfecta, es decir, cuando el nmero de frecuencias tienda a innito la relacin residuo a seal tender a cero. Una vez que se ha comprobado la ventaja de utilizar enventanado en trminos objetivos, se pasa a comprobar qu ventanas es recomendable utilizar. En la bibliografa, es generalizado el uso de ventanas triangulares tanto en anlisis como en sntesis cuando matching pursuits se utiliza
5.1. IMPLEMENTACIN MEDIANTE MATCHING PURSUITS

SI01
No. de frecuencias en media
117
80
80
60
40
20 0
SI03
60
40 20
0
6 RSR (%)
SM01
10
6 RSR (%)
SM03
10
80
80
No. de frecuencias en meia
60
40
20 0
60
40
20 0
6 RSR (%)
10
6 RSR (%)
10
Figura 5.3: Nmero de frecuencias necesarias para conseguir un valor jo de relacin residuo a seal RSR( %) para los mtodos C (crculos) y D (cuadrados). como algoritmo de clculo [Verma99] [Goodwin97]. Sin embargo, el inconveniente de este enfoque es el solapamiento producido por la ventana triangular, que es del 50 %. Este solapamiento incrementa el nmero de frecuencias por muestra y, como consecuencia, el rgimen binario en aplicaciones de codicacin. Como se ha dicho anteriormente, se propone el uso de ventanas rectangulares en anlisis, que eviten el solapamiento, y trapezoidales en sntesis, que eviten el efecto de bloque entre segmentos. La comparacin objetiva entre ambos mtodos de ventanas se representa en la gura 5.3. Ahora, se dibuja el nmero de frecuencias que hay que extraer para lograr un valor dado de relacin residuo a seal RSR( %) para los mtodos C y D. Se puede apreciar como l mtodo D propuesto consigue los mejores resultados. La explicacin de este resultado hay que buscarla en las ventanas de anlisis. Parece lgico que la ventana rectangular en anlisis consiga extraer ms energa de la seal que la ventana triangular, lo que se traduce en una menor relacin residuo a seal. Esto ocurre pese a que para el mtodo D se cambie la ventana de sntesis a ventana trapezoidal. Claramente, este hecho debe de incrementar la relacin RSR nal, puesto que en las fronteras entre segmentos no se est sintetizando con la misma ventana con la que se analiz la seal. Finalmente, se puede armar que el empleo de la ventana rectangular en anlisis compensa con creces el hecho de usar ventana trapezoidal en sntesis. Para comprobar la calidad subjetiva del mtodo propuesto, se propone cuanticar los parmetros tonales del bloque de anlisis, segn el esquema presentado en [Vera04b]. Para que la comparacin entre mtodos sea justa, se utilizar este mismo esquema de cuanticacin para todos los mtodos de modelado sinusoidal. El diagrama de bloques del sistema usado para comparar
118
trama de audio
Anlisis Sinusoidal
parmetros sinusoidales Modelo Perceptual eliminacin de tonos no audibles
Sntesis Sinusoidal
+ +
residuo
Cuantificacin
Sntesis Sinusoidal parmetros tonales cuantificados
tonos
Figura 5.4: Esquema experimental usado para comparar de forma subjetiva diferentes mtodos de implementacin del modelo tonal.
la calidad subjetiva de los diferentes mtodos aparece en la gura 5.4. Para medir la calidad subjetiva con este sistema, se comparar la seal original con la suma del residuo y la seal procedente del modelo tonal con parmetros cuanticados. Los test de calidad subjetiva se han realizado entre 10 personas del departamento siguiendo la recomendacin ITU-R BS.1116-1 [ITU-R97] para la evaluacin de pequeas desviaciones de calidad en seales de audio. Esta recomendacin proporciona un resultado en una escala de 0 a 5 (escala MOS), tras escuchar el sujeto evaluador 3 veces las seales de test, 2 veces el original y 1 la seal evaluada, con referencia ciega, es decir, sin informarle de cul es la seal original. En la gura 5.5 se comparan los resultados subjetivos de los cuatro mtodos considerados para el modelado sinusoidal, extrayendo 25 tonos por trama. Los valores subjetivos se han presentado en M OS , que es la variacin en calidad subjetiva entre el original y la suma de los tonos cuanticados y el residuo. Las mayores diferencias en calidad subjetiva aparecen con el uso de la interpolacin (mtodos A y B), puesto que este enfoque para la sntesis tonal no es capaz de seguir las variaciones rpidas de la seal de audio. Las variaciones entre mtodos de enventanado son inapreciables. Como conclusin, cabe decir que el uso de exponenciales complejas como elementos del diccionario del algoritmo matching pursuits permite una implementacin eciente basada en la FFT. Adems, el uso del enventanado permite usar la FFT en la sntesis del modelo tonal. Se ha demostrado que el uso de ventana rectangular en anlisis y trapezoidal en sntesis da lugar a los mejores resultados del modelo tonal y evita el solapamiento entre segmentos de anlisis. Este esquema de funcionamiento proporciona una herramienta rpida y eciente de implementar el modelo tonal, pero no tiene en cuenta en ningn momento principios psicoacsticos para extraer los tonos de la seal.
5.2.
Matching pursuits con guiado perceptual
Una modicacin deseable del mtodo MP es la seleccin en cada iteracin del tomo perceptualmente ms importante. En el caso del modelo sinusoidal, esta estrategia se puede basar en
5.2. MATCHING PURSUITS CON GUIADO PERCEPTUAL

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 si01 si03 sm01 sm03 mtodo A mtodo B mtodo C mtodo D
119
Figura 5.5: Resultados subjetivos en M OS comparando los mtodos evaluados de modelado sinusoidal. principios psicoacsticos, ya que estn bien estudiadas las propiedades del odo cuando la seal que lo excita es un tono estable [Zwicker90]. En todos los casos, el algoritmo matching pursuits escoge el tomo que tiene un peso asociado con mayor energa, por lo que se dice que est guiado por energa,
2 m ax ||i k ||
gk D
(5.14)
ya sea para el mtodo MP simple o extrayendo un subespacio conjugado, como ocurre con un diccionario de exponenciales complejas para implementar el modelo tonal. Se dene un algoritmo matching pursuits con guiado perceptual como aquel que escoge en cada iteracin el tomo ms importante psicoacsticamente, es decir, m ax ||i k ||perceptual (5.15)
gk D
Por lo tanto, es necesario denir una medida perceptual, a partir del valor del peso de cada tomo en el mtodo MP convencional (guiado por energa). En este sentido, han aparecido en la bibliografa varias propuestas, cada una de ellas con problemas asociados, que se comentarn a continuacin.
5.2.1.
Weighted Matching Pursuits
La primera propuesta de modicar el mtodo MP para incluir informacin psicoacstica aparece en [Verma99b], y se conoce con el nombre de Weighted Matching Pursuits (WMP). En i de la forma, este caso, la medida perceptual se reduce simplemente a modicar cada peso k ||i k ||W M P =
2 2 |i k | |G[k ]| T [k ]
(5.16)
donde G[k ] es transformada discreta de Fourier del tomo gk y T [k ] el umbral de enmascaramiento en la frecuencia k . Esta medida perceptual simplemente modica la energa por la relacin seal a mscara en la frecuencia de la exponencial compleja k . Uno de los inconvenientes
120
de este enfoque es que slo est pensado para su uso con exponenciales complejas, ya que slo evala la relacin seal a mscara en el valor de la frecuencia k . Como ventaja, est la rapidez en el clculo de la medida perceptual.
5.2.2.
Psychoacoustic-Adaptive Matching Pursuits
Una mejora con respecto a WMP se presenta en [Heusdens02] y es conocida como PsychoacousticAdaptive Matching Pursuits (PAMP). La mejora consiste en sustituir la relacin seal a mscara a la frecuencia del tono por el rea comprendida entre el tono y la mscara, puesto que el odo es un elemento que evala la seal en todas las frecuencias, no slo en la frecuencia del tono de entrada. De esta forma, la medida perceptual PAMP queda, ||i k ||P AM P =
1 0 2 2 |i k | |Gk (f )| df T (f )]
(5.17)
La ventaja de PAMP frente a WMP se pone de maniesto cuando la trama de anlisis de la seal es de longitud nita [Heusdens02]. En este caso, la transformada de cada exponencial compleja no es una simple delta en frecuencia, sino la transformada de la ventana utilizada. Por tanto, la importancia perceptual hay que calcularla, no solo a la frecuencia nominal k del tono, sino en toda la frecuencia. Esta ventaja se pone de maniesto en la gura 5.6, donde se representa la extraccin tonal de dos tonos de frecuencias 1 KHz y 1,1 KHz. En la primera grca de la gura 5.6 se observa el espectro del tono de 1 KHz y la mscara que genera el tono de 1,1 KHz, ya extrado. En la siguiente grca se representa la medida perceptual, segn WMP, en 2 || la primera iteracin (cuando ya ha sido extrada la frecuencia de 1,1 KHz), es decir, || k W MP . 2 Finalmente, en la ltima grca se presenta la medida perceptual para PAMP, || k ||P AM P . Se puede observar cmo para WMP el mximo de la medida perceptual no se produce en 1 KHz, debido a que la medida perceptual es funcin de la diferencia entre el espectro de potencia del tono de 1 KHz y la mscara generada por el tono de 1,1 KHz. En PAMP, en cambio, la medida perceptual es el rea entre un tono centrado en la frecuencia k y la mscara actual. Como se observa en la gura, la denicin PAMP de la medida perceptual permite seleccionar como tono ms importante perceptualmente al tono de 1 KHz, aunque se haya extrado anteriormente un tono cercano en frecuencia. Aunque este resultado demuestra el correcto funcionamiento de la seleccin PAMP de los tonos, esta manera de calcular la importancia perceptual de los tomos tambin tiene sus problemas asociados: Por un lado, en el diseo de la medida PAMP no se tiene en cuenta el tratamiento que realiza el odo cuando tiene que procesar una seal sonora. Un modelo simplicado del funcionamiento del odo aparece en la gura 5.7. En esta gura, basada en la modelizacin del procesado del odo como sistema lineal realizada en [Par02], se asume que la respuesta del odo externo y medio es simplemente un ltro lineal que tiene una forma similar al inverso del umbral de silencio. El odo interno, y concretamente la membrana basilar, realiza un ltrado paso banda con un banco de ltros en bandas crticas, es decir, un banco de ltros donde el ancho de banda de cada ltro crece con la frecuencia. Posteriormente, la excitacin de cada banda se compone para formar la sensacin auditiva. Como consecuencia de este tratamiento, las seales de baja frecuencia producen una sensacin auditiva ms
121
Figura 5.6: Ejemplo de funcionamiento de las medidas perceptuales WMP y PAMP para el caso de dos
tonos de 1KHz y 1, 1KHz [Heusdens02]. Se presenta primero el espectro de potencia de un tono de 1KHz junto con la mscara generada por el tono de 1, 1KHz , despus la medida perceptual WMP tras extraer el tono de 1, 1KHz y, por ltimo, la medida perceptual PAMP.
122

e e b n a n x c c d i t a a a d c a i n
r a R
s e e s x p t e u e r n s o t a y d m e e l d o d i o o e B n a b n a c n o d a d s e c f i l t r o r t i c s a s
e a u
n d
a i t i v
c a
m i n
p t e
s r n
i c a
r a
i l a
Figura 5.7: Modelo del odo como sistema lineal. fuerte, puesto que excitan un mayor nmero de bandas crticas que las seales de alta frecuencia. Este comportamiento logartmico en la frecuencia es obviado por la medida perceptual PAMP. Por otro lado, desde el punto de vista de la implementacin prctica, la medida PAMP tiene un alto coste computacional. Esto se debe a que para cada tomo o frecuencia k es necesario realizar un sumatorio de todos los valores de la relacin en frecuencia entre seal y la mscara actual, siendo este proceso mucho ms costoso que la simple operacin por frecuencia propuesta en la seleccin WMP. Adems, la obtencin de la mscara en frecuencia tiene un coste computacional adicional, puesto que normalmente los modelos psicoacsticos trabajan con la seal estimada en bandas crticas para calcular la mscara [MPEG92]. Por tanto, es necesario trabajar con la seal en bandas crticas para calcular el umbral de enmascaramiento en frecuencia logartmica y, posteriormente, trasladar los resultados de la mscara a frecuencia lineal.
5.2.3.
Perceptual Matching Pursuits
A la vista de estos problemas, una forma de mejorar los resultados de la medida perceptual PAMP es realizar la integracin en banda de Bark en lugar de en frecuencia [Vera06b]. De esta forma, se consigue tener en cuenta el procesado que se produce en el odo interno y, a la vez, reducir la complejidad computacional. La medida perceptual propuesta se ha llamado PMP Perceptual Matching Pursuits , y se calcula mediante la ecuacin (5.18), ||i k ||P M P =
B 0 2 2 |i k | |Gk (b)| db T (b)
(5.18)
donde b denota banda de Bark, B es la mxima banda de Bark de la seal de entrada (este valor depende de la frecuencia de muestreo de la seal), |Gk (b)|2 es el espectro de potencia del tomo gk en banda de Bark y T (b) es la mscara en banda de bark. Para vericar el correcto funcionamiento de la medida perceptual propuesta PMP, se realiza primero la prueba de los dos tonos para comprobar que realiza la seleccin correctamente y, tambin, para analizar las diferencias de resultados entre ambas estrategias. En la gura 5.8 se 2 representa en (a) los pesos ||2 k || , tras extraer el tono de 1,1 KHz. Como es lgico, el valor de el peso para la frecuencia de 1,1 KHz ha de ser cero para cumplir la ortogonalidad que se produce en MP entre el tomo extrado y el residuo de la siguiente iteracin. Se puede observar cmo
123
(a)
60 40 20 0
dB SPL
normalizado en dB
0.5
2.5 1.5 2 Frecuencia (KHz)
3.5
0
20
40
0
(b)
0.5
normalizado en dB
1.5 2 2.5 Frecuencia (KHz)
3.5
0
20
40
0
(c)
0.5
2 2.5 1.5 Frecuencia (KHz)
3.5
Figura 5.8: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso de dos
tonos de 1KHz y 1, 1KHz . (a) Peso de los tomos y mscara para la iteracin i = 2, (b) medida perceptual PAMP para la iteracin i = 2 y (c) medida perceptual PMP para la iteracin i = 2.
el mtodo MP extrae toda la correlacin de la seal con la frecuencia de 1,1 KHz, que para el ejemplo corresponde al tono inicial de 1,1 KHz, ms el valor que produce la frecuencia de 1 KHz en 1,1 KHz debido a la transformada de la ventana. En (b) se dibujan la medida perceptual que 2 || proporciona PAMP integrando en frecuencia, ||k P AM P , tras extraer el primer tono, mientras 2 || que en (c) se dibuja la medida perceptual de PMP integrando en banda de bark, || k P M P . En general, para ambas medidas se extraer correctamente el tono de 1 KHz. Se observa como en la medida PMP en banda de bark las bajas frecuencias tienen un mayor peso perceptual que las altas frecuencias en relacin a la medida en PAMP. La medida PMP, al estar denida en banda de Bark, simula mejor el comportamiento del odo, lo que debe redundar en un mejor funcionamiento, sobre todo, en relacin al ruido, como se ver ms adelante. Pero, adems, esta denicin disminuye considerablemente el nmero de operaciones para obtener la medida perceptual. As, para la medida PAMP, por cada exponencial compleja es necesario, segn la ecuacin (5.17), la suma de todos los valores en frecuencia resultantes de multiplicar el peso por la transformada al cuadrado y dividirlo entre la mscara. Es importante notar que la frecuencia debe ser muestreada en una implementacin prctica. Si se realiza la inversa de la mscara en frecuencia a priori, para cada exponencial compleja hay que realizar dos multiplicaciones por cada muestra en frecuencia y sumar todos estos valores. El problema viene determinado por el muestreo que hay que realizar en frecuencia para implementar la ecuacin (5.17). Como la resolucin en frecuencia del odo es logartmica, para tener una resolucin aceptable haciendo un muestreo uniforme en frecuencia, es necesario coger una separacin en frecuencia que da lugar a un gran nmero de muestras. As, el valor de Just Noticeable
124
(a)
dB SPL
60
40
20
0
normalizado en dB
6 4 Frecuencia (KHz)
10
0
20
40
0 2
(b)
normalizado en dB
10
0
20
40
0 2
(c)
10
Figura 5.9: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal
vocal sonora. (a) Espectro de energa de la seal de entrada, (b) medida perceptual PMP para la iteracin inicial y (c) medida perceptual PAMP para la iteracin inicial.
Dierence para distinguir dos frecuencias es de 0,2 Bark para 10 ms y 0,01 Bark para 500 ms [Zwicker90]. En la prctica estos valores son de 4096 muestras para un tamao de segmento de 45 ms y una frecuencia de muestreo de 44.100 KHz. Sin embargo, de acuerdo con la seleccin PMP, el muestreo segn la ecuacin (5.18) se realiza en banda de Bark. Como la resolucin se adapta ahora en la misma forma en que escucha el odo humano, el nmero de muestras se reduce considerablemente. Por ejemplo, para el modelo de enmascaramiento de MPEG [MPEG92], la resolucin empleada al realizar el muestreo es de 3 muestras por banda de Bark, lo que resulta en menos de 60 muestras para una frecuencia de muestreo de 44.100 KHz. Como consecuencia de todo esto, la complejidad de calcular la medida PMP es, en la prctica, bastante menor que para PAMP. Bsicamente, esto es debido al alto nmero de muestras que debe utilizar PAMP para implementar un muestreo lineal de la seal en frecuencia, que no est adaptado al comportamiento del odo humano. A continuacin, se comentan las diferencias entre los resultados obtenidos por ambos mtodos, sin entrar en la complejidad que conllevan, sino para analizar el comportamiento cuando la seal de entrada es una seal vocal sonora, as como para comprobar la capacidad de discriminacin frente al ruido de cada forma de calcular la medida perceptual. En primer lugar, se van a presentar los resultados de ambos mtodos cuando la seal a analizar es una seal vocal sonora masculina. En la gura 5.9, se representa en (a) el espectro de potencia de la seal vocal, en 1 || (b) la medida perceptual PMP (en banda de Bark) en la iteracin inicial, || k P M P , y en (c) la 1 medida perceptual PAMP (en frecuencia) en la iteracin inicial, ||k ||P AM P . La nica diferencia apreciable es que para PMP la importancia perceptual de las altas frecuencias se reduce, puesto que su energa se concentra en unas pocas bandas de Bark.
125
(a)
dB SPL
60
40 20
0
normalizado en dB
10
0
20
40
0
(b)
normalizado en dB
10
0
20
40
0
(c)
10
Figura 5.10: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una
seal vocal sonora ms ruido blanco. (a) Espectro de energa de la seal de entrada, (b) medida perceptual PMP para la iteracin inicial y (c) medida perceptual PAMP para la iteracin inicial.
El siguiente paso es comprobar la discriminacin frente al ruido de ambas medidas perceptuales. Para ello, se suma a la seal anterior la misma energa de ruido blanco (relacin seal a ruido de 0 dB) y se comprueban los valores de las medidas perceptuales correspondientes en la gura 5.10. En este caso, la cantidad de ruido hace indistinguibles los tonos del ruido en las frecuencias de 2 a 4 KHz para PMP y PAMP, aunque para PMP los valores perceptuales en esta banda son menores que para PAMP, en relacin a los tonos que se aprecian de 0 a 2 KHz. Adems, las altas frecuencias tienen valores perceptuales menores para PMP. En particular, se aprecia una mayor cada de la medida perceptual con la frecuencia. En las diferentes estrategias de clculo de una medida perceptual aparece el umbral de enmascaramiento como parte integrante de la denicin. Sin embargo, de momento, no se ha comentado nada acerca de cmo calcular este umbral. Como primera aproximacin, se podra pensar en utilizar el clsico umbral de enmascaramiento de ruido que utilizan los codicadores por transformada. Es umbral informa de cunto ruido de cuanticacin es posible inyectar en cada frecuencia o banda del codicador. Sin embargo, para la aplicacin que nos ocupa este umbral no es el idneo, puesto que se trata de determinar los tonos perceptualmente ms importantes. La solucin utilizada en la bibliografa para calcular las distintas medidas perceptuales consiste en utilizar el umbral de silencio como punto de partida, es decir, el umbral de silencio es el umbral que se utiliza en la iteracin inicial del mtodo matching pursuits [Heusdens02]. El umbral para las siguientes iteraciones se actualiza a partir de la mscara que genera el tono extrado en cada iteracin, k(i) gk(i) . As pues, esta denicin del umbral de enmascaramiento para medidas perceptuales queda de la forma,
126
T i (b) =
Tquiet (b) T i1 (b) + Tk(i) gk(i)
i=0 i>0
(5.19)
donde Tquiet (b) es el umbral de silencio, Tk(i) gk(i) es la mscara debida al tono extrado en la iteracin i y b denota banda de Bark. Es preciso tener en cuenta que ahora el umbral de enmascaramiento se escribe T i (b), puesto que depende de la iteracin en que se encuentre el mtodo matching pursuits. Se ha escrito el umbral en banda de bark, puesto que es la forma general de calcularlo, aunque para WMP y PAMP sea preciso posteriormente cambiarlo a frecuencia lineal. Se ha utilizado la suma para la composicin de umbrales, por ser la forma ms fcil de realizar la notacin, aunque existen otras opciones ms conservadoras de calcular esta composicin [Zwicker90]. Este clculo de la mscara es el que se ha utilizado en todas las guras presentadas hasta ahora en este captulo. Por eso, en la gura 5.6, el umbral, una vez extrado el primer tono, incluye el tringulo centrado en la frecuencia 1,1 KHz, que representa la mscara de este tono. El umbral de silencio es mucho mayor para esta gura en las frecuencias cercanas a cero. Para la gura 5.6, el umbral se calcula directamente en frecuencia, mientras que para la gura 5.8 ya se calcula en banda de Bark, por lo que al dibujar la mscara en un eje de frecuencias, queda una seal escalonada con tamaos de escaln mayores para alta frecuencia. Con esta denicin del umbral la ecuacin que dene la medida PMP se puede escribir como, ||i k ||P M P =
B 0 2 2 |i k | |Gk (b)| db T i1 (b)
(5.20)
Anlogamente, la misma modicacin para el umbral habra que realizarla en las ecuaciones (5.16) y (5.17). La inicializacin de la mscara al umbral de silencio no proporciona, sin embargo, una caracterstica deseable para la extraccin tonal, que es una parada psicoacstica. Esto quiere decir que el mtodo MP debe detenerse cuando se hayan extrado todos los tonos audibles. Para saber cundo parar el algoritmo, segn [Zwicker90], un tono puede ser enmascarado por el umbral de silencio, otro tono con mayor intensidad sonora o por ruido. Si se inicializa al umbral de silencio, no se extraern los tonos enmascarados por este umbral, y con el paso de las iteraciones los tonos extrados enmascararn a otros tonos de la seal, pero los tonos enmascarados por ruido se extraern como tonos audibles. La solucin a este inconveniente consiste en inicializar la mscara al umbral de silencio ms el umbral de ruido sobre tonos, NMT (Noise-is-Masking-Tone ). En general, en la mayora de los modelos perceptuales, para discriminar entre la parte tonal (o predecible) de la seal y la parte ruidosa (o impredecible) se utiliza un ndice de tonalidad [Brandenburg90]. Este ndice de tonalidad se usa por un lado para generar la mscara producida por los tonos, y por otro, para obtener la mscara producida por el ruido. Para calcular correctamente una mscara de ruido sobre tonos, NMT, se aplica el ndice de tonalidad del modelo de enmascaramiento, para posteriormente generar slo la mscara de ruido sobre tonos, no incluyendo la mscara de tonos sobre tonos. Por lo tanto, la inicializacin de la mscara a utilizar propuesta queda expresada de la forma, T i (b) = Tquiet (b) + TN M T (b) i = 0 T i1 (b) + Tk(i) gk(i) i > 0 (5.21)
127
(a)
dB SPL
60 40
20
0
normalizado en dB
10
0
20 40
0
(b)
normalizado en dB
10
0
20 40
0
(c)
10
Figura 5.11: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal vocal sonora con mscara inicial que incluye el umbral NMT. (a) Espectro de energa de la seal de entrada, (b) medida perceptual PMP para la iteracin inicial y (c) medida perceptual PAMP para la iteracin inicial. En primer lugar, se incluyen de nuevo las guras correspondientes a las medidas perceptuales PMP y PAMP para voz sonora y para voz sonora ms ruido, con el objetivo de comprobar las variaciones que se producen en las medidas perceptuales al incluir el umbral NMT. En todas las guras se calcula el umbral NMT, realizando las modicaciones explicadas anteriormente al modelo de enmascaramiento propuesto por MPEG [MPEG92]. En la gura 5.11 se aprecia el resultado de aplicar la mscara NMT en la inicializacin. La nica diferencia con respecto a los resultados de la gura 5.9 es la disminucin de la importancia perceptual de los tonos a partir de 7 KHz. Esta disminucin se debe a que en esta zona de frecuencia el valor del umbral NMT tiene relativa importancia respecto al umbral de silencio. Esto ocurre porque el ndice de tonalidad ha estimado una seal ruidosa en estas frecuencias. Estos resultados se ven con mayor nfasis cuando se aade ruido blanco a la seal. As, en la gura 5.12, donde se incluye la mscara NMT con respecto a lo presentado en la gura 5.10, la importancia perceptual baja en ciertas bandas que es donde el ndice de tonalidad estima que predomina el ruido sobre los tonos. Sin embargo, el ndice de tonalidad no estima ruido en bandas de alta frecuencia donde s lo hay. En general, puede armarse que s permite una mejor discriminacin de la seal con respecto al ruido para las medidas perceptuales PMP y PAMP. Sera interesante, a la vista de los resultados, estimar la mscara inicial mediante modelos de enmascaramiento que no utilizan un ndice de tonalidad, como para el modelo propuesto en [Par02]. En un modelo de este tipo, debera obtener una mejor discriminacin entre tonos y ruido. La ventaja fundamental de incluir en la mscara el umbral NMT es la posibilidad de imple-
128
(a)
dB SPL
60
40 20
0
normalizado en dB
10
0
20
40
0
(b)
normalizado en dB
10
0
20
40
0
(c)
10
Figura 5.12: Ejemplo de funcionamiento de las medidas perceptuales PAMP y PMP para el caso una seal
vocal sonora ms ruido blanco con mscara inicial que incluye el umbral NMT. (a) Espectro de energa de la seal de entrada, (b) medida perceptual PMP para la iteracin inicial y (c) medida perceptual PAMP para la iteracin inicial.
mentar una parada psicoacstica. Aunque en algunas aplicaciones no es posible tener un rgimen binario que permita extraer todos los tonos perceptualmente signicativos, esta posibilidad es interesante si se desea conocer el nmero mximo de tonos a extraer para conseguir la mxima calidad posible en un codicador paramtrico. La parada perceptual del mtodo matching pursuits guiado perceptualmente se debe producir cuando se extraen todos los tonos que estn por encima de la mscara. En general, esta parada se produce en la iteracin en la que todos los tonos estn por debajo de la mscara, es decir, cuando se cumple,
2 2 i1 |i (b), k | |Gk (b)| T
b = [0, B ] gk D
(5.22)
Cuando esta condicin es cierta, los tonos que quedan en el residuo no son audibles y se detiene el mtodo MP. Para comprobar la viabilidad de la parada perceptual, se probar con una seal vocal sonora para las medidas perceptuales PMP y PAMP. Para PMP, en la gura 5.13, se dibuja en (a) el espectro de energa de la seal en la primera columna y la medida perceptual en banda de 1 || bark para la primera iteracin ||k P M P en la segunda columna. En (b) se presentan los mismos resultados correspondientes a la iteracin i = 2, donde se ha aadido adems marcado con un crculo el tono extrado. Es curioso observar las variaciones que se producen tanto en energa como en medida perceptual. En energa, al utilizar matching pursuits, desaparece del residuo todo el lbulo del tono extrado, siendo sustituida esta informacin por los parmetros de amplitud, frecuencia y fase del tono. En medida perceptual los cambios son mucho mayores. Al sumarse a la mscara actual la mscara debida al tono extrado, todos los valores en frecuencia inmediatamente

normalizado en dB
129
dB SPL
60
40
20
0
0
20 40
60
0 2
(a)
10
normalizado en dB
10
dB SPL
60 40
20
0 2
0
20 40
60
0 2
(b)
10
normalizado en dB
10
dB SPL
60 40
20
0 2
0
20 40
60
0 2
(c)
10
10
dB SPL
dB SPL
60 40
20
0 2
70
60 50
40
(d)
10
10
Figura 5.13: Ejemplo de funcionamiento de la parada perceptual con la medida PMP para el caso una
seal vocal sonora. (a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual inicial (segunda columna), (b) espectro de energa del residuo (se incluyen los parmetros del tono extrado usando una recta terminada en crculo) y medida perceptual PMP para la iteracin i = 2, (c) iteracin i = 11 y (d) residuo nal y tonos extrados aplicando la parada perceptual .
posteriores sufren una importante bajada en medida perceptual. Esto se debe a que la mscara de un tono tiene forma triangular en frecuencia, pero con una cada mucho ms suave para las frecuencias mayores que la del tono extrado. En la grca no se han dibujado aquellos tonos que estn por debajo de la mscara, segn la condicin de la ecuacin (5.22). Los tonos que no tienen dibujada medida perceptual se corresponden con esta situacin. En (c) se presentan los mismos resultados para la iteracin i = 11. Se puede apreciar cmo se reduce el nmero de tonos por encima de la mscara conforme se extraen tonos, debido a las mscaras generadas por los tonos ya extrados. Se observa, adems, cmo los tonos de alta frecuencia (entre 8 y 9 KHz en la grca) no resultan enmascarados por los tonos de baja frecuencia extrados. Finalmente, en (d) se representa el residuo nal de la iteracin i = 47 (en la primera columna), que es cuando todos los tonos estn por debajo de la mscara; en la segunda columna se representan todos los tonos extrados, donde se aprecia que se han extrado tambin los tonos de alta frecuencia. La parada perceptual tambin funciona para el caso de la medida perceptual en frecuencia PAMP. Los resultados con este enfoque se han representado en la gura 5.14. Aunque se extrae
130

normalizado en dB
dB SPL
60
40
20
0
0 20
40
60
0
(a)
10
normalizado en dB
10
dB SPL
60
40
20
0
0 20
40
60
0
(b)
10
normalizado en dB
10
dB SPL
60
40
20
0
0 20
40
60
0
(c)
10
10
dB SPL
dB SPL
60
40
20
0
70 60
50
40
2 4 6 Frecuencia (KHz)
(d)
10
10
Figura 5.14: Ejemplo de funcionamiento de la parada perceptual con la medida PAMP para el caso una
seal vocal sonora. (a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual inicial (segunda columna), (b) espectro de energa del residuo (se incluyen los parmetros del tono extrado usando una recta terminada en crculo) y medida perceptual PAMP para la iteracin i = 2, (c) iteracin i = 11 y (d) residuo nal y tonos extrados aplicando la parada perceptual .
primero el mismo tono, es signicativo que los caminos de ambas medidas son diferentes, no extrayndose los tonos en el mismo orden. Incluso en la iteracin nal, que en este caso se produce en la iteracin i = 49, se observa que los tonos extrados no han sido exactamente los mismos, si bien esto ocurre para tonos de baja energa muy cercanos en frecuencia a otros tonos de mayor energa. Una diferencia importante est en las altas frecuencias, se aprecia como para PAMP se extrae algn tono ms de alta frecuencia. Una vez analizado el comportamiento de las medidas perceptuales en las sucesivas iteraciones, es el momento de comprobar cmo afecta el ruido blanco a PMP y PAMP. Con este n, se incluye la gura 5.15, donde se dibuja el residuo y la medida perceptual en frecuencia para la iteracin (a) inicial, (b) i = 2, y (c) i = 5. Se observa cmo tras extraer el primer tono la importancia perceptual de las frecuencias en torno a 2 KHz cae bruscamente. Para las frecuencias de 5 a 6 KHz la medida perceptual ya tena un valor bajo debido al ndice de tonalidad. Sin embargo, la zona entre 6 y 9 KHz tiene una importancia perceptual relativamente alta, por lo que en la quinta iteracin ya se ha extrado un supuesto tono de alta frecuencia debido al ruido que se ha

normalizado en dB
131
10 0
10
20 30
60
(a)
dB SPL
40
20
0
10
10
normalizado en dB
10 0
10
20 30
60
(b)
dB SPL
40 20
0
10
10
normalizado en dB
70
60
dB SPL
10 0
10
20 30
0
(c)
50
40
30 20
2
10
10
Figura 5.15: Ejemplo de funcionamiento de la medida PAMP para el caso una seal vocal sonora ms
ruido. (a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual inicial (segunda columna), (b) espectro de energa del residuo (se indican los parmetros del tono extrado usando una recta terminada en crculo) y medida perceptual PMP para la iteracin i = 2, (c) iteracin i = 5.
sumado a la seal. Este tono se extrae antes que varios de los tonos de 0 a 2 KHz, que an se distinguen en la seal con ruido. Para tratar el caso de PMP en una seal vocal con ruido, se ha incluido la gura 5.16. En este caso, se ha dibujado la misma seal en las mismas iteraciones, siendo, el resultado diferente. Ya en la medida perceptual inicial, los valores de importancia perceptual de 6 a 9 KHz son signicativamente menores que en el caso anterior. El cambio de la medida perceptual de frecuencia (PAMP) a banda de Bark (PMP) permite la extraccin de tonos de baja frecuencia en las primeras cuatro iteraciones. Incluso despus, como se aprecia en la gura 5.16 (c), se va a extraer otro tono de baja frecuencia, lo que se puede armar al localizar el mximo de la medida perceptual. En las siguientes iteraciones, ser inevitable la extraccin de algn tono en la zona de ruido, aunque esto se producir ms tarde que en el caso de PAMP, y cuando ya se han extrado casi todos los tonos de baja frecuencia. Como conclusin, cabe decir que, en general, el clculo de la medida perceptual en banda de bark (PMP) proporciona una medida ms adecuada para discriminar tonos de ruido, puesto que en las seales de audio los tonos ms importantes se encuentran en la media y baja frecuencia.
132
normalizado en dB
10
0
10
20 30
60
(a)
dB SPL
40
20
0 2
10
10
normalizado en dB
10
0
10
20 30
60
(b)
dB SPL
40 20
0
10
10
normalizado en dB
70 60
dB SPL
10
0
10
20 30
0
50
40
30 20
2
(c)
10
10
Figura 5.16: Ejemplo de funcionamiento de la medida PMP para el caso una seal vocal sonora ms ruido.
(a) Espectro de energa de la seal de entrada (primera columna) y medida perceptual inicial (segunda columna), (b) espectro de energa del residuo (se indican los parmetros del tono extrado usando una recta terminada en crculo) y medida perceptual PMP para la iteracin i = 2, (c) iteracin i = 5.
133
Tabla 5.2: Preferencia en ( %) de PMP (banda de Bark) sobre PAMP (frecuencia) cuando se aplica un modelo tonal con 25 tonos por segmento. Seal Suzanne Vega German male speech English female speech Harpsichord Castanets Pitch pipe Bagpipes Glockenspiel Plucked strings Trumpet solo Orchestra piece Contemporary pop Preferencia ( %) 70 100 90 100 60 70 70 60 100 70 90 100
Para vericar la propuesta de medida perceptual en banda de bark (PMP), se ha realizado un experimento prctico para comparar la calidad subjetiva del modelo tonal implementado con las dos opciones analizadas: en frecuencia y en banda de Bark. La calidad perceptual evaluada de forma subjetiva para ambas deniciones de medida perceptual se compara en la tabla 5.2. Para obtener esta tabla, cada segmento de la seal de entrada se modela mediante los 25 primeros tonos extrados con ambos enfoques. Se han elegido para realizar el experimento algunas de las seales de prueba recomendadas por el grupo MPEG [MPEG01] con calidad CD mono. Para esta prueba, se ha implementado un modelo tonal usando segmentos de 23-ms y ventanas de Hamming en anlisis con un solapamiento entre tramas del 50 %. Se han realizado unos tests de audicin usando la metodologa del triple estmulo con referencia ciega, en la que tres seales O, A y B se han presentado a diez personas con experiencia en la evaluacin de la calidad de seales de audio. La seal inicial, O, es siempre el original, mientras que las seales A y B son las seales resultantes del modelo tonal bajo PMP y PAMP, respectivamente. Se presentan al evaluador tres veces cada seal consecutivamente, aunque el orden de A o B es aleatorio. Se pregunta al oyente qu seal (A o B) es ms parecida al original. Los resultados en media de todos los oyentes al modelar 25 tonos con cada mtodo se presentan en la tabla 5.2. Como se observa, la ventaja de la medida perceptual en banda de Bark (PMP) es prcticamente generalizada sobre la medida en frecuencia (PAMP). La causa hay que buscarla en los tonos de alta frecuencia que se extraen en el caso de PAMP, los cuales producen pitidos de alta frecuencia molestos para el oyente. Sin embargo, para el caso de PMP, al ser ms robusto frente a estos errores se genera una seal de mayor calidad. En base a estos resultados, se utilizar como herramienta para implementar el modelo tonal el mtodo matching pursuits guiado perceptualmente mediante una medida psicoacstica denida en banda de Bark (o Perceptual Matching Pursuits ).
134
5.3.
Estrategias de cuanticacin
El modelo sinusoidal ha sido la primera herramienta de anlisis paramtrico que se ha introducido en la codicacin de audio [George92] [Goodwin98]. Debido a esta temprana adopcin del modelo tonal, en la literatura aparecen una serie de esquemas que permiten cuanticar los parmetros del modelo teniendo en cuenta criterios psicoacsticos. La mayora de estas formas de cuanticacin hacen uso de la redundancia en los parmetros del modelo entre tramas adyacentes. Como el modelo tonal extrae la parte estacionaria de la seal de audio, la redundancia entre tramas es enorme y, aplicando este principio, es posible cuanticar los parmetros con un bajo rgimen binario. En la mayora de las aplicaciones del modelo tonal para codicacin de audio, la forma de aprovechar esta redundancia es la codicacin diferencial inter-trama de los parmetros tonales con una interpolacin en sntesis de estos parmetros [Ali95] [Levine98] [Verma99] [Myburg01]. El modelado tonal, implementado de esta forma, realiza el anlisis con el objetivo de crear una serie de caminos tonales o trayectorias que indican la duracin de un tono en la seal. La trayectoria de un tono se mantiene de una trama a la siguiente si su frecuencia y amplitud no dieren demasiado de los valores estimados en la trama anterior. Cuando los parmetros de un tono no es posible relacionarlos con los de otro de la trama anterior se crea una nueva trayectoria, aunque este caso es minoritario en las seales de audio. Con esta premisa, es posible implementar una codicacin diferencial de los parmetros del modelo tonal: amplitud, fase y frecuencia de cada tono en cada trama. Sin embargo, al aplicar una codicacin diferencial entre tramas, aparecen una serie de problemas que es preciso evitar, si se quiere que el codicador funcione en una aplicacin de streaming por Internet: Al relacionar la informacin de una trama con la de tramas anteriores, la prdida de una trama en la transmisin provoca un fuerte impacto en la calidad de la seal decodicada, ya que este error se puede propagar a un gran nmero de tramas. As pues, la codicacin inter-trama hace al codicador muy sensible frente a los errores en transmisin. Si se quiere potenciar la editabilidad, es decir, la posibilidad de comenzar la decodicacin en cualquier momento, es preciso evitar en la manera de lo posible la codicacin intertrama, al depender los datos de una trama de los de tramas anteriores, que para esta aplicacin en concreto no se conocen. Adems, cuando se utiliza como herramienta de anlisis el mtodo matching pursuits, se ha demostrado que es mejor evitar la interpolacin entre parmetros, necesaria por otra parte para aplicar la codicacin diferencial inter-trama. Si bien es posible mejorar la resistencia a errores y la editabilidad, marcando un tiempo mximo para la codicacin diferencial y codicando de forma absoluta la informacin cada cierto nmero de tramas, en esta tesis se va a evitar este tipo de codicacin. La idea es buscar nuevas soluciones para la codicacin, de forma que slo se utilice en la codicacin informacin intra-trama, lo que viene a signicar hacer uso de la redundancia que aparece entre los parmetros del modelo tonal en la trama actual. Se va a tratar por separado la codicacin de diferentes tipos de parmetros del modelo tonal.
5.3. ESTRATEGIAS DE CUANTIFICACIN
135
5.3.1.
Cuanticacin de la frecuencia
El odo humano es muy sensible a la variacin de la frecuencia de un tono, por lo que la frecuencia, vista como parmetro del modelo tonal, requiere un gran gasto en rgimen binario para su codicacin. Para cuanticar la frecuencia sin que el odo distinga la diferencia, hay que tener en cuenta la sensibilidad del odo medida como JND (Just Noticeable Dierence ) [Zwicker90]. Para el caso de la frecuencia de un tono, el valor de JND en frecuencia depende de la duracin del mismo: 0, 2 Bark para 10 ms y 0, 01 Bark para 500 ms [Zwicker90]. Como se observa, la sensibilidad del odo depende de la escala en banda de Bark, la cual es una escala de carcter logartmico. Por lo tanto, es necesario cuanticar de manera ms na las bajas frecuencias, mientras que se puede relajar la cuanticacin de las altas frecuencias. Hay que tener en cuenta que las frecuencias extradas por el mtodo MP deben tener carcter lineal, ya que de esta forma se hace uso del algoritmo FFT para su implementacin eciente. As pues, en la cuanticacin de las frecuencias es necesario pasar de una distribucin lineal de las frecuencias a una distribucin logartmica. Una forma de realizar este cometido es la estrategia de cuanticacin de frecuencias adoptada en [Ali95]. El autor propone dividir las frecuencias lineales en cuatro grupos. As, suponiendo una frecuencia de muestreo de la seal de audio analgica igual a 44,1 KHz, este esquema propone dividir el eje de frecuencias en: Grupo 1: de 0 a 2,75 KHz. Grupo 2: de 2,75 KHz a 5,5 KHz. Grupo 3: de 5,5 KHz a 11 KHz. Grupo 4: de 11 KHz a 22 KHz. De esta forma, se utiliza el doble del nmero de escalones de cuanticacin en el primer grupo que en el resto. En concreto, en [Ali95], se utilizan 256 escalones de cuanticacin para el primer grupo y 128 para el resto. Como resultado, se tiene una separacin en frecuencia de 11 Hz para el grupo 1 (bajas frecuencias) que corresponde a 0, 107 Bark. Notar que es preciso indicar al decodicador el grupo al que corresponde la frecuencia actual (2 bits) y el escaln de cuanticacin dentro del grupo (8 bits para grupo 1 y 7 bits para el resto de grupos). Es posible incrementar la sensibilidad del esquema simplemente incrementando el nmero de escalones de cuanticacin para cada grupo. En principio, al no ser posible conocer la duracin de cada tono en codicacin, es necesario tomar un valor de compromiso. En lo relativo a la redundancia de informacin intra-trama, la nica herramienta que es posible utilizar es la deteccin de frecuencias que estn armnicamente relacionadas. Si en la trama actual hay un conjunto armnico, es posible sustituir la cuanticacin de forma individual de todas estas frecuencias por la transmisin de la frecuencia del tono fundamental y el nmero de frecuencias armnicas implicadas [Myburg04]. Sin embargo, este enfoque es de difcil aplicacin, debido al efecto conocido como inharmonicity (o relacin no entera de las frecuencias de un complejo armnico) y a la posibilidad en la prctica de que exista ms de un complejo armnico simultneamente. En esta tesis no se ha tenido en cuenta, por lo tanto, esta redundancia, aunque es una posibilidad abierta a la hora de reducir la cantidad de informacin correspondiente a las frecuencias con carcter intra-trama.
136
5.3.2.
Cuanticacin de la fase
Aunque el odo no es sensible a la fase para un tono simple o un par de tonos, es capaz de distinguir las diferencias de fase para tres o ms tonos presentes en la seal de audio [Zwicker90]. Esta armacin, derivada de estudios psicoacsticos, implica que la fase debe ser cuanticada con precisin. As, en [Ali95], se utiliza un cuanticador uniforme de 6 bits para la cuanticacin de la fase. Cuando se utiliza un enfoque de codicacin inter-trama, se han desarrollado estrategias de cuanticacin de las fases que consiguen reducir de manera notable la cantidad de recursos binarios dedicados a este parmetro del modelo tonal. Por ejemplo, en [Levine98b], no se enva la fase, salvo cuando un segmento de audio es etiquetado como transitorio. Si esto no es as, se aplica una reconstruccin sin envo de la fase en el modelo tonal, usando un algoritmo que evita discontinuidades de fase basado en la interpolacin cbica de la misma. Sin embargo, la calidad de audio conseguida dista mucho de ser transparente, armando algunos autores [Ali95] [Jensen02] que es necesario enviar la fase para conseguir alta calidad. En esta tesis se ha utilizado la codicacin uniforme de todas las fases como mtodo de cuanticacin. Este enfoque se ha tomado ante la imposibilidad de utilizar informacin psicoacstica relativa a la fase. Sin embargo, una lnea de futuro se abre ante la posibilidad de discriminar qu tonos de los perceptualmente importantes son sensibles a la variacin de la fase y cules no. Parece lgico pensar que estos tonos sern aquellos con mayor importancia perceptual, los cuales pueden ser discriminados gracias al guiado perceptual del mtodo MP. Un mayor estudio se necesita realizar en esta tarea.
5.3.3.
Cuanticacin de la amplitud
Una vez tratados los problemas relacionados con la cuanticacin de frecuencia y fase como parmetros del modelo tonal, se pasa a considerar la amplitud de los tonos. En este caso, se cuenta con una ventaja, que es la posible utilizacin de informacin perceptual para la cuanticacin de estos valores. Como es lgico, la cuanticacin de las amplitudes es un tema ya abordado en la bibliografa, aunque el enfoque comnmente adoptado se basa en la codicacin diferencial inter-trama. Si se desea utilizar la informacin perceptual derivada de un modelo de enmascaramiento, lo primero a realizar es calcular la mscara de tonos de la trama actual y eliminar los tonos no audibles (por debajo de la mscara). En general, la amplitud de cada tono debera ser cuanticada de forma que el error de cuanticacin est lo ms cercano posible, pero siendo menor, que el umbral de enmascaramiento estimado. Con esta premisa, se conseguir asegurar que la seal codicada sea perceptualmente idntica a la original, sacando as mximo provecho del fenmeno de enmascaramiento simultneo del sistema auditivo humano. El inconveniente de este enfoque reside en que resulta un nmero variable de bits por cada amplitud tonal, lo que conlleva informar al decodicador del nmero de bits asignados a cada amplitud. Adems, el decodicador necesitar el valor mximo y mnimo de cada cuanticador. Al nal, este enfoque de codicacin intra-trama (aprovechando la mscara simultnea generada por la seal de audio en la trama actual) ha sido descartado en la literatura por la gran cantidad de informacin lateral que es preciso enviar al decodicador. As, para evitar el envo de informacin lateral, la estrategia de cuanticacin establecida
137
para la codicacin de amplitudes, en aquellos codicadores de audio que incluyen un modelado sinusoidal [Ali95] [Levine98] [Brinker02], utiliza un escaln jo de cuanticacin para todos los tonos. Si este escaln de cuanticacin se elige para lograr la transparencia perceptual del tono ms crtico (el que necesita ms bits), el rgimen binario resultante ser muy elevado. Como consecuencia, en la mayora de las situaciones se emplea un escaln de cuanticacin bastante grande, provocando que la calidad de la seal codicada no sea transparente en absoluto. Por ejemplo, en [Ali95], se utilizan 10 bits para la codicacin de las amplitudes de las nuevas frecuencias (aquellas que comienzan un camino tonal), lo que asegura, segn el autor, que slo el 2 % de los tonos no consiguen una codicacin transparente. Para las frecuencias que continan un camino tonal desde la trama anterior se utiliza cuanticacin diferencial y, tambin, se necesitan 10 bits para el mismo requisito de codicacin transparente. En esta tesis, el estudio de cuanticacin de las amplitudes se ha centrado en el anlisis de la informacin intra-trama, por lo que se utiliza el umbral de enmascaramiento simultneo. La idea se basa en la utilizacin de una adaptacin hacia atrs [Rodrigues00], de forma que codicador y decodicador trabajen en los mismos valores, y se evite el envo de informacin lateral, a pesar de usar un tamao de escaln de cuanticacin variable para cada amplitud. El algoritmo que se propone [Vera04b] reduce drsticamente el envo de informacin lateral, a costa de incrementar un poco la complejidad del decodicador. El precio a pagar es el clculo de unos sencillos umbrales de enmascaramiento para la cuanticacin de las amplitudes, tanto en el codicador como en el decodicador, que aseguren la codicacin trasparente con un bajo consumo de recursos binarios. Para que la estrategia de cuanticacin de las amplitudes funcione, sta debe permitir el clculo, tanto en codicacin como en decodicacin, del nmero de bits por amplitud bajo un criterio de transparencia perceptual, as como la obtencin de los valores mximo y mnimo de cada cuanticador. Sin embargo, un requisito a priori es el clculo en decodicacin del umbral de enmascaramiento. Seguidamente, se explica qu umbral de enmascaramiento es posible calcular en el decodicador. A partir de ahora, el ndice i representar el i-simo tono para cuanticar. El umbral de enmascaramiento individual que genera el tono i-simo (una vez enviado) en la banda de bark b sobre el resto de tonos, se puede calcular a partir de la expresin (5.23), propuesta en [Ali95], Ai 14,5 b 31(bi b), Ai 14,5 b, Ti (b)(dB SPL) = A 14,5 b 22 + min i b < bi b = bi 230 fi , 10 0,2Ai (bi b), b > bi
(5.23)
donde bi , Ai y fi representan el ndice en banda de Bark, la amplitud (expresada en dB SPL) y la frecuencia (expresada en Hz) correspondientes al i-simo tono audible, respectivamente. Por lo tanto, para calcular este umbral se debe suponer que ya se han enviado las frecuencias de cada tono. Como el objetivo es no enviar informacin lateral, el umbral de enmascaramiento individual se debe obtener tanto en el codicador como en el decodicador, a partir de amplitudes cuanticadas [Rodrigues00]. Una forma de implementar esta limitacin, utilizando un umbral de enmascaramiento conservador, viene dada por la expresin (5.24), modicada a partir de la anterior,
138
b < bi b = bi 230 fqi , 10 0,2Qi (bi b), b > bi (5.24) donde Qi , i y fqi representan la amplitud cuanticada (en dB SPL), el tamao del escaln de cuanticacin (en dB) y la frecuencia cuanticada (en Hz) correspondientes al i-simo tono audible, respectivamente. El umbral de enmascaramiento compuesto para cuanticacin de las amplitudes C i , una vez se ha enviado el tono i-simo, se compone a partir del umbral compuesto anterior, C i1 , y del umbral del tono actual, Ti , de la forma, Ci (b)(dB SPL) = max Tqi (b), Ci1 (b) (5.25)
Qi Qi Tqi (b)(dB SPL) = Qi
i 2 i 2 i 2
14,5 b 31(bi b), 14,5 b, 14,5 b 22 + min
El problema de inicializar el umbral de enmascaramiento compuesto C0 depende de la informacin que tenga el decodicador. En principio, el nico umbral que es posible inicializar en el decodicador es el umbral de silencio. Sin embargo, en el caso de un codicador completamente paramtrico, si el decodicador tiene la informacin de la potencia de ruido (por bandas en la trama actual), puede generar el umbral NMT y aadirlo al umbral de silencio. Por simplicidad, se supondr que el umbral C0 se inicializa al umbral de silencio. Como se puede deducir de (5.25), en el umbral de enmascaramiento compuesto se incluye la interaccin entre los umbrales individuales de los tonos en las sucesivas iteraciones. En [Zwicker90], el umbral de enmascaramiento compuesto se estima usando el operador suma sobre los valores lineales (no en dB SPL). Aunque el umbral as calculado da lugar a valores menos conservadores que los obtenidos con el mximo en la ecuacin (5.25), el uso del mximo se justica por la reduccin de la complejidad conseguida, al evitar la conversin de valores dB SPL a unidades lineales. Como contrapartida, se obtiene una menor eciencia de codicacin. Como se puede observar, los umbrales de enmascaramiento se calculan en la escala de banda de Bark. Una vez explicado cmo se obtienen los umbrales en codicador y decodicador, es necesario determinar los valores de conguracin del cuanticador para cada amplitud. Estos valores de conguracin se tienen que conocer antes de cuanticar sin enviar informacin lateral. Los valores de conguracin para el cuanticador del tono i-simo son el rango dinmico de la amplitud (v mini y vmaxi ), y la mnima relacin seal a ruido (SNR) necesaria para lograr codicacin trasparente, que se denotar como Ri a partir de ahora. Estos valores, que variarn de un tono a otro, se deben calcular teniendo en cuenta el umbral de enmascaramiento compuesto. El proceso que se sigue en el algoritmo propuesto para el clculo de los valores de conguracin de cada cuanticador se explica a continuacin. En un codicador perceptual de audio, la SNR necesaria Ri para cuanticar el tono i-simo, de forma que el error de cuanticacin no sea audible, se debe obtener como la diferencia entre la amplitud del tono A i y el umbral de enmascaramiento compuesto evaluado en la banda de Bark bi del tono actual. Bajo este enfoque, en este esquema de cuanticacin, la SNR requerida Ri se debera calcular como Ai Ci (bi ). Sin embargo, esta aproximacin no se puede utilizar porque el decodicador desconoce la amplitud del
139
tono actual Ai . Para resolver este inconveniente, se propone el uso del umbral de enmascaramiento individual que aparece en la ecuacin (5.23), en vez de usar el umbral de enmascaramiento compuesto. Con esta solucin, la SNR Ri se calcula como, Ri (dB) = Ai Ti (bi ) = 14,5 + bi (5.26)
Como se observa en la ecuacin, al depender el umbral de enmascaramiento individual de la amplitud del tono Ai , la SNR Ri slo depende de la banda de bark bi del tono i-simo. Con esta eleccin del valor de la SNR, Ri , se asegura la transparencia perceptual de la codicacin y su valor no depende de la amplitud del tono Ai . El siguiente valor a jar es el valor mnimo del cuanticador vmini para el i-simo tono audible. Este parmetro se puede igualar directamente al umbral de enmascaramiento compuesto obtenido antes de cuanticar el tono actual, Ci1 , que evaluado en la banda de bark del tono actual queda, vmini (dB SPL) = Ci1 (bi ) (5.27)
Este valor se justica debido a que si el tono es audible su amplitud ser siempre mayor que el umbral de enmascaramiento. Para nalizar, queda por determinar el valor mximo vmaxi del cuanticador de la amplitud del tono i-simo. En principio, para este propsito se puede aplicar el mximo valor posible de la amplitud de un tono, que es de 96 dB SPL. Sin embargo, la inmensa mayora de las amplitudes de los tonos son mucho menores que este valor. La solucin es emplear el valor de 96 dB SPL para el primer tono y tomar la amplitud de este tono como el valor mximo del cuanticador para los dems. Esto se podr realizar siempre que se enve, en primer lugar, el tono de mayor amplitud al decodicador. El valor mximo de los cuanticadores queda, vmaxi (dB SPL) = 96 Q1 i=1 i>1 (5.28)
donde Q1 es la amplitud cuanticada del primer tono. Esta seleccin del valor mximo obliga a cuanticar primero el tono de mayor amplitud. A partir de la expresin (5.28), hay que tener en cuenta que el primer tono debe ser cuanticado con mucha precisin para evitar que se propague el error de cuanticacin para el resto de tonos. La forma de evitar este inconveniente consiste en utilizar una SNR para el primer tono, R1 , mucho mayor que la mxima posible SNR para el resto de tonos. Como la mxima banda de Bark para una frecuencia de muestreo de 44, 1 KHz es de bi |max = 26, la mxima SNR para el resto de tonos ser: Ri |max = 14,5 + bi |max = 14,5 + 26 = 40,5 dB, segn la ecuacin (5.26). Basndose en este resultado, se elige para el primer tono una SNR mucho mayor que la mxima posible, quedando R1 = Ri |max + 10dB = 50,5 dB. Una vez conocidos los valores de conguracin del cuanticador i-simo, es posible determinar el tamao del escaln de cuanticacin i y, por consiguiente, el nmero de bits ni asignados a la amplitud de tono i-simo. Estos valores se van a determinar teniendo en cuenta que la cuanticacin es uniforme y que se trabaja directamente con las amplitudes expresadas en dB SPL. El tamao del escaln de cuanticacin i se calcula para obtener, al menos, la relacin seal a ruido Ri entre la amplitud del tono actual Ai y la amplitud de la seal de error ei . El mximo
140
error en la amplitud ei |max se obtiene cuando la amplitud cuanticada del tono actual Qi toma el mximo error de cuanticacin: Qi |max (dB SPL) = Ai (dB SPL) + i (dB) 2 (5.29)
El mximo error se expresa en dB SPL como la diferencia entre la amplitud cuanticada con mximo error de cuanticacin y la amplitud original: ei |max (dB SPL) = 20 log10 10
|Qi |max (dB SPL) 20
10
Ai (dB SPL) 20
(5.30)
Segn (5.29), la expresin (5.30) se puede simplicar de la forma: ei |max (dB SPL) = Ai (dB SPL) + 20 log10 10
i /2(dB) 20
(5.31)
La relacin seal a ruido que se obtiene cuando el error es mximo ei |max es el mnimo valor posible de SNR. Sustituyendo este mnimo valor por Ri , para conseguir al menos este valor de SNR, el mximo error de la amplitud ei |max se puede expresar en dB como: ei |max (dB SPL) = Ai (dB SPL) Ri (dB) (5.32)
Teniendo en cuenta la ecuacin (5.31), la expresin (5.32) se puede simplicar de la forma: Ri (dB) = 20 log10 10
i /2(dB) 20
(5.33)
Finalmente, de acuerdo a la ecuacin (5.33), el tamao del escaln de cuanticacin i se puede calcular a partir de:
Ri (dB) i (dB) = 20 log10 1 + 10 20 (5.34) 2 El nmero de bits asignados al tono actual, ni , se obtiene a partir del valor del tamao del escaln de cuanticacin i y de los valores de conguracin del cuanticador del tono i-simo como:
ni = log2
vmaxi (dB SPL) vmini (dB SPL) i (dB)
(5.35)
Todo lo expresado hasta ahora se escribe de forma algortmica a continuacin. Se expresa detalladamente la obtencin de los valores de conguracin de los cuanticadores de cada amplitud: 1. Se inicializa el umbral de enmascaramiento C0 al umbral de silencio. 2. Para el primer tono, i = 1, que es el tono de mxima amplitud, entonces: a ) Los valores de conguracin del primer cuanticador son: vmax1 = 96 dB SPL (el mximo valor posible); vmin1 = C0 (b1 ). R1 = |Ri |max + 10 = 50,5 dB, ya que Q1 se usa ms tarde como valor mximo para el resto de cuanticadores.

Primera iteracin Segunda iteracin Dcima iteracin
141
100
dB SPL
vmax 1= 96 dB SPL Q1
100
R2= 23.5 dB 2= 1.1239 dB n2= 7 bits vmax 2= Q1
100
vmax 10= Q1
R10= 23.5 dB 10= 1.1239 dB n10= 5 bits
50
R1= 50.5 dB 1=0.0518 dB n1=11 bits v C0

min 1
50
50
vmin 10= C9(b10)
= C (b )
0 1
0
0
0
26
0
C1
vmin 2= C1(b2) b2=9 12
0 C 9
26
0
b10=9 12
10 b1=12 20 Banda de Bark
20 Banda de Bark
20 Banda de Bark
26
Figura 5.17: Ejemplo de funcionamiento del algoritmo propuesto para la cuanticacin de las amplitudes. b ) Se calcula el escaln 1 mediante (5.34), y el nmero de bits n1 a partir de (5.35), y se cuantica A1 obteniendo la amplitud cuanticada Q1 . c ) El umbral de enmascaramiento C1 se compone con el umbral individual del primer tono mediante (5.24) y (5.25). 3. Para i = 2, . . . , K , siendo K el nmero de tonos audible, entonces: a ) Los valores de conguracin de los cuanticadores son: vmaxi = Q1 ; vmini = Ci1 (bi ). Ri = 14,5 + bi . b ) Se calcula el escaln i mediante (5.34), y el nmero de bits ni a partir de (5.35), y se cuantica Ai obteniendo la amplitud cuanticada Qi . c ) El umbral de enmascaramiento Ci se compone con el umbral individual del tono actual mediante (5.24) y (5.25). Una ilustracin del funcionamiento del algoritmo se presenta en la gura 5.17. En esta gura, la lnea superior representa el valor mximo de cada cuanticador, mientras que la inferior el valor mnimo en cada banda de bark. Como se observa, este valor mnimo siempre coincide con el umbral de enmascaramiento compuesto en la banda de bark bi del tono actual. En la primera iteracin, el nmero de bits asignado al primer tono, n1 = 11 bits, es mayor que para el resto puesto que tanto vmax1 = 96dB SP L como R1 = 50, 5dB son especialmente grandes slo para esta primera iteracin. As, el nmero de bits asignados para el resto de tonos es menor que n1 debido a: 1) vmaxi se ja a Q1 y 2) Ri se obtiene a partir del umbral de enmascaramiento individual de cada tono. An ms, el nmero de bits ni tiende a ser menor conforme el ndice i aumenta, porque vmini tiende a crecer al aumentar el umbral de enmascaramiento compuesto. El algoritmo que se acaba de explicar es preciso aplicarlo tanto al codicador como al decodicador para evitar el envo de informacin lateral. En realidad, el codicador debe enviar el nmero de tonos audibles como informacin lateral para que el algoritmo funcione. Adems, es preciso tener en cuenta que se ha supuesto que ya se conocen, cuando se ejecuta este algoritmo, las frecuencias de los tonos en el decodicador. Es importante resear que, como el algoritmo es muy sensible a errores de cuanticacin, parece lgico protegerlo de alguna forma ante este
142
problema. Una manera simple de realizar este cometido es enviando al decodicador el nmero de bits resultante de la cuanticacin de las amplitudes. Con este valor, se evita la propagacin de un error de transmisin al resto de informacin del codicador (por ejemplo a otras tramas de seal codicada). El siguiente paso ser comparar los resultados del algoritmo propuesto con otras opciones presentes en la literatura, con el objetivo de mostrar su buen funcionamiento. Para ello se ha utilizado el esquema experimental mostrado en la gura 5.4. La extraccin tonal se ha implementado mediante matching pursuit (guiado por energa) con ventana rectangular en anlisis y trapezoidal en sntesis. Como modelo perceptual se ha usado el descrito en [MPEG92]. Con este esquema, se pretende vericar tanto el rgimen binario obtenido como la calidad subjetiva del algoritmo propuesto para la cuanticacin de las amplitudes. En la gura 5.18 se comparan los resultados en rgimen binario del algoritmo propuesto y del algoritmo presentado en [Ali95] para cuanticar las amplitudes, el cual siempre utiliza el mismo nmero de bits (10 bits) por amplitud. En la gura 5.18 se representa el rgimen binario que se obtiene cuando se vara el nmero de tonos extrados segn la relacin RSR (Residual to Signal Ratio ). Las seales de prueba utilizada son un subconjunto de las propuestas por MPEG, donde se incluyen seales muy tonales (ver tabla 5.1). En esta gura se observa que la mejora en rgimen binario del mtodo propuesto es tanto mayor cuanto menor es el valor de RSR. Esto es debido a las siguientes razones: 1) Los primeros tonos extrados son normalmente aquellos ms relevantes perceptualmente, y 2) El esquema de cuanticacin de amplitudes propuesto asigna un nmero variable de bits a cada tono dependiendo de su importancia perceptual. Cabe destacar que el mtodo propuesto consigue un rgimen binario muy bajo para la cuanticacin de las amplitudes de los tonos (menor de 0, 16 bits/muestra en media). Para vericar el correcto funcionamiento del algoritmo propuesto se han llevado a cabo unos tests psicoacsticos. La seal evaluada ha sido la obtenida al sumar la seal cuanticada del modelo tonal con el residuo, de acuerdo con el esquema de la gura 5.4. En la gura 5.19 se comparan los resultados de estos tests medidos en la escala MOS, aplicando por un lado el algoritmo propuesto de codicacin de amplitudes y el algoritmo descrito en [Ali95] por otro. Como se observa en la gura, el esquema propuesto logra una alta calidad perceptual, cercana a la transparencia, mientras que el mtodo de [Ali95] da lugar a sonidos metlicos al cuanticar las amplitudes, lo que resulta en una calidad perceptual mucho menor. Este efecto es muy comn cuando se utiliza un nmero jo de bits por amplitud y este valor no es suciente para los tonos perceptualmente ms importantes. Concretamente, estos tonos son aquellos que el odo detecta con mayor detalle, lo que provoca un derrumbe en la calidad medida en la escala MOS. Para concluir es posible armar que el mtodo propuesto para cuanticar las amplitudes, basado en principios psicoacsticos, consigue una alta calidad perceptual en el proceso de cuanticacin sin aumentar el rgimen binario necesario.
143
Rg. binario amplitudes (bits/muestra)
0.2
0.15
0.1 0.05
0
SI01
0.2 0.15
0.1
0.05 0
SI03
6 RSR (%)
SM01
10
6 RSR (%)
SM03
10
0.2 0.15
0.1
0.05 0
0.2 0.15
0.1
0.05 0
6 RSR (%)
10
6 RSR (%)
10
Figura 5.18: Variacin del rgimen binario (bits/muestra) en media para la cuanticacin de las amplitudes conforme la relacin RSR( %) aumenta. Mtodo en [Ali95] (rombos), mtodo propuesto (cuadrados).
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 si01 si03 sm01 sm03
algoritmo propuesto algoritmo referenciado
Figura 5.19: Comparacin de resultados subjetivos (valores de M OS ) obtenidos por el algoritmo de

cuanticacin de las amplitudes de los tonos propuesto y por el presentado en [Ali95]
144
Captulo 6
Modelado de transitorios
En relacin al modelado de transitorios, el nmero de trabajos relacionados con el tema que puede encontrarse en la bibliografa especializada es muchsimo menor que en el caso del modelado tonal. La razn hay que buscarla primero en que la presencia de fuertes transitorios en la seal de audio es bastante reducida, por lo que un codicador compuesto simplemente por un modelo tonal ms un modelo de ruido es capaz de dar una calidad aceptable para un amplio conjunto de seales de audio. En segundo lugar, el problema de los transitorios reside en que representan un conjunto dispar de comportamientos de la seal. Si en el caso de modelo tonal, la seal a modelizar est formada por tonos estables, en el caso de los transitorios la seal puede estar formada por los incrementos bruscos de energa de una amplia variedad de instrumentos, lo que diculta el diseo de un modelo simple. Como consecuencia de esta propiedad de los transitorios, el modelo que mejor funciona es un modelo generalista, que pueda caracterizar un amplio rango de comportamientos tiempo-frecuencia. Esta es la causa principal de que el modelo con mayor xito en la literatura sea el mtodo matching pursuits con diccionarios adaptados a las caractersticas transitorias de la seal [Goodwin97b] [Nieuwenhuijse98]. Si se consigue un modelo de transitorios con una calidad aceptable, sus aplicaciones no slo estarn en el mbito de la codicacin, sino que tambin se podrn realizar interesantes aplicaciones en el campo del tratamiento digital de seales de audio con esta herramienta. As, si se dispone de un modelo de transitorios, es posible realizar un amplio rango de modicaciones sobre la seal, as como, incluso, clasicar los transitorios de seal o extraer propiedades del ritmo de la misma. Se puede armar, por tanto, que una herramienta de modelado de transitorios eciente puede ser de gran utilidad en mltiples aplicaciones del audio.
6.1.
Diccionarios paramtricos con matching pursuits
Para el mtodo MP, al igual que para otras descomposiciones atmicas, el diseo del diccionario es la clave para adaptar la descomposicin a la aplicacin en cuestin. En general, est claro que cuanto mayor es el diccionario, y ms comportamientos tiempo-frecuencia se incluyen en su denicin, mayor es la capacidad de compresin del mtodo, aunque, como contrapartida, mayor ser su complejidad, que crece de forma exponencial con respecto al tamao del diccionario. Una caracterstica deseable para un modelo de transitorios es que la denicin del diccionario est basada en parmetros con signicado fsico. Slo cuando los parmetros de los tomos tienen 145
146
CAPTULO 6. MODELADO DE TRANSITORIOS
esta propiedad se designa el modelo implementado como modelo paramtrico. En aplicaciones de audio, es muy importante que los tomos del diccionario puedan localizarse en tiempo/frecuencia, a partir de algunos de sus parmetros, porque de esta forma es posible implementar modicaciones de seal sobre los datos codicados, como puede ser, por ejemplo, el cambio de tempo.
6.1.1.
tomos de Gabor
Los tomos localizados en tiempo-frecuencia fueron introducidos por Gabor [Gabor46] y estn diseados de forma que tienen una buena discriminacin tanto en tiempo como en la frecuencia. Volviendo a escribir la denicin de estos tomos en tiempo discreto segn, g{s,, } [n] = fs [n ]ej(n ) (6.1)
es posible comprobar como el diccionario de tomos de Gabor es paramtrico, puesto que los parmetros {s, , } denen la escala, la frecuencia y la localizacin en el tiempo, respectivamente. El principal problema de los tomos de Gabor es el tamao del diccionario necesario para incluir un conjunto aceptable de comportamientos tiempo-frecuencia en la seal. Como consecuencia, la complejidad para desarrollar este modelo es prohibitiva en aplicaciones de tiempo real. Adems, para implementar un modelo de transitorios, estos tomos tienen el inconveniente de presentar simetra par, por lo que es imposible modelizar convenientemente un transitorio. Como se observ en la gura 4.15, estos tomos producen un pre-eco considerable cuando intentan modelizar transitorios. Sin embargo, los transitorios reales no son tan simples como los de la gura 4.15, sino que son seales mucho ms complicadas de modelizar. Para mostrar este hecho, se incluye la gura 6.1, donde se modela un transitorio de audio con tomos de Gabor. Se puede apreciar en la gura cmo en las primeras iteraciones se modela una seal suave, que se rena en posteriores iteraciones. El inconveniente principal de este enfoque es que al principio no se modela una seal transitoria, sino la forma suave en general de la seal.
6.1.2.
Sinusoides amortiguadas exponencialmente
Una forma de evitar el problema de la simetra par de los tomos de Gabor es redeniendo los tomos de forma que no posean esta caracterstica. La forma ms usual encontrada en la bibliografa de realizar este cambio es proporcionar a los tomos de una cada exponencial mediante sinusoides amortiguadas exponencialmente (Exponentially Damped Sinusoids, EDS). Ahora la denicin de los tomos es ms directa, g{a,, } [n] = Sa a(n ) ej(n ) u[n ] (6.2)
quedando stos denidos a partir de la terna {a, , }, que representa el factor de amortiguamiento, la frecuencia y la localizacin temporal, respectivamente. La ventaja de estos parmetros aparece en dos sentidos. Por un lado, la localizacin temporal se reere exactamente al comienzo del transitorio, y por otro, el factor de amortiguamiento dene la cada exponencial de la seal. Es importante tener en cuenta que, adems, estos tomos se corresponden con la respuesta al impulso de ltros lineales denidos por un polo.
6.1. DICCIONARIOS PARAMTRICOS CON MATCHING PURSUITS
147
X`Y a0b
1 0 1 0
(a)
20 (b)
40
60
80
100
120
140
160
180
200
X c Y a0b ` dfeRghpirq
1 0 1 0
20 (c)
40
60
80
100
120
140
160
180
200
X c Y a0b ` s8tueRghpirq
1 0 1 0
20 (d)
40
60
80
100
120
140
160
180
200
X c Y a0b ` vDtueRghpirq
1 0 1 0
20 (e)
40
60
80
100
120
140
160
180
200
c Y a0b X` wxtueRghpirq
1 0 1 0
20
40
60
80
100
120
140
160
180
200
y iFq'eifp qG
Figura 6.1: Modelado de seal con MP y tomos de Gabor. La seal es un transitorio de audio de un
gong. Se reconstruye la seal modelada con 5, 10, 20 y 40 tomos [Goodwin97].
La implementacin de matching pursuits con exponenciales complejas ha sido tratada con detalle en [Goodwin97b]. El problema principal de esta implementacin es la enorme cantidad de memoria necesaria para realizar la actualizacin de correlaciones. Es tal la cantidad de memoria necesaria que en [Goodwin97b] se explica cmo realizar la implementacin de MP mediante ltros para intercambiar memoria por clculo directo de las correlaciones (por multiplicaciones) con ayuda de estos ltros. En realidad, debido a que los tomos EDS son la respuesta al impulso de ltros lineales de un polo, es posible calcular las correlaciones con un banco de ltros de un polo. Una interpretacin grca de este banco de ltros aparece en la gura 6.2, donde se observan los ltros a implementar con diferentes aproximaciones en el diseo del diccionario. Se puede encontrar en [Goodwin98] un informe detallado de la implementacin y la complejidad necesaria asociada. En la gura 6.3, se representa el anlisis realizado con un diccionario EDS del transitorio de audio de un gong. La diferencias sustanciales con el caso del diccionario de tomos de Gabor son dos: 1) en las primeras iteraciones se representan las principales transiciones de la seal y 2) ahora no hay error de pre-eco. En [Goodwin98], se estudia, adems, el error cuadrtico medio entre la seal original y la reconstruida en las sucesivas iteraciones, es decir, la potencia de la seal residual. El resultado se representa en la gura 6.4, donde se aprecia que para la seal transitoria usada el diccionario EDS converge ms rpidamente que los tomos de Gabor.
148
Figura 6.2: Interpretacin mediante bancos de ltros de varias estructuras de diccionario EDS. Los
tomos del diccionario se corresponden con la respuesta al impulso de los polos marcados en el plano z .
1 0 1 0
(a)
20 (b)
40
60
80
100
120
140
160
180
200
dGeAffg
1 0 1 0
20 (c)
40
60
80
100
120
140
160
180
200
hRidGeAffg
1 0 1 0
20 (d)
40
60
80
100
120
140
160
180
200
jpidGeAffg
1 0 1 0
20 (e)
40
60
80
100
120
140
160
180
200
kAidGeAffg
1 0 1 0
20
40
60
80
100
120
140
160
180
200
l6m ffnpoqgrpfsAtun2grv
Figura 6.3: Modelado de seal con MP y diccionario EDS. La seal es un transitorio de audio de un gong. Se reconstruye la seal modelada con 5, 10, 20 y 40 tomos [Goodwin97].
}| z{ xy w
0 10 20 30 40 50 0 5 10 15 20 25 30 35 40 symmetric atoms damped sinusoids ____ oooo
Figura 6.4: Error cuadrtico medio de mtodo MP con tomos de Gabor y exponenciales amortiguadas para un transitorio de audio [Goodwin97].
6.1. DICCIONARIOS PARAMTRICOS CON MATCHING PURSUITS
149
Figura 6.5: tomos compuestos variando la frecuencia de modulacin y los factores de amortiguamiento.
6.1.3.
tomos compuestos
Se ha mostrado en las guras anteriores que tanto el diccionario de tomos de Gabor simtricos como el diccionario EDS no incluyen en su denicin la gran cantidad de comportamientos que se pueden encontrar en las seales transitorias de audio. Para seales reales, que pueden ser generadas por sistemas no lineales complejos, parece lgico implementar un diccionario que presente tanto tomos simtricos (Gabor) como asimtricos (EDS). Si se incluyen en un slo diccionario los tomos de los diccionarios simples, tal y como son, el diccionario resultante se suele llamar diccionario mixto. Sin embargo, este enfoque no es apropiado cuando se utiliza MP, puesto que la actualizacin de correlaciones se complica, al incluir en el diccionario tomos de diversa naturaleza. Como resultado, todas las correlaciones cruzadas deben ser guardadas en memoria, lo que supone una complejidad excesiva. Otra alternativa, consiste en redenir los tomos de forma que incluyan diversos comportamientos [Goodwin98]. Esta forma de disear el diccionario lleva a un diccionario compuesto por tomos de diversa naturaleza con una misma denicin (composite atoms ). El enfoque aplicado en [Goodwin98] se basa en considerar tomos compuestos por funciones causales y anticausales, que se pueden denir como, g{a,b,, } [n] = Sa,b (a(n ) u[n ] + b(n ) u[n + ] [n ])ej(n ) (6.3)
donde los parmetros de denicin son {a, b, , }: el factor de amortiguamiento causal, el factor de amortiguamiento anticausal, la frecuencia y la localizacin temporal, respectivamente. Con esta denicin, se pueden encontrar tomos de muy diversa naturaleza, como aparece en la gura 6.5. A continuacin, se muestra en la gura 6.6 el anlisis realizado con tomos compuestos para un transitorio de audio. En este caso, es visible cmo los tomos se eligen de forma adaptada a la seal, usando tomos con forma causal, por ejemplo, en el primer transitorio, y con forma simtrica en otros. El resultado es una convergencia mucho ms rpida, como aparece en la gura 6.7. Ahora la diferencia es mayor incluso en las primeras iteraciones. Los tomos compuestos ofrecen la posibilidad de determinar con el mtodo MP qu parte de la seal es transitoria (donde se extraen ms tomos causales) y cual no. El precio a pagar es un incremento notable del tamao del diccionario, que incluye gran nmero de tomos. El resultado es una complejidad prohibitiva a la hora de implementar MP con estos tomos compuestos.
150
~
1 0 1 0
(a)
20 (b)
40
60
80
100
120
140
160
180
200
~ Gxu
1 0 1 0
20 (c)
40
60
80
100
120
140
160
180
200
~ RAu
1 0 1 0
20 (d)
40
60
80
100
120
140
160
180
200
~ pAu
1 0 1 0
20 (e)
40
60
80
100
120
140
160
180
200
~ AAu
1 0 1 0
20
40
60
80
100
120
140
160
180
200
6 uqrDAPr
Figura 6.6: Modelado de seal con MP y diccionario de tomos compuestos. La seal es un transitorio de audio de un gong. Se reconstruye la seal modelada con 5, 10, 20 y 40 tomos [Goodwin97].
composite atoms 20 40 60 damped sinusoids
____ oooo
10
15
r'HAAH'
20
25
30
35
40
Figura 6.7: Error cuadrtico medio del mtodo MP con exponenciales amortiguadas y tomos compuestos
para un transitorio de audio [Goodwin97].
6.2. DICCIONARIO DE FUNCIONES WAVELET PACKETS
151
6.2.
Diccionario de funciones wavelet packets
En los diferentes codicadores de audio donde la transformadas wavelets y wavelet-packets se han utilizado, por ejemplo en [Hamdy96] [Ruiz03], los mejores resultados subjetivos corresponden a las seales con mayor nmero de transitorios. En [Hamdy96], la transformada wavelet se usa para descomponer las partes transitorias de la seal. Si se codican los valores de esta transformada, la representacin obtenida de los transitorios proporciona un rgimen binario menor con una calidad ms alta que si se utiliza una transformada basada en funciones exponenciales complejas como la DCT. En [Ruiz03], se presenta un codicador de audio basado en transformadas wavelet-packets. En este caso, las seales codicadas de mayor calidad subjetiva son aquellas que tienen un alto contenido en ataques de seal. Por lo tanto, parece interesante disear un modelo de transitorios basado en MP donde el diccionario se construya a partir de funciones wavelet-packets. Los tomos del diccionario para este modelo de transitorios se derivarn de un rbol waveletpackets ortonormal. Se considerarn como tomos las respuestas de los ltros de sntesis de una descomposicin WP completa,de forma que la correlacin entre tomos y seal se obtenga simplemente ltrando la seal con el banco de ltros de anlisis. De esta forma, el diccionario sobre-completo DW P incluye todos los tomos de la descomposicin wavelet-packets (WP) hasta un nivel de profundidad P , haciendo que el tamao del diccionario sea de M W P = P N , donde N es la longitud de la trama actual. Los tomos denidos de esta forma se pueden identicar a partir de los parmetros {s, p, r}, que indican la sub-banda s en la profundidad de descomposicin p y el retardo r en la sub-banda s. El retardo real de la seal es proporcional a r y a la profundidad p, de la forma, g{s,p,r} [n] = g{s,p} [n 2p r] (6.4)
por lo que es fcil de determinar la posicin de los transitorios modelados con un diccionario WP. Para obtener en el tiempo cada tomo g{s,p} [n], es necesario recorrer el rbol de sntesis de un banco de ltros wavelet-packets. Siendo G{s,p} (z ) la transformada z de cada tomo, sta se construye directamente a partir de los ltros G0 (z ) y G1 (z ), que se corresponden con las funciones de transferencia del ltro paso bajo y paso alto de los ltros de sntesis, respectivamente. El banco de ltros de sntesis se implementa, como indica la gura 6.8 (para el caso de P = 3), mediante la insercin de bloques de interpolacin. Como resultado, cada tomo G {s,p} (z ) se puede expresar como
p1 d=0 2d
G{s,p} (z ) =
G((
s/2d ))2 (z
(6.5)
donde ((l))L denota (l modulo L). Para implementar el mtodo matching pursuits es necesario, para la primera iteracin, el calculo de la correlacin entre la seal y los tomos. Para el caso del diccionario WP, los coecientes wavelet-packets obtenidos mediante la transformada directa representan el peso de cada tomo:
1 { s,p,r} = x[n], g{s,p,r} [n]
(6.6)
152
p = 3 g 2
0

p = [ n ] + s = 1 2 g
1
p =
s =
s =
0 2
g
0
[ n
[ n
] +
s =
0 2
g
0
[ n
s =
2 2
g
0
[ n
] + ]
s =
1 2
g
1
[ n
s =
g
1
[ n
+ s = 4 2 g
0
[ n
] +
s =
2 2
g
0
[ n
] s = + 1 2
s =
g
1
[ n
g
1
[ n
s =
6 2
g
0
[ n
] +
s =
3 2
g
1
[ n
s =
7 2
g
1
[ n
Figura 6.8: Estructura en rbol de la transformada WP inversa con una profundidad de P = 3. Para el resto de iteraciones, las nicas correlaciones a calcular para implementar el mtodo MP se corresponden con las correlaciones cruzadas entre todos los tomos y el tomo elegido en cada iteracin. Por lo tanto, el problema de actualizar las correlaciones se puede reducir al clculo de las correlaciones cruzadas entre tomos WP, g{s1 ,p1 ,r1 } [n], g{s2 ,p2 ,r2 } [n] . Estas correlaciones se deben pre-calcular y tener almacenadas en memoria para realizar el proceso de actualizacin de las correlaciones inherente al mtodo MP. Es muy importante expresar estas correlaciones convenientemente con el objetivo conocer la cantidad de memoria necesaria para guardar estos valores. En principio, guardar las correlaciones cruzadas entre todos los tomos puede requerir una memoria ingente, por lo que expresar estas correlaciones convenientemente ayuda a reducir la memoria necesaria para la implementacin de matching pursuits. Adems, si se conocen cuntas de estas correlaciones cruzadas son cero, se puede saber el nmero de multiplicaciones necesarias para actualizar las correlaciones (las correlaciones cruzadas que son cero no hay que actualizarlas). Por tanto, el primer paso consiste en expresar las correlaciones independientemente del retardo de cada tomo: g{s1 ,p1 ,r1 } [n], g{s2 ,p2 ,r2 } [n] = = g{s1 ,p1 } [n 2p1 r1 ], g{s2 ,p2 } [n 2p2 r2 ] g{s1 ,p1 } [n 2p1 r1 + 2p2 r2 ], g{s2 ,p2 } [n] (6.7)
donde se supone p1 p2 sin prdida de generalidad. Con esta expresin, se logra reducir el nmero de correlaciones cruzadas a calcular (de las correlaciones entre todos los tomos) a slo las correlaciones entre tomos con diferente sub-banda s y profundidad p, al eliminar el retardo r de la denicin. El proceso de simplicacin de las correlaciones cruzadas no es sencillo, por lo que se tratar con detalle, pero, en cambio, el resultado es claro y contundente. Teniendo en cuenta que slo s1 las correlaciones entre tomos con relacin de herencia (s2 = 2p1 p2 ) son diferentes de cero, cuando los tomos se construyen a partir de una transformada ortonormal, la expresin (6.7) se
6.2. DICCIONARIO DE FUNCIONES WAVELET PACKETS puede reducir a la siguiente [Vera04a]: s 1 = s 2 , p1 = p 2 [r2 r1 ] s1 g{s1 ,p1 ,r1 } [n], g{s2 ,p2 ,r2 } [n] = 0 s 2 = 2p1 p2 g s1 {s,p,r1 } [r2 ] s2 = 2p1 p2
153
(6.8)
donde p = p1 p2 y s = ((s1 ))2p . As, de acuerdo con (6.8), la actualizacin de correlaciones slo requiere guardar en memoria las respuestas al impulso de las ramas del rbol de sntesis WP hasta la profundidad P 1 (ver gura 6.8). Para realizar este proceso, basta con comprobar la relacin entre el tomo a actualizar y el tomo elegido en cada iteracin del MP. Cabe distinguir tres opciones: 1. Ambos tomos pertenecen a la misma profundidad y sub-banda. En ese caso, la correlacin cruzada es cero, salvo que se trate del mismo tomo, que lgicamente es uno. 2. Ambos tomos no tienen relacin de herencia. Entonces, su correlacin cruzada es cero. 3. Ambos tomos tienen relacin de herencia. En tal caso, la correlacin cruzada es igual a la respuesta de la rama del rbol que hay que recorrer entre ambos tomos. La complejidad depende del tamao del diccionario, pero tambin del tomo que se elija en cada iteracin del mtodo MP, puesto que dependiendo de la profundidad del tomo seleccionado el nmero de correlaciones que son cero es diferente. El caso peor ocurre cuando se selecciona un tomo de profundidad p = 1, puesto que entonces el nmero de tomos correlados es mximo. 1)N 1)N N En tal caso, hay (P 2 tomos con relacin de herencia, lo que conlleva (P 2 = MW P 2 multiplicaciones reales y restas para realizar la actualizacin de correlaciones, segn la ecuacin (4.21) del mtodo matching pursuits.
6.2.1.
Demostracin de las correlaciones cruzadas
Partiendo de la ecuacin (6.7), la correlacin que representa se va a escribir de la forma c{s1 ,p1 },{s2 ,p2 } [2p2 r2 2p1 r1 ]. Esta correlacin es igual a la correlacin c{s1 ,p1 },{s2 ,p2 } [r2 ] desplazada en el tiempo 2p1 r1 muestras y diezmada por 2p2 . En general, cualquier correlacin se puede expresar por medio de la convolucin mediante la expresin: g{s1 ,p1 } [n + r2 ], g{s2 ,p2 } [n] = g{s1 ,p1 } [r2 ] g{s2 ,p2 } [r2 ] La transformada z de la expresin (6.9) es simplemente, C{s1 ,p1 },{s2 ,p2 } (z ) = G{s1 ,p1 } (z )G{s2 ,p2 } (z 1 ) (6.10) (6.9)
Usando la expresin (6.5), suponiendo que p1 p2 , y teniendo en cuenta slo los tomos con s1 relacin de herencia (s2 = 2p1 p2 ), la ecuacin (6.10) se puede expresar de la forma: C{s1 ,p1 },{s2 ,p2 } (z ) = G{s2 ,p2 } (z )
p1 1 d1 =p2
G((
s1 /2d1 ))2 (z
2d1
) G{s2 ,p2 } (z 1 )
(6.11)
154
Sabiendo que C{s2 ,p2 },{s2 ,p2 } (z ) es la autocorrelacin de g{s2 ,p2 } [r2 ] en el dominio Z , la expresin (6.11) puede escribirse como: C{s1 ,p1 },{s2 ,p2 } (z ) = C{s2 ,p2 },{s2 ,p2 } (z )
p1 1 d1 =p2
G((
s1 /2d1 ))2 (z
2d1
(6.12)
Ahora es necesario aplicar los cambios de variable d = d1 p2 y p = p1 p2 . Considerando s = ((s1 ))2p , la ecuacin (6.12) se puede reescribir como:
p1 d=0
C{s1 ,p1 },{s2 ,p2 } (z ) = C{s2 ,p2 },{s2 ,p2 } (z )
G((
s/2d ))2 (z
2d+p2
) = C{s2 ,p2 },{s2 ,p2 } (z ) G{s,p} (z 2 ) (6.13)
p2
Volviendo ahora al dominio del tiempo, la ecuacin (6.13) queda: c{s1 ,p1 },{s2 ,p2 } [r2 ] = c{s2 ,p2 },{s2 ,p2 } [r2 ] g{s,p} [ 2rp22 ], 2rp22 Z 0, otherwise (6.14)
Es preciso tener en cuenta que la autocorrelacin c{s2 ,p2 },{s2 ,p2 } [r2 ] es cero cuando 2rp22 Z, porque g{s2 ,p2 } [r2 ] es ortogonal a traslaciones de 2p2 r2 muestras. Por lo tanto, al diezmar la expresin (6.14) por 2p2 muestras, el resultado es g{s,p} [r2 ]. Finalmente, la correlacin que se expresaba en la ecuacin (6.7) para tomos con relacin de herencia se simplica a: c{s1 ,p1 },{s2 ,p2 } [2p2 r2 2p1 r1 ] = g{s,p} [r2 2p r1 ] = g{s,p,r1 } [r2 ] Como se quera demostrar. (6.15)
6.2.2.
Resultados comparativos entre los diccionarios WP y EDS
Una vez se ha explicado cmo implementar el mtodo matching pursuits con un diccionario WP y su complejidad asociada, el siguiente paso consiste en vericar su validez para el modelado de transitorios de seales de audio. En los experimentos que se han desarrollado para llevar a cabo esta tarea, se ha utilizado una trama de audio transitoria con un impulso de energa localizado en la mitad de la trama. Este impulso pertenece a un golpe de castauela procedente de la seal de castauelas (calidad CD mono), que es una de las seales propuestas por el grupo MPEG para su uso en actividades de estandarizacin [MPEG01]. Se ha implementado el modelo de transitorios con el diccionario wavelet-packets (WP) y con el diccionario de exponenciales amortiguadas (EDS) y comparado los resultados obtenidos. En la gura 6.9, se presentan los resultados del modelado con el mtodo matching pursuits y un diccionario EDS en iteraciones sucesivas. Como se observa en la gura, en las primeras iteraciones se extraen los transitorios fuertes de la seal, puesto que el diccionario est formado por seales que comienzan de esta forma. En las siguientes iteraciones, estos transitorios son suavizados para obtener la forma de la seal, lo que requiere un gran conjunto de tomos. Como consecuencia, se escogen muchos tomos de pequea amplitud para renar los errores cometidos por los primeros tomos. El diccionario EDS se dene a partir de los parmetros: factor de amortiguamiento, frecuencia y retardo. La simulacin se ha llevado a cabo con 10 factores de
6.2. DICCIONARIO DE FUNCIONES WAVELET PACKETS

1
(a)
Seal
155
0
1 0 1
5
10
15
20
(b)
5 tomos
0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
5 5 5 5
(c)
10 tomos
10
15
20
(d)
20 tomos
10
15
20
(e)
40 tomos
10
15
20
10 Tiempo (ms)
15
20
Figura 6.9: La seal transitoria de un golpe de castauela se modela mediante matching pursuits con un diccionario EDS. La seal original se presenta en (a) y la seal aproximada por este modelo en sucesivas iteraciones en: (b) 5 tomos, (c) 10 tomos, (d) 20 tomos y (e) 40 tomos.
amortiguamiento, 32 frecuencias y N 8 posiciones de retardo, todos muestreados de forma lineal [Goodwin98]. Con estos valores, el tamao del diccionario es de MEDS = 40 N , donde N es el tamao de la trama de anlisis. La complejidad del mtodo MP con un diccionario de exponenciales amortiguadas depende de la forma en que se actualicen las correlaciones. Aunque en la denicin de MP [Mallat93] se proponga conocer todas las correlaciones cruzadas, segn [Goodwin98] un notable ahorro en complejidad es posible si se implementa mediante un banco de ltros recursivos de un slo polo. El nmero de multiplicaciones reales por iteracin con este ltimo mtodo [Goodwin98] es de alrededor de 6 MEDS , donde MEDS es el tamao del diccionario EDS. En nuestro caso, el nmero de multiplicaciones por iteracin queda 240N , debido al carcter complejo del diccionario EDS denido. El modelado con un diccionario WP se representa en la gura 6.10. Ahora, a diferencia del diccionario EDS, las transiciones fuertes no se extraen en las primeras iteraciones, y pese a ello no se observa la aparicin de distorsin de pre-eco por efecto del modelado. Adems, el transitorio se modela con mayor exactitud a partir de un nmero menor de tomos. Esto se debe, principalmente, a que no son necesarios tomos para compensar los errores iniciales. En este experimento, se ha implementado una descomposicin WP con ltros de Daubechies de 32 coecientes y profundidad de descomposicin P = 4. Con este valor, el tamao del diccionario es de MW P = 4 N , y el nmero mximo de multiplicaciones reales mximo por iteracin es de 3 2N. Parece lgico comparar el modelado obtenido con ambos diccionarios, en el sentido de comprobar cul de ellos converge ms rpidamente. Para este propsito se incluye la gura 6.11,
156
1
(a)
Seal
0
1 0 1
5
10
15
20
(b)
5 tomos
0
1 0 1
5 10
(c)
10 tomos
15
20
0
1 0 1
5 10
(d)
20 tomos
15
20
0
1 0 1
5 10
(e)
40 tomos
15
20
0
1 0
5 10 Tiempo (ms)
15
20
Figura 6.10: La seal transitoria de una castauela se modela mediante matching pursuits con un diccionario WP. La seal original se presenta en (a) y la seal aproximada por este modelo en sucesivas iteraciones en: (b) 5 tomos, (c) 10 tomos, (d) 20 tomos y (e) 40 tomos.
donde se representa el error cuadrtico medio (MSE, Mean-Square-Error ) en dB entre la seal original y la aproximada por el modelo en funcin del nmero de iteraciones. Queda claro, a partir del resultado mostrado en la gura, que el diccionario WP converge ms rpidamente que el EDS para el transitorio de audio utilizado. Esta diferencia es palpable, incluso, en las primeras iteraciones del matching pursuits, creciendo con el nmero de iteraciones. Por lo tanto, el nmero de tomos para un valor dado de error cuadrtico medio es siempre menor cuando se utiliza un diccionario WP. Este resultado se consigue aunque el tamao del diccionario WP sea 10 veces menor que el diccionario EDS usado, ya que se cumple MEDS = 10 MW P . Adems, la complejidad (calculada como nmero de multiplicaciones reales por iteracin) es menor en el caso del diccionario basado en funciones wavelet-packets. Como conclusin, cabe decir que la aplicacin del mtodo matching pursuits con un diccionario basado en funciones wavelets-packets es una alternativa a tener en cuenta para implementar un modelo de transitorios para seales de audio. De inicio, la complejidad es baja al poder usar un tamao de diccionario reducido y tener que calcular un nmero de multiplicaciones por iteracin realmente pequeo. Finalmente, como se observa en los resultados, los transitorios sintetizados tienen una buena localizacin temporal, no existiendo distorsin de pre-eco debida al modelo.
6.3. DICCIONARIO MIXTO: EXPONENCIALES COMPLEJAS + WAVELETS PACKETS157

0
2
4
MSE (dB)
6
8
tomos EDS tomos WP
10
12 0
10
Nmero de tomos
20
30
40
50
Figura 6.11: Error cuadrtico medio (MSE) de los modelos presentados en las guras 6.9 y 6.10.
6.3.
Diccionario mixto: exponenciales complejas + wavelets packets
Los transitorios presentes en las seales de audio, como se puede observar en los diferentes ejemplos presentados, tienen una naturaleza muy diversa. Si el golpe de seal es muy fuerte, como en el caso de las castauelas, la energa del transitorio predomina sobre el resto de la seal. Sin embargo, se pueden poner otros ejemplos, como es el caso del transitorio del gong, donde el incremento de energa no es tan brusco, existiendo en la misma seal una parte tonal y otra transitoria. Puede llegar el caso, como se ver posteriormente, que aparezcan lo que en la literatura conocen como micro-transitorios [Levine98]. En estos segmentos de seal predomina la parte tonal, siendo la energa de la parte transitoria apenas distinguible de la envolvente total de la seal. As pues, como norma general, en los codicadores paramtricos de audio es imprescindible utilizar en cascada tanto el modelo tonal como el modelo de transitorios para separar ambas partes de la seal de entrada. Una iniciativa prometedora es el desarrollo de un diccionario mixto que permita extraer los parmetros de ambos modelos, obtenindose as un modelo ptimo para la representacin de seales de audio con transitorios. En relacin al orden de aplicacin del modelo tonal o de transitorios, no hay en la literatura una postura comn. Lo que s es cierto es que el modelo de ruido se aplica sobre el residuo resultante de la aplicacin de estos dos modelos en cascada. As, en el codicador de Levine y Smith [Levine98], se utiliza la codicacin por transformada para todo el segmento de seal considerado como transitorio, mientras que para el resto de segmentos se aplica en cascada un modelo tonal seguido de uno de ruido. En el codicador HILN [Purnhagen00], tras realizar un pre-anlisis de la seal para detectar si hay transitorios, en el caso de que stos existan se calcula la envolvente de la seal. La presencia del transitorio se indica al decodicador, en cuyo caso el tamao del segmento de audio se reduce. Una vez hecho esto, se usa el modelo tonal, que en el caso de los transitorios se aplica sobre la seal dividida entre la envolvente estimada. En el codicador de Ali [Ali95], se aplican en cascada el modelo tonal, de transitorios y de ruido, y
158
por este orden. Tras el modelado tonal, se substrae la componente sinusoidal, dando lugar a un primer residuo que es la entrada al codicador de transitorios. En ste, la componente transitoria se extrae del primer residuo, generando un segundo residuo, que ya se codica como ruido. Sin embargo, al contrario que en el codicador de Ali, los ms recientes codicadores paramtricos basados en un modelo de seal de tres componentes [Brinker02] [MPEG03] [Vera04c] [Verma00] (sinusoides, transitorios y ruido, STN) aplican primero el modelo de transitorios, seguido del modelo tonal y, por ltimo, el modelo de ruido. La razn de este orden est en que el modelo tonal se adapta muy bien a la parte estacionario, de la seal de audio. La presencia de un transitorio cambia la estacionareidad local de la seal, empobreciendo el resultado que obtiene el modelo tonal. Por ejemplo, si el modelo tonal se usa para representar un transitorio fuerte de seal, el resultado ser que el ataque se dispersar en el tiempo, dando como resultado una seal codicada con pre-eco. Extrayendo los transitorios de la seal antes de aplicar el modelo tonal, al menos se evita el problema del pre-eco. Con este enfoque de aplicacin en serie de los modelos tonal y transitorio, respectivamente, se puede conseguir una buena calidad de la seal codicada para la mayora de las seales de audio. Sin embargo, esta concatenacin de modelos tiene dos inconvenientes principales: Como la aplicacin de los modelos es en cascada (primero los transitorios y despus los tonos), pueden aparecer problemas de separacin entre componentes. En este sentido, pueden pasar dos cosas: por un lado, que el modelo de transitorios no extraiga todo el ataque pudindose producir un pre-eco nal, y por otro, que los transitorios extraigan parte de la seal estacionaria, resultando un rgimen binario total muy elevado. Cuando se aplica un segmento con un micro-transitorio al modelo de transitorios, la herramienta de modelado, a menudo, es incapaz de extraer este pequeo ataque, pasando directamente al modelo de ruido, dispersndose en el tiempo en la seal codicada. A la vista de estos problemas, se propone modelar transitorios y tonos en la misma etapa del codicador. Para lograr esta herramienta, se utilizar el mtodo matching pursuits con un diccionario mixto [Vera06a]. Este diccionario mixto debe incluir dos familias de funciones: 1) funciones que se adapten bien a las transiciones de seal; 2) funciones que puedan representar la parte estacionaria de la seal de audio. En este sentido, se han elegido funciones waveletpackets para la parte transitoria y exponenciales complejas para la parte estacionaria. En una descomposicin atmica de este tipo, en cada iteracin se busca el tomo ptimo, que es el que extrae la mayor cantidad de energa del residuo actual. Dependiendo de las caractersticas del residuo en cada iteracin, el tomo ptimo puede ser una exponencial compleja o una funcin wavelet-packets. El principal problema del uso de diccionarios mixtos, como se dijo anteriormente, es la complejidad asociada a la implementacin. En este sentido, debido a que los tomos son de diferente naturaleza, las correlaciones cruzadas entre todos los tomos, que deben estar almacenadas en memoria, suelen ocupar un tamao prohibitivo para determinadas aplicaciones. A continuacin, se presentar una implementacin eciente de un diccionario mixto formado por exponenciales complejas y funciones wavelet packets, basado en las propiedades particulares de ambas familias de funciones.
6.3.1.
Planteamiento para una implementacin rpida
El problema de la implementacin del algoritmo matching pursuits con un diccionario mixto de exponenciales complejas y wavelet-packets radica en la actualizacin de las correlaciones cruzadas entre tomos de distinta naturaleza. Para realizar el resto de acciones como son: calcular la correlacin entre la seal y los tomos, as como actualizar las correlaciones entre tomos de la misma naturaleza se pueden aprovechar los resultados obtenidos para los diccionarios individuales. Por denicin, el diccionario mixto D se forma mediante la unin de un diccionario de exponenciales complejas DEC y un diccionario de funciones wavelet-packets DW P , quedando un diccionario formado por ambos tipos de familias de funciones D = D EC DW P . Los elementos del diccionario podrn ser exponenciales complejas ek , denidas por su frecuencia k , o waveletpackets w{s,p,r} , denidas por la profundidad en la descomposicin p, la sub-banda s en ese nivel de descomposicin y el retardo r en la sub-banda actual. En cada iteracin del mtodo MP, el algoritmo puede elegir como tomo ptimo una exponencial compleja o una funcin wavelet-packets. Se elegir aquel tomo que extraiga del residuo actual la mayor cantidad de energa. Despus, el procedimiento de actualizacin de correlaciones depender en gran medida del tipo de funcin que se haya extrado. Para explicar con detenimiento este procedimiento, se recordarn primero las propiedades de cada diccionario de forma individual.
Propiedades de las funciones wavelet-packets Para el caso del diccionario wavelet-packets (WP) se va a restringir la familia de funciones wavelet-packets a una familia ortonormal, porque esto permite acelerar el proceso de actualizacin de correlaciones. El diccionario WP, DW P , se compone de todos los tomos del rbol de sntesis hasta una profundidad P , por lo que el tamao del diccionario WP es M W P = P N , siendo N la longitud de la trama de anlisis. El clculo de la correlacin inicial para el mtodo matching pursuits entre la seal y los tomos WP se limita a la obtencin de todos los coecientes de la descomposicin WP hasta una profundidad P . El resultado sern los pesos 1 {s,p,r} en la primera iteracin (i = 1), asociados a cada tomo WP mediante los tres ndices: s sub-banda, p profundidad y r retardo. Una vez calculadas las correlaciones iniciales, para realizar la actualizacin de correlaciones cuando se elige un tomo WP, basta con conocer las correlaciones entre todos los tomos y el tomo seleccionado. Cuando se quieren actualizar las correlaciones entre los tomos waveletpackets es preciso determinar la relacin: w{s1 ,p1 ,k1 } , w{s2 ,p2 ,k2 } . Estas correlaciones se han presentado en la ecuacin (6.8), y deben ser pre-calculadas y guardadas en memoria. Resumiendo, para actualizar las correlaciones entre tomos WP, basta con tener almacenado en memoria las respuestas impulsivas de cada rama del rbol de sntesis WP [Vera04a], y actualizar slo los tomos con relacin de herencia con el seleccionado (los que tienen correlacin cruzada distinta de cero).
160
Propiedades de las exponenciales complejas Para el diccionario de exponenciales complejas DEC , que extrae la parte estacionaria de la seal de audio, se propone el uso de un diccionario complejo sobre seales reales. De esta forma, slo la frecuencia de cada exponencial forma parte de los ndices de cada elemento del diccionario, reduciendo el tamao del mismo (como se ha visto en el diccionario individual). As pues, la informacin de fase se extrae directamente de las correlaciones (que son complejas). Con esta denicin del diccionario de exponenciales complejas, cada funcin senoidal que se extrae de la seal es una combinacin lineal de dos exponenciales complejas conjugadas. En este caso, se supondr, para simplicar las ecuaciones resultantes, que la ventana utilizada con el objetivo de limitar la duracin del tamao de trama a N muestras es una ventana rectangular. Con esta ventana, los tomos exponenciales complejos e k se pueden escribir como:
2k 1 ek [n] = ej 2L n , N
k = 0, . . . , L n = 0, . . . , N 1
(6.16)
donde k es la frecuencia discreta de cada tomo. La constante 1 se deriva del uso de N la ventana rectangular para obtener tomos de energa unidad. El tamao de diccionario para exponenciales complejas es de MEC = L+1 tomos, y se corresponde con el nmero de frecuencias discretas. Debido a la naturaleza compleja de estos tomos, la bsqueda del tomo ptimo, en la parte exponencial compleja del diccionario mixto, se realiza mediante subespacios conjugados, algo ya explicado en la implementacin del modelo tonal. En la iteracin inicial, el clculo de los pesos 1 k asociados a cada frecuencia, es decir, la correlacin entre la seal x y los tomos e k DEC , queda, para el caso de la ventana rectangular, simplemente como la DFT de la seal de entrada: 1 x, ek = N
N 1 n=0
x[n]ej
2k n 2L
1 = X [k ] N
(6.17)
donde X [k ] es la DFT de longitud 2L de la seal de entrada x[n], y el nmero de frecuencias debe cumplir L > N para tener un diccionario sobre-completo de exponenciales complejas. Como X [k ] tiene valores complejos, contiene tanto la informacin de amplitud como la de fase. Estas correlaciones iniciales se pueden calcular mediante el algoritmo FFT, lo que implica rellenar con ceros la seal de entrada x[n] hasta una longitud 2L. El procedimiento de actualizacin de correlaciones se complica al realizar la bsqueda en el subespacio conjugado. En general, se debe seguir la expresin (5.8) para su implementacin. En el caso particular de actualizar correlaciones entre tomos exponenciales complejos, cuando un tomo de este tipo se elige como tomo ptimo, la expresin anterior se puede escribir como:
ri+1 , ek = ri , ek k(i) ek(i) , ek k (i) ek(i) , ek
(6.18)
Como se demostr en el modelo tonal, cuando se trata de exponenciales complejas, estas correlaciones cruzadas se pueden calcular de forma eciente mediante el algoritmo FFT. As, para el caso particular de usar ventana rectangular, estas correlaciones se pueden expresar como: ek(i) , ek = 1 N
N 1 n=0
ej
2 (kk(i)) n 2L
1 U [((k k (i)))2L ] N
(6.19)
e k(i) , ek =
1 N
N 1 n=0
ej
2 (k+k(i)) n 2L
1 U [((k + k (i)))2L ] N
(6.20)
donde ahora U [k ] es la DFT de longitud 2L de la funcin unidad u[n] (como corresponde al cuadrado de la ventana rectangular). Esta DFT debe ser pre-calculada y guardada en memoria para una actualizacin rpida de las correlaciones en cada iteracin del matching pursuits. Resumiendo, para el diccionario de exponenciales complejas, hay que calcular: 1) las correlaciones iniciales con la seal mediante una FFT de longitud 2L; 2) las correlaciones cruzadas entre tomos, lo que requiere un vector de longitud 2L guardado en memoria. En el caso de formar un diccionario mixto compuesto por un diccionario de exponenciales complejas y wavelet-packets (D = DEC DW P ), el mtodo matching pursuits debe calcular en i cada iteracin i los pesos {i k , {s,p,r} } asociados a los elementos del diccionario {ek , w{s,p,r} }. En la primera iteracin, estos pesos son las correlaciones entre la seal de entrada y todos los tomos del diccionario. Los pesos en la iteracin inicial se calculan mediante la Transformada Discreta de Fourier (DFT) y la Transformada Wavelet-Packets (WPT) de la seal de entrada, dependiendo de si se corresponden con las exponenciales complejas o con las funciones waveletpackets, respectivamente. Una vez estos pesos son calculados, se elige el tomo ptimo (que es el que minimiza la energa del residuo), que puede ser o una exponencial compleja o una funcin wavelet-packets. A continuacin, se debe llevar a cabo la actualizacin de las correlaciones, lo que implica conocer de antemano todas las correlaciones cruzadas entre los tomos del diccionario. Ya se han estudiado las correlaciones cruzadas entre los tomos de la misma familia. En este momento, se va a proceder a exponer cmo se obtienen las correlaciones cruzadas entre exponenciales complejas y wavelet-packets. Este clculo de correlaciones entre tomos de diferente naturaleza depende del tipo de tomo extrado en cada iteracin, lo que da lugar a dos situaciones diferentes que se estudiarn por separado.
6.3.2.
Clculo de la correlacin cruzada entre una exponencial compleja elegida como tomo ptimo y funciones wavelet-packets.
En este caso, el tomo ptimo es complejo, mientras que la funcin extrada de la seal es real, ya que se trabaja con subespacios complejos. El procedimiento de actualizacin de estas correlaciones sigue la ecuacin (5.8) del mtodo matching pursuits con subespacios complejos. La implementacin de esta ecuacin requiere pre-calcular las correlaciones cruzadas entre el tomo ptimo ek(i) en la iteracin i y todas las funciones wavelet-packets w{s,p,r} DW P . Este clculo se puede expresar en funcin de la DFT de las funciones wavelet-packets gracias a la naturaleza de las exponenciales complejas:
N 1 n=0
2k(i) 1 1 ej 2L n w{s,p,r} [n] = W{ s,p,r} [k (i)] N N
ek(i) [n], w{s,p,r} [n] = e k(i) [n], w{s,p,r} [n] =
(6.21)
N 1 n=0
2k(i) 1 1 ej 2L n w{s,p,r} [n] = W{s,p,r} [k (i)] N N
(6.22)
162
donde W{s,p,r} [k (i)] es el valor de la DFT de longitud 2L de la funcin w{s,p,r} [n] en la frecuencia discreta k (i). Notar que no es necesario guardar dos vectores, uno por cada ecuacin, ya que, debido a la naturaleza real de las funciones wavelet-packets, el resultado de una es simplemente el conjugado de la otra. Por lo tanto, para poder realizar el procedimiento de actualizacin de estas correlaciones, hay que almacenar en memoria las transformadas DFTs de longitud 2L de todas las funciones wavelet-packets w{s,p,r} [n]. Como el tamao del diccionario WP, DW P , es MW P = N P , el nmero de transformadas DFT de longitud 2L es de N P , lo que se considera un excesivo gasto de memoria. Sin embargo, se puede ahorrar memoria teniendo en cuenta las propiedades de las funciones wavelet-packets. La idea es aprovechar la relacin entre funciones cuando se vara el retardo r, pudindose escribir w{s,p,r} [n] = w{s,p} [n 2p r]. Con esta relacin y, teniendo en cuenta las propiedades de desplazamiento en el tiempo de la DFT, se necesita guardar en memoria slo las DFTs de longitud 2L de las funciones w{s,p} [n]. En este caso, el nmero de DFTs de longitud 2L se reduce a 2P +1 2, que es el nmero de nodos del rbol WP. Para comprobar este resultado, se aplican las propiedades de desplazamiento en el tiempo de la DFT: ek(i) [n], w{s,p} [n 2p r] = (6.23)
(i) N 1 j 2k 1 n 2L w{s,p} [n 2p r] = n=0 e N 2k(i) 2k(i) p p N 12 r j 2L l 1 j 2L 2 r w{s,p} [l] e e l=0 N
donde l = n 2p r, y se supone que las funciones wavelet-packets son causales, w{s,p} [l] = 0, l < 0. Esto obliga a realizar la transformada WP donde el modo de extensin sea el relleno con ceros. Se ha elegido este modo de extensin porque el modo peridico (desplazamientos circulares de las funciones con el retardo r) puede producir resultados inadecuados. Por ejemplo, si un transitorio est en los comienzos de una trama, su energa se puede dispersar al nal de la misma debido a los desplazamientos circulares. No obstante, debido a las propiedades de la DFT para seales con desplazamientos circulares, se podra llegar a un resultado ms compacto para actualizar las correlaciones con modo de extensin peridico. Es posible relacionar el resultado de la ecuacin (6.23) con la DFT de longitud 2L de cada funcin w{s,p} [n] de la forma:
(i) 2k(i) 2k(i) N 1 j 2k N 1 j 2L l l 1 j 2L 2p r 2L ( l w{s,p} [l] l w{s,p} [l]) = e =0 e =N 2p r e N 2k(i) 2k(i) p N 1 1 j 2L 2 r j 2L l (W{ w{s,p} [l]) e l=N 2p r e s,p} [k (i)] N
ek(i) [n], w{s,p} [n 2p r]
= (6.24)
donde W{s,p} [k (i)] es el valor de la DFT de longitud 2L de la funcin w{s,p} [n] en la frecuencia discreta k (i). El sumatorio de la ecuacin (6.24) se debe calcular para todos los posibles valores de r de cada funcin w{s,p} [n]. Una posible forma de implementarlo es mediante un ltro digital con coecientes complejos. Para reducir la complejidad asociada de este clculo, este trmino se puede obtener para valores consecutivos de r. Con este enfoque, la complejidad asociada al sumatorio es de N 2p multiplicaciones complejas para todos los valores de r de cada funcin w {s,p} [n]. De forma adicional, la primera exponencial de la misma expresin representa una multiplicacin compleja cada 2p muestras. Resumiendo, el nmero de multiplicaciones para implementar la N ecuacin (6.24) es de N 2p + 2 p para cada funcin wavelet-packets w {s,p} [n]. No se ha tenido en
6.3. DICCIONARIO MIXTO: EXPONENCIALES COMPLEJAS + WAVELETS PACKETS163 cuenta, sin embargo, que las funciones w{s,p} [n] son funciones localizadas en el tiempo, de forma que sus amplitudes son cero a partir de un determinado valor en el tiempo. Esta propiedad implica una importante reduccin del coste computacional. Para poder evaluar esta reduccin, es necesario conocer la familia de funciones wavelet-packets usada para realizar la descomposicin WP, siendo suciente con saber la longitud del ltro paso bajo y paso alto asociada a cada etapa de la descomposicin WP. Como conclusin, cuando una exponencial compleja se elige como tomo ptimo, para actualizar las correlaciones con las funciones wavelet-packets es necesario: 1) guardar 2 P +1 2 DFTs de longitud 2L, una por cada funcin w{s,p} [n]; 2) calcular el efecto del retardo (w{s,p,r} [n] = N w{s,p} [n 2p r]) para cada funcin w{s,p} [n], lo que corresponde a un mximo de N 2p + 2 p multiplicaciones por funcin.
6.3.3.
Clculo de la correlacin cruzada entre una funcin wavelet-packets elegida como tomo ptimo y exponenciales complejas.
Se trata ahora el caso en el que la funcin ptima en la iteracin i pertenece a la familia de funciones wavelet-packets w{s(i),p(i),r(i)} , y se desean conocer las correlaciones cruzadas entre este tomo y todas las exponenciales complejas ek DEC : 1 w{s(i),p(i),r(i)} [n], ek [n] = N
N 1 n=0
2k n 2L
w{s(i),p(i),r(i)} [n]ej
1 = W{s(i),p(i),r(i)} [k ] N
(6.25)
donde W{s(i),p(i),r(i)} [k ] es la DFT de longitud 2L de la funcin wavelet-packets w{s(i),p(i),r(i)} [n]. De nuevo, para implementar el procedimiento de actualizacin de las correlaciones cruzadas en matching pursuits con el diccionario mixto, hay que guardar las DFTs de longitud 2L de cada funcin wavelet-packets. Pero, como antes, los requerimientos de memoria se pueden relajar aplicando la relacin w{s(i),p(i),r(i)} [n] = w{s(i),p(i)} [n 2p(i) r(i)]. En este caso, las correlaciones cruzadas quedan: w{s(i),p(i)} [n 2p(i) r(i)], ek [n] k N 1 1 n p(i) r (i)]ej 2 2L n =0 w{s(i),p(i)} [n 2 N = =
2k k p(i) N 12p(i) r(i) 2 r(i) 1 j 2 2L w{s(i),p(i)}(m) [l]ej 2L l = e l =0 N 2k 2k p(i) N 1 1 2 r ( i ) l j j e 2L (W{s(i),p(i)} [k ] l=N 2p(i) r(i) w{s(i),p(i)} [l]e 2L ) N
(6.26)
donde W{s(i),p(i)} [k ] es la DFT de longitud 2L de la funcin w{s(i),p(i)} [n], l = n 2p(i) r(i) y se ha considerado que el modo de extensin es relleno con ceros: w{s,p} [l] = 0, l < 0. El problema de obtener el ltimo sumatorio en la ecuacin (6.26) es ahora diferente. Es necesario calcular este valor para todas las posibles frecuencias discretas, k = 0, , L, con el valor de retardo r(i) del tomo wavelet packets ptimo elegido en la iteracin i. En funcin del valor concreto del retardo r(i), el clculo del sumatorio puede ser menos complejo mediante una FFT o un ltro digital con coecientes complejos. En la prctica, la mayora de las funciones w{s(i),p(i),r(i)} [n] tienen valores iguales a cero en las muestras desde N 2p(i) r(i) hasta N 1, lo que supone que el sumatorio no es necesario calcularlo.
164
Concluyendo, cuando se elige un funcin wavelet packets como tomo ptimo, el procedimiento de actualizacin de las correlaciones para las exponenciales complejas requiere: 1) guardar 2P +1 2 DFTs de longitud 2L, una por cada funcin wavelet packets w{s,p} [n], y 2) calcular el efecto del retardo efectivo 2p(i) r(i) del tomo ptimo, (w{s(i),p(i),r(i)} [n] = w{s(i),p(i)} [n2p(i) r(i)]), lo que conlleva como mximo 2L log2 2L multiplicaciones (el clculo de la FFT en el sumatorio de la ecuacin (6.26)).
6.3.4.
Resumen de la complejidad asociada
Para terminar, cuando se implementa matching pursuits con un diccionario mixto compuesto de exponenciales complejas y wavelet packets (D = DEC DW P ), los requerimientos de memoria para realizar la actualizacin de las correlaciones son: 1. Una DFT de longitud 2L para almacenar la transformada discreta de Fourier de la ventana rectangular con el objeto de poder actualizar las correlaciones cruzadas entre funciones exponenciales complejas ek . 2. La respuesta impulsiva de todas las ramas del rbol de sntesis WP, w {s,p} , en el caso de las funciones wavelet packets. 3. 2P +1 2 DFTs de longitud 2L para almacenar las transformadas discretas de Fourier de la respuesta de cada rama del rbol de sntesis WP w{s,p} requeridas para actualizar las correlaciones cruzadas entre funciones de diferente naturaleza. En la iteracin inicial, hay que calcular la DFT de longitud 2L y la transformada WP hasta una profundidad P de la seal de entrada x[n]. Con esto se consigue inicializar las correlaciones entre la seal y los elementos del diccionario mixto. El nmero de multiplicaciones para el resto de iteraciones viene dado por el procedimiento de actualizacin de correlaciones. Se necesita una multiplicacin por tomo para actualizar las correlaciones segn la expresin (4.21), donde se multiplica el peso del tomo ptimo con las correlaciones cruzadas. Cuando se elige como tomo ptimo una exponencial compleja, la actualizacin de correlaciones se realiza ahora mediante la ecuacin (5.8), lo que conlleva dos multiplicaciones por tomo para actualizar exponenciales complejas y una multiplicacin por tomo para actualizar las funciones wavelet packets (realizando una simplicacin por ser funciones reales). Sin embargo, esta complejidad se podra conseguir si se pre-calcularan y almacenaran todas las correlaciones cruzadas entre tomos, algo que exige una cantidad de memoria ingente. Se propone reducir la cantidad de memoria, a costa de incrementar de forma adicional la complejidad para obtener las correlaciones cruzadas. Aprovechando las propiedades de exponenciales complejas y wavelet packets, se obtiene un incremento de complejidad, segn se indica: 1. Cuando se elige como tomo ptimo una exponencial compleja ek (i), para actualizar las correlaciones con: a ) Las exponenciales complejas ek . No hay complejidad adicional. b ) Las funciones wavelet packets w{s,p,r} . Se sigue la ecuacin (6.24), por lo tanto, el nmero de multiplicaciones mximo para cada una de las 2P +1 2 funciones w{s,p} N es de N 2p + 2 p multiplicaciones.
6.3. DICCIONARIO MIXTO: EXPONENCIALES COMPLEJAS + WAVELETS PACKETS165 2. Cuando se elige una funcin wavelet packets w{s(i),p(i),r(i)} como tomo ptimo, para actualizar las correlaciones con: a ) Las funciones wavelet packets w{s,p(,r} . No hay un incremento de complejidad. b ) Las exponenciales complejas ek . Se computa la ecuacin (6.26). Ahora, el nmero de multiplicaciones es muy dependiente del retardo r(i) del tomo ptimo. En el peor caso, siendo el retardo igual a r(i) = N 2p(i) , la complejidad adicional se deriva del clculo de una FFT de longitud 2L, lo que conlleva 2L log2 2L multiplicaciones.
6.3.5.
Resultados en seales de audio con transitorios
En primer lugar, es preciso hacer una reexin sobre las seales a utilizar en las pruebas experimentales. Estas seales deben contener un transitorio de audio, aunque se debe vericar el modelo propuesto tanto para transitorios importantes como para transitorios poco signicativos (caso de un micro-transitorio). En cuanto a las herramientas a comparar, el mtodo matching pursuits se va a utilizar bajo tres aproximaciones diferentes: (1) usando un diccionario mixto de exponenciales complejas y wavelet packets; (2) usando un diccionario de exponenciales complejas y, seguidamente en cascada, un diccionario de wavelet packets; (3) usando un diccionario de wavelet packets seguido, en cascada, de un diccionario de exponenciales complejas. El primer ejemplo que se va a utilizar para ilustrar las ventajas del modelo propuesto es el de un transitorio fuerte de audio. En este caso, la seal es un golpe de castauela, aunque menos fuerte que el de los ejemplos del apartado anterior. La idea es que la trama de audio contenga una parte tonal, para ver la interaccin entre la parte tonal y transitoria en cada modelo de seal. En la gura 6.12 se muestra el modelado de este transitorio. Se observa cmo la mejor discriminacin entre la parte tonal y la transitoria se obtiene con el primer enfoque, correspondiente al diccionario mixto. La segunda aproximacin (aplicacin en serie de diccionario de exponenciales complejas y wavelet packets) produce un pre-eco, as como un suavizado del transitorio extrado. Para el tercer enfoque (aplicacin en serie de wavelet packets y exponenciales complejas) se aprecia como crece el nmero de tomos dedicados a modelar la parte transitoria. El criterio de parada usado para todos los casos es el siguiente: se detiene el mtodo matching pursuits cuando un tomo extrae del residuo actual menos del 2 % de la energa de este residuo. Se elige este valor para obtener un residuo con propiedades estocsticas, es decir, para tratar de eliminar todas las componentes tonales o transitorias y, de esta forma, evitar artefactos en el residuo modelado de forma sinttica como ruido [Schijndel03]. El segundo ejemplo, presentado en la gura 6.13, muestra el modelado de un micro-transitorio procedente de la seal glockenspiel del conjunto de seales de MPEG. La estructura de esta gura es la misma que la de la gura anterior. En este caso, de nuevo, el diccionario mixto obtiene la mejor descomposicin. El micro-transitorio modelado por el segundo enfoque (aplicacin en serie de exponenciales complejas y wavelet packets) tiene menos riqueza que el modelado por el diccionario mixto. El tercer enfoque ni siquiera es capaz de representar el micro-transitorio, puesto que no se llega a extraer ningn tomo wavelet packets de la seal inicial. En ambas guras, 6.12 y 6.13, el resultado del diccionario mixto es mejor que el obtenido para los diccionarios en cascada. Parece lgico que, cuando una trama de audio contenga una parte tonal y otra transitoria, el diccionario mixto d mejores resultados, ya que evita que cada
166
seal original
1
0
1
500
(a)
1000
1500 2000 muestras

wavelets
2500
3000
42 tomos
1
tonos
(b)
14 tomos
1
0
1
500
0
1
500
19 tomos
1000
1500 2000 muestras
2500
3000
wavelets
1000
1500 2000 muestras
2500
3000
1
tonos
(c)
1
0
1
500
0
1
500
5 tomos
33 tomos
1000
1500 2000 muestras
2500
3000
wavelets
1000
1500 2000 muestras
2500
3000
1
tonos
(d)
1
0
1
500
0
1
500
54 tomos
1000
1500 2000 muestras
2500
3000
1000
1500 2000 muestras
2500
3000
1
residuo del dicc. mixto
(e)
0
1
500
1000
1500 2000 muestras
2500
3000
Figura 6.12: (a) Trama de audio con un transitorio de castauela. (b) Parte tonal y transitoria modelada
con el diccionario mixto. (c) Parte tonal y transitoria modelada con un diccionario de exponenciales complejas seguido, en cascada, de un diccionario de wavelet packets. (d) Parte tonal y transitoria modelada con un diccionario de wavelet packets seguido, en cascada, de un diccionario de exponenciales complejas. (e) Residuo nal del diccionario mixto.
seal original
1 0
1
500
(a)
1000
wavelets
34 tomos
muestras
1500
2000
2500
3000
1
0 1
500 1000
(b)
tonos
0 1
500
31 tomos
17 tomos
1000
muestras
1500
2000
2500
3000
muestras
1500
2000
2500
3000
wavelets
tonos
1
0
1
1
1
0 1
500 1000
(c)
11 tomos
500
31 tomos
1000 1500 2000 2500 3000 muestras

wavelets
muestras
1500
2000
2500
3000
1
0 1
500 1000
(d)
tonos
0 tomos
0 1
500 1000
muestras
1500
2000
2500
3000
muestras
1500
2000
2500
3000
Figura 6.13: (a) Trama de audio con un micro-transitorio. (b) Parte tonal y transitoria modelada con el
diccionario mixto. (c) Parte tonal y transitoria modelada con un diccionario de exponenciales complejas seguido, en cascada, de un diccionario de wavelet packets. (d) Parte tonal y transitoria modelada con un diccionario de wavelet packets seguido, en cascada, de un diccionario de exponenciales complejas.
168
Tabla 6.1: Preferencia de los resultados del diccionario mixto sobre el diccionario en serie en %.
Fichero Suzanne Vega Voz masculina en alemn Voz femenina en ingls Clavicordio Castauelas Diapasn Gaita Glockenspiel Punteos de guitarra Slo de trompeta Pieza orquestal Pop Preferencia ( %) 55 60 70 100 100 52 46 100 70 56 60 100
diccionario simple cometa errores por exceso o por defecto en la extraccin de tomos de la seal. Para vericar que el uso del diccionario mixto tambin proporciona los mejores resultados perceptuales, se va a comparar con el uso en cascada del diccionario de exponenciales complejas y el diccionario wavelet packets (tercer enfoque). Se elige este esquema en serie porque es el ms utilizado en los codicadores paramtricos que usan modelado de transitorios. Se han utilizado un subconjunto de seales de audio mono de calidad CD pertenecientes al grupo de seales recomendadas por MPEG [MPEG01] para tareas de estandarizacin. El esquema de anlisis/sntesis implementado utiliza una ventana de Hanning con un tamao de trama de 23ms, es decir N = 1024 muestras, y un solapamiento del 50 % entre segmentos. El nmero de exponenciales complejas en DEC es de L + 1 = 4097 tomos, mientras que la descomposicin WP se ha llevado hasta una profundidad de P = 4, para un tamao de MW P = P N = 4096 tomos, y se han usado ltros ortonormales de Daubechies con nmero mximo de momentos de anulacin y 32 coecientes. Notar que los resultados no cambian signicativamente cambiando la profundidad de descomposicin o la familia de los ltros wavelet packets [Vera04a]. Se han realizado unos tests de audicin usando la metodologa del triple estmulo con referencia ciega. Ahora, los resultados se muestran en la tabla 6.1. Como se observa en la tabla 6.1, el diccionario mixto consigue los mejores resultados perceptuales para las seales con un alto contenido en transitorios. La explicacin de este resultado es que el diccionario mixto evita, para los transitorios fuertes, artefactos de tipo clicks, mientras que para los micro-transitorios no produce distorsin de pre-eco (debida a la dispersin de la energa en el modelado de ruido si el micro-transitorio no ha sido extrado de la seal). Para las seales de audio muy tonales no hay diferencia perceptual entre los dos enfoques. Esta ltima reexin es muy til para reducir el coste computacional en un codicador paramtrico, puesto que el diccionario mixto tiene una complejidad alta y no est justicado su uso en tramas muy tonales de seal. As pues, el mtodo matching pursuits con un diccionario mixto es una herramienta ideal para modelar segmentos transitorios de audio que contengan una parte tonal aparte de la transitoria, ya que consigue un modelo preciso y bien localizado de la parte transitoria. Como conclusin, el uso de un diccionario mixto compuesto de exponenciales complejas y wavelet packets no slo proporciona una representacin eciente de la seal de audio, sino,
6.3. DICCIONARIO MIXTO: EXPONENCIALES COMPLEJAS + WAVELETS PACKETS169 adems, una mejor calidad subjetiva de la seal decodicada. Sin embargo, el precio a pagar es un incremento importante de la complejidad, que impide una implementacin en tiempo real con un DSP de bajo coste.
170
Captulo 7
Modelado de ruido
Una vez obtenidos los parmetros de los tonos y de los transitorios, queda un residuo difcil de modelar. El problema principal se basa en que, a diferencia de tonos y transitorios tratados hasta ahora, el residuo no se puede modelar mediante una descomposicin atmica. La causa se debe a que el residuo resultante de aplicar los modelos tonal y de transitorios es una seal poco correlada con los posibles tomos utilizados, por lo que no es posible implementar un modelo basado en descomposiciones atmicas que contenga en unos pocos tomos la energa de la seal residual. Muy al contrario, si se aplica cualquier descomposicin atmica, el resultado ser la dispersin de la energa en muchos tomos, cualquiera que sea el diccionario utilizado, ya que el residuo es el resultado de tratar la seal de audio con una gran variedad de tomos tiempo-frecuencia. Sin embargo, si es posible implementar un modelo paramtrico para tratar el residuo. Este modelo parte de la falta de correlacin de la seal con cualquier diccionario, por lo que la seal residual tiene caractersticas estocsticas, es decir, tiene propiedades similares a una fuente de ruido blanco ltrada. As pues, el modelo que se utiliza normalmente para parametrizar la seal residual se conoce como modelo de ruido, puesto que realiza esta suposicin sobre la seal residual. En general, un modelo de ruido no parametriza la forma de onda de la seal, sino que simplemente extrae las envolventes de energa en frecuencia y tiempo como parmetros del modelo. En el decodicador, se genera ruido blanco que se ltra, a partir de la informacin de las envolventes, de forma que se obtenga la forma del residuo inicial en tiempo y frecuencia. A continuacin, se describen los procedimientos de parametrizacin de ruido extrados de la bibliografa, para hacer una comparacin entre ellos y determinar los ms validos para el propsito de esta tesis. Adems, en este tema se tratarn otros aspectos relacionados con el modelo de ruido, como es la difcil separacin entre tonos y ruido en un codicador paramtrico de audio.
7.1.
El equilibrio imperfecto entre tonos y ruido
En los segmentos estacionarios de la seal de audio, la clave para obtener un modelo paramtrico que represente de forma satisfactoria la seal es la correcta separacin entre tonos y ruido, es decir, la obtencin de un equilibrio entre las partes determinstica y estocstica de la seal. Idealmente, la parte sinusoidal abarca las componentes tonales del sonido, mientras que el ruido se ocupa de la parte estocstica. Por ejemplo, para el sonido de una auta, la parte tonal es bien representada por tonos, mientras que el sonido que produce el aire se puede modelar como ruido. 171
172
CAPTULO 7. MODELADO DE RUIDO
Una separacin incorrecta de las partes determinstica y estocstica conduce a problemas tanto de calidad como de eciencia en el modelo. Por un lado, si la parte sinusoidal no extrae todas las componentes tonales, stas se modelarn como ruido. Como resultado, se producirn artefactos en el modelado, porque el modelo de ruido no es apto para generar seales tonales. Por otro lado, si el modelo tonal extrae ms componentes que las propiamente tonales, se estar modelando ruido mediante tonos. La consecuencia ser un rgimen binario de codicacin excesivamente elevado, as como la aparicin de pitidos audibles en la seal proveniente del modelo tonal. En la literatura aparecen un sinfn de enfoques para la solucin de este problema [Thomson82] [Peeters98] [Levine99] aunque los dos ms recientes [Schijndel03] [Myburg04] proponen soluciones encontradas. Es prctica habitual el empleo de informacin perceptual para la discriminacin entre tonos y ruido, aunque las medidas de energa tambin son utilizadas. En [Schijndel03] aparece un mecanismo de fcil implementacin para la separacin entre tonos y ruido. Este enfoque se basa en dos herramientas principales: Primero, se aplica el modelo tonal sobre el segmento actual de la seal original. Esta extraccin tonal se detiene en base a un criterio de parada perceptual. Este criterio se dene para extraer en este paso todos los tonos perceptualmente importantes presentes en la seal, es decir, se detiene la extraccin tonal cuando no quedan en la seal residual tonos perceptualmente signicativos. Estos tonos son codicados para su envo al receptor. A continuacin, sobre el residuo resultante del primer modelo tonal se aplica un segundo modelo tonal. En este caso, se extraen tonos hasta alcanzar un valor de compromiso basado en medidas de energa. Este valor de compromiso se dene de forma que se siguen extrayendo tonos hasta que la energa extrada por un tono est por debajo de un umbral. La idea es extraer tonos hasta que la seal residual est poco correlada con todos los tonos a diferente frecuencia. De esta forma, se supone que el residuo no tiene ya componentes tonales y est formado slo por la parte estocstica de la seal. Los tonos extrados por el segundo modelo tonal son descartados directamente, ya que son tonos enmascarados. El residuo resultante se pasa al modelo de ruido. Aunque parezca que de esta forma se evitan todos los problemas comentados al principio de este apartado, ya que slo se modelan tonos perceptualmente importantes y ruido de naturaleza estocstica, las imperfecciones del modelo paramtrico hacen que este enfoque no obtenga los mejores resultados en calidad perceptual al codicar la seal. As, en [Myburg04] se cita que la seal de audio, an en segmentos estacionarios, est formada por tonos, ruido y una mezcla de ambos. Teniendo en cuenta esta situacin, la divisin del modelo entre tonos y ruido es demasiado simplista, haciendo difcil un equilibrio entre ambos. Segn [Serra97], convertir el residuo en una seal estocstica simplica enormemente su naturaleza, implicando que la componente determinstica tenga que modelar todo lo que no sea estocstico. Se puede ver la distincin entre tonos y ruido como un proceso continuo, es decir, los tonos ms importantes de la seal sern tonos puros, mientras que la seal tambin tendr, en su caso, componentes de ruido estocstico. De un extremo a otro, los tonos se irn degradando, de forma que en el centro hay una regin de ambigedad donde se produce una transicin entre tonos y ruido. Sin embargo, el modelo paramtrico asume una frontera clara entre ambas componentes, por lo que una separacin
7.1. EL EQUILIBRIO IMPERFECTO ENTRE TONOS Y RUIDO

Optimal model boundary (unknown) snoise noise Tonal - noise transition (a)
173
ssinusoid tones
Figura 7.1: La seal estacionaria de audio est formada por tonos, ruido y una mezcla de ambos. La
frontera ptima entre tonos y ruido en un modelo de seal determinstica ms estocstica se desconoce a priori [Myburg04].
perfecta es imposible de alcanzar. La solucin propuesta en [Myburg04] consiste en evitar que el modelo paramtrico descarte parte alguna de la seal de entrada. De esta forma, el codicador simplemente tendr que decidir la frontera ptima de separacin entre tonos y ruido, que es donde la seal modelada obtiene la mejor calidad perceptual a un reducido rgimen binario. En la gura 7.1 se muestra grcamente esta propuesta. Las causas de esta solucin son varias, aunque la principal es que la eliminacin de la parte central de la seal en la gura, que se propone en [Schijndel03], no conduce a la mejor calidad perceptual, ya que la seal que se descarta puede tener en su conjunto importancia perceptual. Adems, la solucin de la gura es muy til en codicacin escalable, puesto que si se mueve la frontera de separacin a la izquierda se extraen menos tonos y el rgimen binario disminuye progresivamente, as como la calidad perceptual. Durante las pruebas realizadas en la denicin del codicador paramtrico que se propone en esta tesis doctoral, se han implementado ambos enfoques. Los resultados dan la razn a la propuesta de [Myburg04] por los problemas que aparecen si se eliminan los tonos enmascarados del modelo paramtrico. As, al implementar la solucin propuesta en [Schijndel03], se encontraron los siguientes problemas: Se encuentran frecuentes pitidos en la seal codicada, principalmente en zonas con predominio de la componente ruidosa en la seal original. La causa de este efecto indeseado est en la extraccin de tonos cuando la seal es de naturaleza ruidosa. Como se observa en la gura 5.16 del modelo sinusoidal, cuando el ruido es importante, se pueden extraer tonos donde hay ruido en la seal, incluso usando PMP como medida perceptual. Si, adems, se elimina con el segundo modelo tonal gran parte de la energa de la banda donde se extrajo el tono errneamente, se produce un pitido en la seal codicada. La seal se escucha ltrada y de alguna forma no natural en algunos momentos. Este es el efecto perceptual de descartar los tonos no audibles. Si los tonos no audibles eliminados se suman a la seal codicada nal, este efecto perceptual desaparece. Es preciso notar que los resultados son muy variables de unas seales a otras en funcin del umbral de energa escogido. No se ha podido encontrar un umbral vlido para todas las seales de prueba, ya que el umbral que funciona de forma aceptable para unas seales no es apto para otras y viceversa. Cuando se han realizado las pruebas con la propuesta de [Myburg04], el primer problema que ha surgido es de implementacin. Como aparece en la gura 7.1, debe haber una frontera
174
ideal para la separacin entre tonos y ruido. Esta frontera slo se puede conocer a posteriori, es decir, cuando se evalan los resultados entre varias seales codicadas con diferentes fronteras de separacin. Como primera aproximacin, se puede establecer la frontera en el punto en que todos los tonos perceptualmente importantes son modelados por el modelo tonal. Esto es lo mismo que poner la frontera (a la izquierda en la gura) en un punto donde el rgimen binario nal es bastante reducido. Si se extraen (y codican) ms tonos de los perceptualmente importantes el rgimen binario crecer y, es de esperar, que la calidad de la seal codicada mejore. Sin embargo, la calidad perceptual crecer hasta el momento en el que se empiece a modelar en las zonas ruidosas de la seal el residuo con muchos tonos. En ese momento, se producirn pitidos en la seal codicada. En las pruebas realizadas, se ha usado como criterio extraer y codicar slo los tonos perceptualmente signicativos, de forma que se codica como ruido el resto del residuo. Los artefactos ms comunes encontrados mediante esta aproximacin son: La seal codicada se escucha ruidosa en algunos segmentos. Concretamente, se escucha ruidosa cuando los tonos presentes en la seal no son tonos muy puros. Esto sucede en las seales vocales de naturaleza sonora, y en instrumentos musicales cuando se est cambiando entre una nota musical y otra (sobre todo en la trompeta). En estos casos, el modelo sinusoidal extrae pocos tonos, dejando un residuo con parte deteminstica al modelo de ruido. Para algunas seales, como las vocales, se diferencian claramente como dos fuentes independientes la parte tonal y la ruidosa. Este efecto es muy comn en segmentos sonoros de la seal vocal, puesto que en estos casos el residuo tiene una gran parte determinstica. Cuando se modela como ruido este residuo, el odo interpreta la parte ruidosa como de naturaleza independiente a la vocal, pareciendo, de alguna manera, que se escucha la seal original ltrada ms un eco ruidoso. Estos artefactos, sin embargo, tienen menor importancia que los encontrados en el enfoque que elimina los tonos no audibles. Esta armacin se realiza basndose en que estos defectos aparecen principalmente para seales vocales y que se pueden minimizar extrayendo (y codicando) ms tonos (de los perceptualmente importantes) en el codicador. Sin embargo, esta estrategia no se va a seguir en la denicin del codicador propuesto porque conduce a un rgimen binario mayor y afecta (principalmente) a seales vocales. Para estas seales, ningn codicador paramtrico consigue mejor calidad que los vocoders ms usuales. Como conclusin, los codicadores paramtricos, basados en la descomposicin en un mismo segmento de seal estacionaria de tonos y ruido, se deben utilizar en aplicaciones donde la seal sea una seal musical. Como futura lnea de investigacin, se propone la variacin del modelo de ruido para incluir en la generacin del mismo, aparte de ruido blanco, la posibilidad de generar ruido multipulso [Ding97]. Con esta opcin, se podr modelar de forma ms satisfactoria el residuo cuando ste posee una parte determinstica proveniente de tonos no eliminados en la seal. El difcil equilibrio entre tonos y ruido es an ms crtico que en el caso de segmentos transitorios de seal de audio. En este caso, los criterios perceptuales no son viables, ya que el umbral de enmascaramiento no es vlido en segmentos no estacionarios de seal. As pues, cuando se modela un transitorio, la frontera entre el modelado de transitorios (junto con tonos) y el modelado de ruido es, inevitablemente, una frontera basada en energa. En este caso, conforme ms
7.2. PARMETROS DE LA ENERGA DEL RESIDUO EN FRECUENCIA
175
generador de ruido blanco
Lineal Variante en el tiempo Ruido hk(f) sinttico
Figura 7.2: Generador de ruido sinttico. energa extraiga el modelo de transitorios, mayor ser el rgimen binario de la seal resultante y menor el pre-eco producido por la dispersin inherente al modelo de ruido. Esta dispersin se reere a la falta de denicin temporal del modelo de ruido. An cuando se incluyen como parmetros la envolvente temporal del residuo, esta envolvente, aunque introduce mejoras, es insuciente para evitar pre-ecos en la seal codicada. En el codicador propuesto se utilizar un valor de compromiso que haga prcticamente inaudible el efecto de pre-eco. Esto es posible, incluso a bajo rgimen binario, porque los segmentos transitorios son muy escasos en la seal de audio y el rgimen binario que necesitan es, por lo tanto, slo una pequea parte del global.
7.2.
Parmetros de la energa del residuo en frecuencia
En general, el modelo de ruido es un modelo de una fuente estocstica que se obtiene mediante ltrado. Por eso, la primera herramienta usada para el modelo de ruido fue la codicacin mediante prediccin lineal (LPC). En un modelo de este tipo, el codicador extrae mediante LPC los coecientes de un ltro todo polos. Estos parmetros informan de la envolvente de la energa del residuo en frecuencia. En el decodicador se genera ruido blanco, que se ltra con los coecientes del LPC obtenidos en codicacin, resultando un ruido sinttico con una envolvente en frecuencia similar al residuo original. Este modelo tan sencillo es, en realidad, un ltro variante en el tiempo que colorea una fuente de ruido blanco. Se dice que es variante en el tiempo porque los parmetros de la envolvente en frecuencia varan de una trama a otra de ruido. Con esta estructura, sin embargo, hay una gran cantidad de opciones de implementacin, aunque en todas ellas los parmetros extrados describen la forma variante en el tiempo de la energa en frecuencia del residuo. As pues, el modelo del ruido en frecuencia se basa en un esquema similar al de la gura 7.2. Sin embargo, la forma de implementar este ltro variante en el tiempo es diferente en cada aproximacin tomada de la bibliografa. En general, dos estrategias radicalmente distintas se han impuesto en codicacin paramtrica de audio. Por un lado, se tienen los bancos de ltros ERB, fcilmente implementables mediante la STFT, y por otro lado, las estrategias de warped-LPC, que son una simple modicacin de los ltros LPC para obtener un espectro logartmico en frecuencia. Es preciso tener en cuenta en el anlisis del ruido en frecuencia que el residuo, an teniendo en principio que estar compuesto slo de la parte estocstica de la seal de audio, en realidad contiene una parte determinstica, como sucede con los tonos no audibles en el caso del codicador propuesto en esta tesis. Por lo tanto, se explicarn detalladamente ambas estrategias y se implementarn para comprobar con cul de ellas se obtiene una mejor calidad perceptual al sintetizar el ruido.
176
7.2.1.
Bancos de ltros ERB
Un banco de ltros basado en criterios perceptuales fue introducido en [Goodwin96]. La idea de este banco de ltros es que el ancho de banda de cada ltro estuviera relacionado de alguna manera con las bandas crticas. Esto es as porque en algunas pruebas con seales ruidosas [Zwicker90] se ha estimado que el odo slo es capaz de determinar la potencia de ruido en cada banda crtica. Esto quiere decir que si dos ruidos diferentes estn connados en frecuencia en una determinada banda crtica y tienen la misma potencia son indistinguibles. Este resultado se deriva de pruebas psicoacsticas con seales ruidosas de banda estrecha. Si un ruido de banda estrecha, con un ancho de banda menor que una banda crtica, aumenta su ancho de banda (manteniendo constante su potencia) no se nota diferencia alguna hasta que el ancho de banda en cuestin excede el de la banda crtica. A partir de estas pruebas, se deriva que la forma espectral del ruido no es tan crucial como que se mantenga la energa en cada banda crtica. Estas pruebas con ruido sirvieron para medir el ancho de banda de las bandas crticas en funcin de la frecuencia central del ruido. El resultado fue que el ancho de banda de cada banda crtica es de alrededor de 500 Hz para las bajas frecuencias, creciendo linealmente este valor con la frecuencia. Este resultado conrmaba la idea de que el ltrado que realiza el sistema auditivo es propio de un banco de ltros de Q constante (en medias y altas frecuencias). Resultados experimentales ms actuales sugieren que el ancho de banda de las bandas crticas de baja frecuencia est relacionado de forma cuadrtica con la frecuencia central [Moore83]. Las expresiones de estos anchos de banda de equivalencia rectangular (ERB, Equivalent Rectangular Bandwidth ) para los ltros auditivos dieren, por tanto, algo de la teora clsica de las bandas crticas, aunque en la prctica son muy similares. Realmente, no es fundamental realizar un banco de ltros variante en el tiempo para el ruido con una respuesta exacta al valor de los ltros auditivos, puesto que el ruido es una seal que por denicin ocupa un gran ancho de banda y, por tanto, varios ltros del banco de ltros auditivos. Teniendo en cuenta la teora de percepcin del ruido, en [Goodwin96] se propone introducir un banco de ltros con anchos de banda ERB (Equivalent Rectangular Bandwidth ). Una explicacin detallada de los bancos de ltros ERB se encuentra en [Goodwin97]. A continuacin, slo se realiza una breve exposicin sobre ellos. Un banco de ltros ERB se ajusta a la idea de un ltro variante en el tiempo, aunque su implementacin puede ser muy diversa. Una primera aproximacin, tomada en [Goodwin97], es realizar un banco de ltros FIR cuyas respuestas mantengan el principio de ERB entre las bandas. En una estrategia de este tipo, en el codicador se hace pasar la seal residuo por este banco de ltros, obteniendo a su salida la energa en cada banda y en cada trama de ruido. En el decodicador basta con generar ruido blanco, ltrarlo con el banco de ltros ERB modicando la energa en cada banda por la energa enviada por el codicador e implementar los ltros de sntesis. Otro mtodo de implementacin de un banco de ltros ERB es mediante la STFT [Verma99]. La idea es utilizar las mismas herramientas matemticas que usa el modelo sinusoidal. Aunque, a decir verdad, no se puede integrar en el decodicador ambos modelos, es decir, no se puede realizar slo una transformada de Fourier inversa por trama porque ambos modelos tienen diferente tamaos de trama o nmero de muestras de las DFTs. En frecuencia, el modelo de ruido ERB es una herramienta de anlisis/sintsis. En anlisis, se estima en frecuencia la energa en cada banda ERB. Durante la sntesis, la energa de cada banda se controla fcilmente en frecuencia. El anlisis basado en STFT calcula la energa dividiendo la transformada de cada trama en b bandas segn el modelo
7.2. PARMETROS DE LA ENERGA DEL RESIDUO EN FRECUENCIA ERB. Para la trama t, la energa de cada banda se calcula de la forma:
t = Eb
177
1 M
kb
|X t [k ]|2
(7.1)
t es la energa de la banda ERB b en la trama t, son las muestras de la DFT donde Eb b que pertenecen a la banda ERB b y X t [k ] es la muestra k de la DFT de M muestras de la seal residual en la trama t. Estos parmetros de energa se pueden utilizar en el decodicador mediante un simple mecanismo de solapamiento (que suele haberlo entre tramas) y suma. Una nota importante es que el cambio del nmero de bandas ERB es muy sencillo en frecuencia, bastando con conocer las muestras que cada banda engloba. Sin embargo, esta modicacin necesita cambiar el banco de ltros con un enfoque de ltros FIR. Se puede decir que mediante la tcnica ERB el espectro de magnitud para sintetizar el ruido es un espectro lineal a trozos, ya que lo que hace el banco de ltros basado en STFT es modicar la varianza del ruido blanco (que lo es en parte real e imaginaria) a una varianza constante cada banda ERB. Aunque pueda parecer simplista esta aproximacin del espectro, est basada en principios perceptuales y los buenos resultados obtenidos se emplean en algunos codicadores paramtricos de audio [Levine98] [Verma99].
7.2.2.
Filtros basados en warped-LPC
El uso de coecientes LPC que implementan un ltro IIR todo polos (P polos), mediante la prediccin de una muestra a partir de P muestras de entrada, fue usado por primera vez en codicacin de audio en [Serra89]. Realizando esta extraccin de coecientes en tiempo corto, es decir en una trama de anlisis pequea, se puede conseguir el ltrado variante en el tiempo que caracteriza el modelo de ruido. Para evitar problemas de inestabilidad en la cuanticacin de los polos, se suelen utilizar los coecientes de la estructura en celdas (lattice ) [Markel76], vericando el test de estabilidad de Schr-Cohn. Adems, se ha llegado a utilizar una excitacin multipulso [Ding97] para conseguir mayor delidad cuando el residuo tiene una frecuencia fundamental (pitch ) denida. Sin embargo, los coecientes del ltro LPC se calculan minimizando la energa del error entre el ruido sinttico generado y el residuo actual, de ah el enfoque de prediccin lineal. Esa minimizacin de la energa no est adaptada a la percepcin del odo humano, ya que ste tiene una precisin logartmica en la frecuencia. Adems de este factor, la diferencia perceptual entre residuo y ruido sinttico es funcin de la mscara actual. En relacin al carcter logartmico de la percepcin en frecuencia, parece ms lgico modelar con ms detalle el espectro de baja frecuencia, donde hay muchas bandas crticas, que el de alta frecuencia. Con esta nalidad surgi la variacin conocida como warped-LPC [Strube80]. En general, esta tcnica sirve para incrementar la resolucin del ltro todo polos en una cierta zona de frecuencia, a expensas de la resolucin en el resto de la frecuencia. En este sentido, en lo que a codicacin de audio se reere, se pueden conseguir resoluciones en frecuencia similares a las obtenidas por algunas escalas con carcter logartmico, como la escala de Bark o las bandas crticas, mediante una transformacin bilineal de la transformada z [Smith95] de los ltros todo polos. Se han realizado en la bibliografa implementaciones a partir de estructuras de ltros conocidas [Harma00b] [Brinker03]. Este tipo de ltros basados en warped-LPC son los ms utilizados en codicacin paramtrica de audio, siendo su exponente ms destacado el codicador estandarizado PPC (Philips Parametric Coder ).
178
z
- 1
H +
- 1
Figura 7.3: Bloque a sustituir por cada retardo unidad para obtener ltros warped. La transformacin de escala en frecuencia a banda de Bark es un problema superado [Smith99] [Harma00a]. Generalmente, un banco de ltros con anchos de banda uniformes en frecuencia se puede convertir en un banco de ltros con anchos de banda uniformes en banda de Bark (y por tanto logartmico en frecuencia) mediante una transformacin paso todo, usando una relacin bilineal denida por la siguiente sustitucin en el dominio z : z = A ( ) + 1 + (7.2)
con la que se convierte el crculo unidad en el plano z en otro crculo unidad en el plano tal que, para 0 < < 1, las bajas frecuencias se estiran y las altas se comprimen, en la misma forma que lo hace una transformacin de frecuencia a escala de Bark. El valor del parmetro depende de la frecuencia de muestreo de la seal original [Smith99]. Si se aplica la expresin (7.2) con = 0, 756 (y frecuencia de muestreo de entrada de 44, 1KHz ) en un ltro, la escala obtenida es muy similar a la escala de Bark [Harma00a]. Para hacerse una idea del cambio de escala que se obtiene, la escala de Bark se puede aproximar a partir de las posiciones en frecuencia como [Zwicker99]: b = 13arctan(0,76f (KHz )) + 3,5arctan( f (KHz ) 2 ) 7,5 (7.3)
Un banco de ltros warped se puede obtener de forma inmediata a partir de un banco de ltros uniforme sustituyendo cada retardo unidad de la estructura del ltro por un bloque de primer orden paso todo que realiza la transformacin bilineal de la expresin (7.2). Este bloque se obtiene escribiendo en funcin de z de la forma [Harma00a]: 1 = z 1 1 z 1 (7.4)
Segn la expresin (7.4), el bloque se puede implementar mediante una sola multiplicacin con la estructura que aparece en la gura 7.3. Este bloque realmente modica la fase, y por tanto el retardo, para realizar el cambio de escala. Esta tcnica, presentada en [Harma00b], permite implementar un banco de ltros warped sin cambiar los coecientes ni la estructura del ltro origen, slo se sustituyen los retardos unidad por el bloque paso todo. La inclusin de este bloque provoca un cambio de la fase con respecto al retardo unidad que permite procesar ms lentamente las bajas frecuencias y ms rpidamente las altas frecuencias. Para entender el funcionamiento de la transformacin bilineal, es necesario poner un ejemplo. Los tres tonos de la gura 7.4 se introducen en una cadena de 1000 bloques de primer orden paso todo con = 0, 723.
179
Figura 7.4: Tres tonos en tiempo y frecuencia antes de realizar un procesado warped [Harma00a].
La seal de salida despus de procesar 1000 muestras se dibuja en la gura 7.5. Comparando ambas guras, se observa como los tonos se propagan a diferente velocidad por la cadena de bloques paso todo, provocando as el cambio de escala esperado a la salida. Se puede interpretar este cambio de escala como el re-muestreo de la seal de salida en funcin de la frecuencia, que al n y al cabo es la base del cambio de escala pretendido. En cuanto a implementacin, se puede realizar un enfoque basado en DFT modicada logartmicamente o warped -DFT, como en el caso del banco de ltros ERB. Sin embargo, es ms comn emplear un enfoque de prediccin lineal donde el codicador soluciona la matriz de autocorrelacin, teniendo en cuenta en el sistema el cambio del retardo unidad por el bloque paso todo [Harma00a]. Este software est disponible como una librera de MATLAB llamada warpTB en la direccin: "http://www.acoustics.hut./software/warp/ ". Una vez calculados los coecientes del ltro, parece lgico convertirlos a los coecientes de la estructura en celdas mediante el algoritmo de Schr, porque de esta forma se evitan inestabilidades en el proceso de cuanticacin. stos valores son los enviados al receptor, que puede, bien usar la estructura en celdas, o bien obtener de nuevo los coecientes de la estructura directa. Es interesante observar la forma de la envolvente del espectro obtenida por un modelo warped -LPC. En este sentido, en la gura 7.6 se representa la aproximacin del espectro que realiza tanto un modelo lpc y otro warped -lpc con 40 polos. En primer lugar, se dibuja la frecuencia en escala lineal. En esta parte slo se reeja que la versin warped tiene una mayor denicin en bajas frecuencias. Sin embargo, la diferencia se aprecia en la segunda parte de la grca, donde se representa la frecuencia en escala logartmica. Se observa ahora como la versin warped tiene una buena denicin en bajas frecuencias a costa de la denicin en altas frecuencias, de ah que modele muy bien la energa en baja frecuencia. Es importante tener en cuenta que sta es la escala empleada por el odo humano para la percepcin de sonidos. Se puede admitir que para el sistema auditivo el error es ms grave en funcin de las bandas crticas que ocupa (adems de su amplitud), no a partir de la distancia en frecuencia lineal. Bajo esta premisa, en[Harma00a] se arma que el modelo warped -lpc minimiza el error
180
Figura 7.5: Tres tonos en tiempo y frecuencia tras realizar un procesado warped por una cadena de 1000
bloques paso todo [Harma00a].
en la escala que escucha el odo. Una cuestin no abordada hasta ahora es la determinacin del nmero de polos necesarios en un sistema warped -lpc. Para este n, se puede utilizar la ganancia de prediccin [Markel76] como valor para decidir en el codicador qu orden es necesario para modelar el residuo. La ganancia de prediccin asociada a un polo indica la importancia de este polo en la minimizacin del error. Cuanto ms grande es la ganancia, mayor ser la disminucin del error de prediccin. Adems, es posible calcular la ganancia de prediccin directamente a partir de los coecientes de la estructura en celdas. Usando la ganancia de prediccin para un modelo warped -lpc, se determina el nmero de polos usando un criterio perceptual, ya que se extraen los polos que minimizan el error en banda de Bark (o logartmica) hasta un determinado umbral.
7.2.3.
Comparacin de resultados
A continuacin, se van a realizar unas pruebas subjetivas para realizar una comparacin entre mtodos de modelado de ruido que siguen principios perceptuales. En principio, tanto un banco de ltros ERB como un modelo warped -LPC utilizan el mismo principio perceptual, el odo escucha en una escala logartmica en frecuencia. Tambin ambos mtodos has sido utilizados en diferentes codicadores paramtricos de audio. En cuanto a implementacin, quizs el banco de ltros ERB mediante FFT es el mtodo menos complejo, aunque el warped -LPC tambin tiene una complejidad reducida [Harma00a]. Desde el punto de vista de codicacin, ambos mtodos pueden utilizar herramientas con base psicoacstica para limitar el rgimen binario. Para el caso del banco de ltros ERB, la energa de una determinada banda se puede no enviar o cuanticar con un nmero de bits variable en funcin de la mscara de ruido actual. Para el caso warped LPC, la ganancia de prediccin es el valor umbral a utilizar para decidir cuntos polos debe enviar el codicador. As pues, slo falta conocer cul de los mtodos consigue un modelo de ruido que ofrezca mayor calidad con las herramientas de codicacin de audio propuestas en esta
181
Figura 7.6: Espectro de una seal musical de clarinete y espectro estimado por modelos LPC y warpedLPC de orden 40. (a) Frecuencia lineal, (b) frecuencia logartmica [Harma00a].
182
2.5
1.5
0.5
10
Figura 7.7: Espectro del residuo de una seal vocal sorda (abajo), la envolvente de energa mediante
warped-LPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba).
tesis. Para ello, se realizar una prueba subjetiva y se analizarn los resultados. En primer trmino, se va a comparar grcamente la envolvente de energa en frecuencia que obtienen ambos modelos de ruido para el caso de algunos segmentos particulares. En la gura 7.7 se dibuja el residuo que queda tras aplicar el modelo tonal extrayendo slo los tonos perceptualmente importantes a un segmento sordo de seal de voz. En este caso, el residuo no tiene un pitch denido, aunque s una forma en frecuencia que dista mucho de ser la de ruido blanco. El modelo con warped -LPC obtiene una forma ms exacta en bajas frecuencias, ya que se puede apreciar cmo modela la poca energa que hay en baja frecuencia y, sin embargo, modela de forma ms burda la mayor energa de alta frecuencia. En su caso, el modelo basado en ERB tiene anchos de banda mayores para las altas frecuencias. Con este residuo, no se puede apreciar, a priori, qu modelo obtendr mejores resultados perceptuales. El siguiente paso es ver los resultados del residuo para una seal musical. En el caso de la gura 7.8, el residuo en un segmento de una seal de orquesta. Ahora, el residuo tiene un espectro ms coloreado an, puesto que en esta seal no hay una fuente de naturaleza ruidosa como en la voz sorda. As pues, el residuo est formado por los tonos no extrados por el modelo tonal. Se observa como el modelo warped -LPC obtiene una envolvente de energa que modela muy bien los tonos de baja frecuencia presentes en el residuo, siendo peor el modelo para las altas frecuencias. Sin embargo, en el caso del modelo basado en ERB, no se podrn sintetizar tonos bien denidos, lo que con seguridad repercutir en la calidad de la seal de ruido sinttico. Por ltimo, se trata el caso del residuo para un segmento de seal sonora de voz. La gura 7.9 representa este caso. Ahora, es claramente apreciable que el pitch de la seal sonora se maniesta en el residuo. El espectro est formado por un conjunto de tonos armnicos, aunque el modelo tonal haya extrado los tonos de baja frecuencia. Aunque el modelo warped -LPC intente modelar el tono ms importante en baja frecuencia, es incapaz de obtener una envolvente que recupere una seal con carcter armnico. Parece obvio que no se puede pedir este resultado a un modelo

3
183
2.5
1.5
0.5
10
Figura 7.8: Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante warpedLPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba).
de ruido. La envolvente del modelo ERB tampoco obtiene un resultado mejor. De las grcas expuestas, se puede llegar a la conclusin que, debido a que en el residuo hay en realidad una parte de seal tonal, cualquiera que sea el modelo empleado no podr obtener una seal similar en frecuencia al residuo. Sin embargo, si se tiene que decidir, a partir de las grcas, cul es el mejor modelo, todo parece indicar que el enfoque warped -LPC obtendr unos mejores resultados perceptuales, aunque esta armacin se vericar realizando un test subjetivo de comparacin de ambos modelos. El test subjetivo realizado se ha implementado extrayendo con el modelo tonal los tonos perceptualmente importantes. Tambin se ha usado, cuando ha sido necesario, el modelo de transitorios. El residuo obtenido se ha modelado con las dos versiones propuestas de modelos de ruido con caractersticas psicoacsticas. La seal evaluada se ha obtenido sumando a los tonos y transitorios sin cuanticar el ruido sinttico de cada modelo en cuestin. De esta forma, se consigue que slo los errores del modelo de ruido aparezcan en la sea evaluada. Los resultados de preferencia de la seal obtenida con ambos modelos aparecen en la tabla 7.1. En base a las opiniones de los 10 oyentes que han realizado el test, se puede considerar en general que el modelo warped -LPC se escucha menos ruidoso que el modelo ERB. En algunos casos, se escucha el efecto pre-eco ms intenso en el ruido obtenido mediante warped -LPC, lo que hace cambiar en algunos casos la tendencia general del test. Bsicamente, la explicacin a los resultados obtenidos hay que buscarla en la naturaleza poco ruidosa del residuo en algunas situaciones, lo que hace difcil la obtencin de una seal natural con un modelo de ruido. El modelo warped -LPC es ms robusto a esta situacin desfavorable. La minimizacin de estos problemas parece estar en el camino de introducir una excitacin multipulso en el modelo de ruido, cuando sea necesario [Ding97].
184
2.5
1.5
0.5
10
Figura 7.9: Espectro del residuo de una seal orquestal (abajo), la envolvente de energa mediante warpedLPC con 30 polos (medio) y un banco de ltros ERB mediante FFT con 30 bandas (arriba).
Tabla 7.1: Preferencia de los resultados del modelo de ruido WLPC sobre el modelo ERB basado en FFT
en %. Fichero Suzanne Vega Voz masculina en alemn Voz femenina en ingls Clavicordio Castauelas Diapasn Gaita Glockenspiel Punteos de guitarra Slo de trompeta Pieza orquestal Pop Preferencia ( %) 80 70 30 80 50 100 60 100 90 100 70 70
7.3. EL ESPECTRO PERCEPTUAL DEL RUIDO

C O D I F I C A D O R
185
e s i d
o 1 / H d e ( f ) e n m
s p r e s i d
e c t r o u o / m
e n
r e l a c i
n P M o d e l o W L P C
s c a r a
l o
e r c e p
t u
a l e s
( f ) :
r a l
a s c a r a m
i e n
t o
I F
I C
i d
l a n
c o F i l t r o W L P C
E r u
s p i d
e c t r o o / m
e n
r e l a c i
n R H ( f ) p
i d
c o t u
n a l
e s p
e c t r o
s c a r a
e r c e p
l o
e r c e p
t u
a l e s
Figura 7.10: Obtencin del modelo de ruido con un espectro pesado perceptualmente gracias al umbral de enmascaramiento presente tanto en el codicador como en el decodicador.
7.3.
El espectro perceptual del ruido
Una propuesta comentada por el Dr. Antonio Pena (profesor titular de universidad de la Universidad de Vigo) realizada durante la celebracin de la 118a convencin del AES en Barcelona (2005) es modelar la envolvente en frecuencia teniendo en cuenta el umbral de enmascaramiento de ruido. Esto es posible en el codicador propuesto en esta tesis, porque gracias al mtodo propuesto de cuanticacin de amplitudes de las frecuencias [Vera04b] se ha de calcular un sencillo umbral de enmascaramiento en el decodicador. Por lo tanto, es posible conocer el mismo umbral de enmascaramiento en codicacin y decodicacin, algo nico en un codicador paramtrico de audio. La idea es: antes de extraer los polos del WLPC, dividir en frecuencia la energa del residuo entre el umbral de enmascaramiento. De esta forma, el modelo de ruido no parametriza la envolvente del residuo, si no la envolvente de la relacin residuo-mscara. Gracias a este pre-ltrado del ruido, se dedicarn ms polos y, por lo tanto, se modelizar una envolvente ms ajustada a aquellas zonas de frecuencia donde la relacin residuo-mscara es mayor y viceversa. Como resultado esperado, se debe obtener un ruido con menor error perceptual (ya no de energa) con respecto al residuo original. Por tanto, esta es una forma de ajustar los polos del modelo de manera perceptual, y no por energa, como se hace de forma general. Si se dibuja un diagrama de bloques de las operaciones realizadas tanto en el codicador como en el decodicador para obtener este espectro perceptual de ruido, hay que incluir un ltrado cuya respuesta en frecuencia sea el umbral de enmascaramiento (o su inverso). En la gura 7.10 se muestran las operaciones realizadas para obtener un espectro perceptual de ruido. Como se observa en la gura, el uso del umbral de enmascaramiento se limita a una ecualizacin previa al clculo de los polos con el objetivo de que el modelo WLPC minimice la importancia perceptual (en lugar de la energa) en el clculo de los polos. Este cambio se deshace en el decodicador, donde se obtiene al nal un modelo WLPC pesado perceptualmente en lugar de por energa. Para comprobar la validez del mtodo propuesto, se analiza la seal de audio extrayendo transitorios y tonos e integrndolos en la seal de prueba intactos, mientras que el residuo
186
Tabla 7.2: Preferencia de los resultados del modelo de ruido WLPC pesado perceptualmente sobre el modelo WLPC tradicional pesado por energa en %. Fichero Preferencia ( %)
Suzanne Vega Voz masculina en alemn Voz femenina en ingls Clavicordio Castauelas Diapasn Gaita Glockenspiel Punteos de guitarra Slo de trompeta Pieza orquestal Pop 0 20 10 60 30 70 40 90 60 70 0 20
resultante es modelado mediante WLPC con y sin pesado perceptual. As pues, la seal de prueba se obtiene sumando los tonos y transitorios extrados sin cuanticar y el ruido modelado. En esta seal de prueba es obvio que slo se pueden apreciar los artefactos auditivos resultantes de la sustitucin del residuo original por el modelo de ruido sinttico. Los resultados obtenidos son basante interesantes y se muestran en la tabla 7.2. En esta tabla se presenta la preferencia de los 10 oyentes de la seal modelada con WLPC pesado perceptualmente sobre el pesado por energa. La preferencia de la seal de ruido modelada con WLPC pesado perceptualmente no es general para todas las seales, ni siquiera mayoritaria. A partir de las opiniones dadas por los oyentes que realizaron la prueba, se puede llegar a la conclusin de que el modelo de ruido perceptual es mejor para aquellas seales que se escuchan ruidosas con el modelo WLPC directo. Sin embargo, el otro artefacto presente en el ruido, la interpretacin del odo de la seal tonal como independiente de la seal ruidosa o efecto de eco, se amplica en el modelo de ruido perceptual. Esto hace incluso desagradable el modelo para ciertas seales, como las seales habladas y la seal de pieza orquestal. Quizs los resultados se vean mejorados por la generacin en el decodicador de ruido multipulso, en lugar de ruido blanco, de forma que se sinteticen algunas de las caractersticas originales del residuo, como por ejemplo la existencia de un pitch denido en las seales ms crticas. De cualquier forma, sta es una lnea futura de investigacin. Como artefacto adicional, las seales generadas a partir de ruido WLPC pesado perceptualmente se escuchan con menor riqueza en altas frecuencias. Este efecto de ltrado es determinante en la eleccin de la seal preferida, por ejemplo en el caso de la seal pop. Finalmente, en lo que a los propsitos de esta tesis se reere, se descarta el uso del modelo WLPC perceptual porque los resultados no son del todo satisfactorios e introduce una complejidad adicional en el decodicador. Esta ltima razn hace recomendable la solucin adoptada con el objetivo nal de conseguir una decodicacin en tiempo real.
7.4. LA ENVOLVENTE DEL RUIDO EN EL TIEMPO
187
7.4.
La envolvente del ruido en el tiempo
En los modelos de ruido de codicadores paramtricos de audio tambin se modela la envolvente de la energa en el tiempo en cada trama de ruido. Normalmente, la envolvente temporal del residuo se modela mediante la energa en tiempo corto, es decir, calculando la energa cada conjunto pequeo de muestras. El nico problema de diseo que hay que tener en cuenta es que la envolvente temporal debe estar adaptada a la resolucin temporal del sistema auditivo humano. As pues, es necesario determinar el tiempo mximo para actualizar la energa en tiempo corto. Este valor es muy variable segn los autores. En [Brinker02], se propone un valor de 8ms, mientras que en [Verma99] y [Purnhagen98] se admite un valor de 32ms. Las seales que limitan este valor son las seales vocales, que tienen un fuerte carcter no estacionario y, por tanto, necesitan una rpida actualizacin de la energa del residuo. Algunos experimentos [Myburg04] indican que la seal de voz codicada con un codicador paramtrico se escucha metlica incluso con valores de 10ms, alivindose este problema con 8ms. Con este valor, es necesario enviar la potencia de ruido cada 353 muestras para una frecuencia de muestreo de 44, 1KHz . Si se enva la potencia de ruido cada 8ms, el modelo obtenido est bastante limitado, porque no es posible obtener una potencia de ruido que vare de forma natural, sino que variar en intervalos rectangulares de bastantes muestras. Por esta circunstancia, en los codicadores paramtricos de audio, se suele enviar la energa en tiempos ms pequeos an, realizando un sub-tramado adicional para conseguir una envolvente de mejor calidad [Schijndel99]. Por ejemplo, en [Myburg04], se utiliza un valor de sub-trama de ruido de 1, 6ms. Sin embargo, cuando la seal a codicar es una seal de audio, muchas veces la envolvente de ruido tiene un carcter ms estacionario. Con este esquema de clculo de la envolvente se derrocha rgimen binario en algunas seales de audio para conseguir buena calidad en las seales vocales. Una estrategia de ahorro de bits se puede incluir en el clculo de la envolvente temporal de ruido. Esta herramienta debera decidir si una trama de seal tiene o no una envolvente signicativa y, en este caso, permitir el modelado en sub-tramas. Una forma alternativa de conseguir un buen modelo de la envolvente de ruido con un bajo rgimen binario de codicacin es utilizar un ltro predictor basado en LPC de la transformada de la seal de ruido. Esta idea se ha utilizado con xito en los codicadores de forma de onda para establecer una forma temporal apropiada al error de cuanticacin y evitar efectos de pre-ecos en partes transitorias de seal. Este esquema conocido como TNS (Temporal Noise Shaping ) ha sido usado con xito en MPEG-AAC. La base terica de este predictor se fundamenta en realizar la prediccin sobre las muestras de la FFT del ruido, consiguindose de esta forma un ltro LPC en frecuencia cuya respuesta temporal tiene la forma de la envolvente del residuo. Con un ltro LPC en frecuencia, es posible determinar si la envolvente de la seal es signicativa, a partir de la ganancia de prediccin de cada polo extrado. Usando un umbral para la ganancia de prediccin por encima del cual enviar los polos, se puede implementar un bloque que modele la envolvente slo en aquellos casos en que sea necesario. En la gura 7.11 se representa la envolvente con slo 3 polos del residuo para una seal sorda de voz. Se puede apreciar como se obtiene una envolvente con una forma suave, y no con la forma escalonada que se obtendra mediante la energa en tiempo corto. En el codicador propuesto en esta tesis se va a utilizar un ltro LPC en frecuencia para modelar la envolvente de residuo en el tiempo. Para la cuanticacin de los polos, se utilizarn
188
0.5
0.5
1
100
200
300
400 Muestras
500
600
700
Figura 7.11: Residuo para una seal de voz sorda y envolvente calculada con un ltro LPC en frecuencia
con 3 polos.
los coecientes de la estructura lattice con un doble objetivo: por un lado, evitar inestabilidades al cuanticar y, por otro, usar un valor mximo del cuanticador de polos a uno. El nmero de polos a enviar se determinar mediante la ganancia de prediccin de cada polo. De esta forma, se evita enviar una envolvente en aquellos casos donde no sea necesario. Usando un umbral sucientemente bajo, se puede conseguir una resolucin temporal suciente para satisfacer las exigencias del sistema auditivo.
Captulo 8
Codicador paramtrico propuesto

El objetivo principal de esta tesis es el diseo e implementacin de un codicador paramtrico de audio, a partir de las contribuciones realizadas en los diferentes modelos de seal revisados. Sin embargo, antes de empezar a justicar su estructura, es preciso dejar claros los principios que se han seguido en el diseo del codicador propuesto. El codicador paramtrico propuesto debe operar a bajo rgimen binario con la mejor calidad perceptual posible. Las posibles aplicaciones de este codicador son varias, aunque quizs la ms prometedora es su uso para streaming de audio por internet. Se ha diseado, por tanto, este codicador teniendo en cuenta que los datos codicados pueden ser enviados por una red de transmisin de paquetes (y no por un canal dedicado), lo que puede suponer la prdida de algn paquete completo en aplicaciones de tiempo real. As pues, la informacin que genera el codicador propuesto ser completamente independiente entre segmentos, lo que limita en cierta medida la capacidad de compresin. Por esta razn, no se usar codicacin diferencial intertrama, aunque s se puede usar codicacin diferencial intra-trama. Para comprender la limitacin que introduce este principio de diseo, se puede poner un ejemplo con las frecuencias de los tonos. En la mayora de los codicadores de audio, se utiliza el seguimiento de caminos tonales como una herramienta de codicacin. De esta forma, se consiguen reducciones de ms del 50 % en los bits dedicados a las frecuencias mediante el empleo de codicacin diferencial entre frecuencias que pertenecen al mismo camino tonal y que corresponden a tonos que se extienden durante varios segmentos [Levine98]. Otro motivo que induce al codicador propuesto a la codicacin independiente entre segmentos es la escalabilidad. La lnea de investigacin ms importante que se dibuja a partir de esta tesis doctoral es la implementacin de un codicador paramtrico escalable. Si este codicador escalable realiza una codicacin independiente entre segmentos, podr modicar instantneamente el rgimen binario sin ningn cambio en la codicacin de los parmetros. Como conclusin, en el codicador propuesto se evita cualquier estrategia de codicacin diferencial entre tramas, aunque se han intentado estrategias de codicacin intratrama. Otro principio de diseo derivado de la aplicacin de streaming es que el rgimen binario puede ser variable. Como el codicador propuesto no se disea para ser utilizado en un canal dedicado con un rgimen binario denido, se puede codicar la seal con un rgimen binario variable. Gracias a esta propiedad, se utilizar un mayor rgimen binario para aquellos segmentos de seal que lo necesiten. La complejidad de implementar un codicador de audio a rgimen binario 189
190
CAPTULO 8. CODIFICADOR PARAMTRICO PROPUESTO
variable es menor, ya que no se implementan estrategias de control del rgimen binario. Sin embargo, esto no quiere decir que se vaya a conseguir una calidad transparente. Los errores propios de los modelos paramtricos repercutirn en la seal de salida. Como ejemplo, es tpico escuchar en la seal codicada pitidos debido a tonos que se extraen en zonas de ruido o seales ruidosas por modelar como ruido partes tonales de la seal. Estos errores son inherentes al uso de modelos paramtricos e inevitables desde el punto de vista de cuanticacin.
8.1.
Estructura del codicador de audio propuesto
Como se ver a continuacin, un codicador paramtrico debe contener, adems de los modelos de seal, una serie de algoritmos de control para el procesado de la seal de audio. Estos algoritmos son bsicamente un bloque que realice la segmentacin de la seal de entrada y un detector de transitorios. La estructura del codicador de audio propuesto debe incluir otros algoritmos adicionales para el tratamiento del ruido. As, es normal en un codicador paramtrico enviar sub-tramas de ruido y usar un detector de micro-transitorios. Por lo tanto, las herramientas de control a denir son: Segmentacin. Para aprovechar al mximo los modelos de seal e incrementar la capacidad de compresin del codicador, es preciso denir un bloque que implemente la segmentacin de la seal de audio. El objetivo es separar en segmentos las partes estacionarias de la seal de audio. Por ejemplo, para el caso de la seal de voz, es muy interesante dejar en el mismo segmento la seal de un determinado fonema, cambiando rpidamente de segmento cuando ste se cambia. Lo mismo ocurre para otras seales de audio. En una seal musical, es recomendable tratar en el mismo segmento la misma nota y cambiar de segmento cuando sta se cambia. En principio, las partes transitorias de seal no es necesario separarlas en muchos segmentos pequeos, porque el modelo de transitorios extrae los cambios bruscos de seal evitando el pre-eco. Bsicamente, los segmentadores que aparecen en la bibliografa trabajan a partir de los cambios espectrales de la seal de entrada. En el apartado 8.2 se realiza una descripcin del segmentador implementado. Detector de transitorios. Para incluir o no el modelo de transitorios en la cadena de modelos de seal, es necesario implementar un detector que decida sobre esta cuestin. Los detectores de transitorios son herramientas sencillas basadas en comprobar fuertes incrementos de la energa de la seal de entrada. En el apartado 8.3 se realiza una breve descripcin del detector utilizado. Detector de micro-transitorios. Los micro-transitorios son pequeos golpes de algunos instrumentos presentes en la seal, pero que no contienen la mayor parte de la energa de la misma. La seal de la gura 6.13 es un claro ejemplo de micro-transitorio. Estos microtransitorios no son detectados por las herramientas tpicas de deteccin de transitorios basadas en energa. La nica forma de que no se modelen como ruido es analizar el residuo del modelo tonal para comprobar si tiene algn cambio brusco de energa [Levine98]. Si hay un micro-transitorio, se aplica un modelo de transitorios para modelar esta seal. Segmentacin de sub-tramas para el ruido. El segmento o trama de audio usada en los codicadores paramtricos es demasiado grande generalmente para usarla en el modelo de
8.1. ESTRUCTURA DEL CODIFICADOR DE AUDIO PROPUESTO

s e a l d e a u d i o
191
e t r a
t e n s
t o i t o
r r i o
d s
t r a
i t o
r i o
t a S e g m e n t a c i n
t o
s M t r a n s o i t o d e r i o l o s y d e t o n a l
t o
t a
i o
r i o
i o t o n o s y w a v e l e t s
l o
t o
t o
D m i c
e r o
t e t r a
c n
t o s
d i t o
e r i o s
i c
r o
t r a
i t o
r i o
M m i c r o
d t r a
e n
l o s
d i t o
e r i o s
l e
t s
r e
i d
g d
m e
n r u
t a i d
c o
t a
- t r a
r u
i d
- t r a
r e
i d
d r u
e i d
l o o
l v
t e
r u
i d
f r e
t i e
Figura 8.1: Estructura del codicador paramtrico propuesto. ruido. Es comn, por lo tanto, realizar una segmentacin adicional del ruido [Verma99] [Myburg04], aunque parece lgico no poner un tamao de trama jo y lo sucientemente pequeo como para modelar bien todos los posibles residuo. La solucin propuesta se basa se realizar un segmentador de ruido que divida el residuo en tramas de tamao variable donde se agrupe el residuo con propiedades estacionarias. Con estas herramientas de control (cuya implementacin se comentar posteriormente) y con los modelos de seal descritos hasta ahora, se puede implementar un codicador completamente paramtrico de audio con unos resultados prometedores. La estructura del codicador paramtrico de audio propuesto se representa en la gura 8.1. Como se observa, adems de las herramientas de control nombradas arriba, se han introducido los modelos de seal para tonos, transitorios y ruido. Analizando la gura, se pueden dar tres circunstancias de funcionamiento:
t r o
192
1. Segmento transitorio. En este caso, se activa el detector de transitorios pasando la seal por el modelo conjunto que extrae tonos y transitorios. El residuo producido se pasa directamente al segmentador de ruido. 2. Segmento estacionario. En este caso, se aplican en serie el segmentador para decidir el tamao del segmento estacionario y el modelo tonal en dicho tamao de segmento. En ausencia de micro-transitorios, el residuo del modelo tonal se modelar como ruido. 3. Segmento con micro-transitorio. Si en un segmento estacionario, tras el modelo tonal, se detecta un micro-transitorio, se aplica un modelo de transitorios a la seal residual del modelo tonal. El residuo nal se pasa al modelo de ruido. Tras analizar las tres clases de segmentos, se comprueba que, aunque en la gura 8.1 haya tres ramas que conuyan en el segmentador de ruido, slo una de ellas est activa a la vez. Por lo tanto, slo hay un residuo para ser modelado por segmento. En relacin a las herramientas utilizadas en cada uno de los bloques, se tiene la siguiente descripcin: Modelo de transitorios y tonal. Se ha implementado el algoritmo matching pursuits con un diccionario mixto de funciones wavelet-packets y exponenciales complejas. En este diccionario se han utilizado L = 4097 frecuencias y una descomposicin wavelet-packets de profundidad P = 4 con ltros de 32 coecientes de la familia ortonormal de Daubechies. El algoritmo matching pursuits se detiene cuando un tomo extrae menos del 1, 75 % de la energa del residuo en esa iteracin. Este valor, elegido de forma heurstica, se escoge para que el residuo tenga caractersticas ruidosas y no conserve transitorios de seal que provoquen errores de modelado. El tamao de la longitud de la trama se tratar posteriormente en el apartado 8.2. Modelo tonal. Se usa aqu Perceptual Matching Pursuits con criterio de parada perceptual. El nmero de frecuencias es de L = 4097 y se detiene el algoritmo cuando se han extrado todos los tonos perceptualmente importantes. El nmero de frecuencias se elige para obtener una buena discriminacin en frecuencia, mayor que el JND para casi toda la frecuencia. La mscara necesaria para evaluar la importancia perceptual de cada tono se calcula con el modelo de enmascaramiento 2 de MPEG [MPEG92], modicado para calcular la mscara sobre los tonos, sin incluir el efecto tono sobre tono. As, se obtiene la mscara de ruido sobre tono ms umbral de silencio necesaria en PMP. En cuanto al enventanado, se trabajar con ventana rectangular en anlisis y trapezoidal en sntesis (para suavizar la transicin entre tramas). Por lo tanto, en el codicador propuesto no habr solapamiento entre segmentos en anlisis, aunque, debido a la ventana trapezoidal en sntesis, s que lo habr en el decodicador. En concreto, se utiliza un solapamiento del 10 % entre ventanas trapezoidales. Este enfoque, que minimiza el rgimen binario, se utilizar en el resto de modelos de seal. Modelo de micro-transitorios. El algoritmo matching pursuits se implementa ahora con un diccionario de funciones wavelet-packets. No se incluyen las funciones tonales, porque cuando el residuo llega a este modelo stas ya se han extrado. Las funciones wavelet-packets
8.2. SEGMENTACIN DEL EJE TEMPORAL
193
se basan en ltros de 32 coecientes de la familia ortonormal de Daubechies y una descomposicin WP de profundidad P = 4. El algoritmo se detiene con el mismo umbral de energa que en el caso del diccionario mixto. Modelo de ruido. Una vez extradas las sub-tramas de ruido, en cada una de ellas se obtienen los parmetros que modelan la envolvente de energa en frecuencia y tiempo. La envolvente de frecuencia se obtiene con un ltro predictor basado en Warped -LPC. El nmero mximo de polos se limita en funcin del tamao de la sub-trama de ruido. Esto se consigue usando como mximo 1 polo por cada 32 muestras de residuo. El nmero de polos no se ja a este valor, sino que si los polos tienen una ganancia de prediccin menor de 0, 01 no son codicados. La vericacin de los polos que tienen una ganancia de prediccin mayor que el umbral se realiza empezando por el nal. Una vez calculados todos los polos, partiendo del ltimo, se verica que estn por encima del umbral, en caso contrario, son eliminados. As pues, se van eliminando polos hasta encontrar el primero por la cola con una ganancia mayor que el umbral. Esto se hace as porque los polos no se obtienen en orden decreciente de ganancia de prediccin y se pueden eliminar polos importantes. En cuanto al modelado de la envolvente temporal, se utiliza un predictor LPC de las muestras de la FFT del ruido. Tambin se usa un polo cada 32 muestras y una ganancia de prediccin mnima de 0, 01. Todos los parmetros generados por el modelo deben ser cuanticados, si es posible siguiendo principios psicoacsticos. En este sentido, se generan tres tipos de parmetros: Parmetros que se pueden cuanticar usando directamente criterios perceptuales. Las amplitudes de los tonos, por ejemplo. Parmetros que se cuantican directamente sin informacin perceptual. Las fases de los tonos son un buen ejemplo. Parmetros que son discretos por la naturaleza del modelo empleado. Las frecuencias de los tonos son discretas porque hay tantas frecuencias como tomos exponenciales complejos use el algoritmo matching pursuits. Por lo tanto, en funcin del parmetro en cuestin, se usar un tipo diferente de cuanticador. Antes de pasar a este punto, se vern con ms detalle los algoritmos empleados para segmentacin del eje temporal y deteccin de transitorios.
8.2.
Segmentacin del eje temporal
Desde un punto de vita terico, el tamao de segmento ptimo para un codicador de audio debe ser aquel que consiga minimizar el rgimen binario obteniendo una buena calidad en la seal de audio codicada [Prandoni97]. Sin embargo, en un segmentador de este tipo slo se puede conocer a posterior el rgimen binario obtenido, lo que es prohibitivo en trminos de complejidad computacional. Como este objetivo tan ambicioso no es posible, en codicacin de audio se utilizan herramientas de procesado de seal que segmentan el audio en funcin de las caractersticas propias de cada codicador [Painter01]. As, en codicadores de forma de onda, es tpico usar un tamao
194
de trama grande en segmentos estacionarios de seal, reducindolo en zonas transitorias. La explicacin de este hecho se debe a que se produce una importante distorsin de pre-eco si se cuantica un segmento largo de seal transitoria. Las herramientas usadas para decidir si un segmento es estacionario o transitorio (y decidir en base a esto la segmentacin) deben ser sencillas. En [Gonzalez01], se usa la transformada wavelet-packet como herramienta de tratamiento. Independientemente de la herramienta utilizada, un segmentador debe partir la seal analizando tanto los cambios de energa en frecuencia como los cambios de energa en el tiempo presentes en la seal. Se ha demostrado que midiendo distancias sencillas en base a los cambios de energa en tiempo-frecuencia se puede conseguir un algoritmo ecaz para segmentacin [Ruiz02]. En lo que a codicacin paramtrica de audio se reere y con las herramientas utilizadas, los principios del segmentador cambian por completo. Ahora, los segmentos transitorios de seal no se deben partir, puesto que la herramienta de modelado de transitorios no provoca pre-ecos en la seal. Como mucho, el residuo en un segmento transitorio deber partirse en sub-tramas para evitar tal circunstancia. Sin embargo, el modelo tonal a utilizar asume que la seal es estacionaria para usar informacin perceptual en la extraccin tonal. Por lo tanto, slo se debe pasar al modelo tonal segmentos de seal estacionarios. Debe observarse tambin que los tomos del modelo tonal son exclusivamente funciones exponenciales complejas que no cambian en amplitud ni frecuencia en todo el segmento de seal analizado. As pues, los requerimientos del codicador paramtrico propuesto, en lo relativo a segmentacin, son muy particulares y se pueden resumir en dos puntos principales: 1. Los segmentos estacionarios deben ser segmentados con mucha precaucin. El segmentador debe permitir cortar un determinado segmento en el momento en que cambien las propiedades espectrales de la seal de entrada. 2. Los segmentos transitorios no tienen limitacin alguna, puesto que el modelo de transitorios no provoca efectos de pre-eco. En base a estos requerimientos, el algoritmo de segmentacin debe conocer de antemano si una seal es o no transitoria. Si es transitoria, el algoritmo de segmentacin no debe partir la seal. Sin embargo, las seales estacionarias, que se van a parametrizar con el modelo tonal, deben segmentarse con cuidado. Por esta causa en la gura 8.1 el detector de transitorios decide primero si una seal es o no transitoria, y en caso negativo, el segmentador debe dividir la seal en trozos prcticamente estacionarios. Con esta premisa, el funcionamiento del segmentador se basar en la deteccin de cambios del contenido espectral. Cuando stos se produzcan, resultar un nuevo segmento de seal. Los cambios de energa temporal no se tienen en cuenta en el segmentador, porque son tratados por las seales transitorias. Al n y al cabo, al segmentador le llegan bloques no transitorios de seal. A continuacin, se cuenta el diseo del algoritmo implementado para segmentacin. El algoritmo est basado en un ltro predictor warped -LPC, que proporcionar la informacin del contenido espectral de la seal. Se ha usado un ltro predictor porque, si tiene un orden bajo, la complejidad es reducida. Adems, se ha utilizado la versin modicada warped -LPC, porque el sistema requiere mucha denicin para seales estacionarias en baja frecuencia. Con esa versin, extrayendo slo un polo de la seal, es posible implementar un segmentador con un comportamiento aceptable para esta aplicacin. El uso de un slo polo warped -LPC permite obtener, a
195
grandes rasgos, la frecuencia donde se concentra la mayor parte de la energa de la seal, considerando el eje de frecuencias con carcter logartmico. El algoritmo diseado se basa en medir las diferencias de esta frecuencia central entre trozos de seal para, a partir de esta informacin, decidir el tamao de segmento actual. Un diagrama del segmentador usado se representa en la gura 8.2, donde se pueden apreciar las siguientes singularidades: El tamao de segmento mximo es de 3072 muestras, que con una frecuencia de muestreo de 44, 1KHz corresponde a 69, 7ms de seal. Es un tamao suciente para tener una buena compresin en seales muy tonales. Normalmente, es extrao que la seal de audio sea sucientemente estacionaria con un tamao mayor. El nmero de frecuencias del modelo tonal se ha elegido mayor que este valor, tenindose por lo tanto un diccionario sobrecompleto. Se calcula un polo cada 512 muestras (11, 6ms en tiempo), siendo el algoritmo capaz de detectar cambios espectrales a partir de los polos calculados en funcin de este valor. El clculo de las distancias en frecuencia no se aplica a la diferencia entre frecuencias consecutivas. Si la distancia se calcula de esta forma, y la frecuencia central cambia lentamente, se puede tener un segmento de gran tamao cuyas partes inicial y nal sean demasiado diferentes. Por esta causa, la distancia se mide con respecto al mximo y al mnimo de las frecuencias anteriores, es decir, si la frecuencia central actual es mayor que cualquiera de las anteriores se calcula la diferencia con respecto al mnimo de todas (o viceversa). Los umbrales mximo y mnimo se sitan en el 10 % de la mxima frecuencia digital (que es la mitad de la frecuencia de muestreo) y se calculan sobre las diferencias. Estos umbrales se han obtenido para tener una discriminacin suciente en frecuencia. La complejidad del algoritmo se puede reducir si el polo se calcula con menos de las 512 muestras, lo cual no modica los resultados nales. No es necesario adems volver a calcular los polos en trozos de 512 muestras en donde ya se han calculado en ejecuciones anteriores del algoritmo. Para terminar con el segmentador, se presentan las guras 8.3 y 8.4, donde se dibujan dos casos diferentes de segmentacin. En la gura 8.3 se dibuja una seal de trompeta en un cambio de nota. La lnea marca el lmite del segmento decidido por el algoritmo de segmentacin. Se observa cmo el lmite del segmento se sita en la zona de separacin entre las notas. Por su parte, la gura 8.4 dibuja una seal de voz cuando se termina de pronunciar un fonema sonoro. Se observa cmo el algoritmo parte el segmento de forma conservadora. Es interesante tener en cuenta que esta buena selectividad en frecuencia es posible gracias al empleo de un polo warped LPC, mientras que con prediccin LPC no se obtiene una discriminacin tan buena en bajas frecuencias. En la estructura del codicador de la gura 8.1 hay otro algoritmo de segmentacin, en este caso para calcular las sub-tramas del residuo. Si bien este algoritmo se podra calcular en funcin de medidas estadsticas, se ha implementado siguiendo un esquema muy similar al del algoritmo de segmentacin de audio de entrada. Al igual que para el caso del segmentador de
196
t o
t r a
i t o
r i o
t r a
l c
l o
l o
t r a
t o
l o
l c
l o
l a
f r e
i a
l o
t o
f r e
i a
t r a
l e
l c
l o
l a
i s
t a
i a
f r e
i a
t o
i s
t a
i a
, , f
i =
f i>
U
m
s
a x
t a
t o
n i = i + 1
f i<
U
m
s
i n
t a
t o
o i = 5 s
t a
t o
Figura 8.2: Diagrama del segmentador usado basado en warped-LPC.
197
1
0.8
0.6
amplitud normalizada
0.4
0.2
0
0.2 0.4
0.6
0.8 1
500 1000
1500 muestras
2000
2500
3000
Figura 8.3: Seal de trompeta en un cambio de nota. La lnea marca el lmite del segmento que calcula
el algoritmo de segmentacin.
1
0.8 0.6
0.4
0.2 0
0.2
0.4 0.6
0.8
1
500
1000
1500 muestras
2000
2500
3000
Figura 8.4: Seal de voz cuando se termina de pronunciar un fonema sonoro. La lnea marca el lmite del segmento que calcula el algoritmo de segmentacin.
198
audio, el segmentador de ruido debe actuar cuando haya cambios locales en la energa tiempofrecuencia. Si esto no se hace as, los parmetros que representan la envolvente de ruido en tiempo y frecuencia no modelarn de forma satisfactoria los cambios que se producen en el residuo. Hay que tener en cuenta que, en el codicador propuesto, el residuo no va a tener incrementos bruscos de energa en el tiempo, porque son extrados por el modelo de transitorios y tonal, si es un segmento transitorio, o por el modelo de transitorios, si es un segmento estacionario con un micro-transitorio. Gracias a esta propiedad, se puede implementar un segmentador de ruido similar al de seal, aunque con las siguientes particularidades: Se utiliza un polo LPC, porque ya no es necesario una mejor selectividad en baja frecuencia, sino la misma para toda la frecuencia. El tamao mnimo de segmento de ruido es de 256 muestras (5, 8ms de residuo), por lo que se calcula un polo cada 256 muestras. El umbral se sita ahora en el 15 % de la mxima frecuencia digital. Este valor se ha incrementado porque el residuo tiene ms variacin en frecuencia que el audio de entrada. A continuacin, se describe brevemente el funcionamiento del detector de transitorios. Este bloque es el ltimo que queda por describir de las herramientas de anlisis de seal del codicador propuesto.
8.3.
Detector de transitorios
El detector de transitorios se implementa de una manera muy sencilla. Simplemente se calcula la energa de la seal a la entrada cada 256 muestras (5, 8ms). Si se escoge un valor menor, se puede llegar a confundir un transitorio con un tono de muy baja frecuencia. Los valores mayores pueden obtener un valor demasiado promediado, evitando as la deteccin de un incremento local de energa. Si la energa en un trozo de 256 muestras es mucho mayor que en las zonas cercanas, se etiqueta el segmento como transitorio. De manera descriptiva, los pasos a seguir para detectar transitorios son: 1. Se analiza una seal de entrada de 3072 muestras. 2. Se calcula la energa total cada 256 muestras. 3. Si el mximo de energa de un trozo de 256 muestras es 6, 5 veces mayor que la media del conjunto de 3072 muestras, sin la contribucin de dicho trozo, entonces se tiene un segmento transitorio. Este valor se escoge para modelar todos los golpes de castauela en la seal si02 del grupo de seales de test EBU-SQAM. 4. En caso contrario, se pasan las 3072 muestras de seal de entrada al segmentador descrito anteriormente. En la gura 8.5 aparece un golpe de castauela que se detecta como transitorio. El detector de micro-transitorios se implementa de la misma forma, salvo que el umbral es algo menor, siendo ahora de 5, 5. Este valor se escoge para modelar como micro-transitorios todos
8.4. CUANTIFICACIN DE PARMETROS

1 0.8
0.6
199
0.4
0.2 0
0.2
0.4 0.6
0.8
1
500
1000
1500 muestras
2000
2500
3000
Figura 8.5: Golpe de castauela detectado como transitorio. los golpes de seal presentes en el chero sm02. En la gura 8.6 se representa la seal original y el residuo del modelo tonal cuando se detecta un micro-transitorio. Es preciso aclarar que el detector de micro-transitorios analiza el residuo del modelo tonal.
8.4.
Cuanticacin de parmetros
Una vez que se obtienen todos los parmetros procedentes de los diferentes modelos de seal y de las herramientas de control, el siguiente paso es tratar la cuanticacin y codicacin de estos parmetros. El diseo de un cuanticador se dene a partir de dos valores: el nmero de bits y el factor de sobrecarga (valores mximo y mnimo). El nmero de bits se debe elegir, si es posible, en funcin de criterios perceptuales. Para un codicador paramtrico de audio, es necesario disear tantos cuanticadores como tipos de parmetros se generen, por eso se realiza a continuacin una revisin de los cuanticadores diseados en cada caso.
8.4.1.
Parmetros de control
En relacin a las herramientas de control, el nico parmetro que se codica es el tamao de segmento. El segmentador divide el segmento actual en un tamao que ser mltiplo de 512 muestras con un mximo de 3072 muestras. Con estos valores, el nmero de bits necesarios ser de 3, ya que el valor mnimo es 512 muestras y el mximo 3072, siendo posibles 6 valores diferentes. Con este valor, se inicia la codicacin del segmento actual. As pues, cada segmento es independiente del resto desde el punto de vista de codicacin, habindose evitado por completo la codicacin diferencial entre segmentos. Adems, se ha intentado minimizar la dependencia del nmero de bits de ciertos parmetros de la informacin recibida de parmetros anteriores. De esta forma, an perdiendo ratio de compresin, se hace que cada segmento enviado sea ms robusto a la prdida de sincronismo debida a errores de transmisin.
200
1
0.5 0
0.5
1
200
400
600
800 muestras
1000
1200
1400
1
0.5
0 0.5
1
200
400
600
800 muestras
1000
1200
1400
Figura 8.6: Micro-transitorio detectado en la seal sm02. Se dibuja la seal de entrada (arriba) y el
residuo del modelo tonal (abajo).
8.4.2.
Parmetros de los tonos
Para los tonos modelados en el codicador propuesto, los parmetros generados son amplitud, fase y frecuencia para cada tono. Con el n de que el decodicador conozca cuntos tonos se han codicado, es necesario enviar tambin el nmero total de tonos en el segmento actual. Para cada uno de estos parmetros, se ha elegido la siguiente estrategia de cuanticacin: Nmero de tonos. El nmero de tonos se ha de cuanticar con un nmero de bits suciente para evitar en lo posible que en un segmento no se pueda enviar algn tono audible por sobrepasarse el valor de diseo escogido. Bajo esta premisa, con 8 bits (hasta 255 tonos por segmento) se evita la prdida de tonos para todos los segmentos de todas las seales de tests utilizadas. Frecuencia. La frecuencia es un parmetro de naturaleza discreta en el codicador paramtrico propuesto. Como el nmero de funciones exponenciales complejas del modelo tonal es de L = 4097, ste es el nmero posible de frecuencias. Pese a que se puede enviar este valor con 12 bits (obviando la frecuencia cero), se ha implementado el codicador de frecuencias de [Ali95], explicado en el apartado 5.3.1, para ahorrar rgimen binario. Este mtodo de cuanticacin de frecuencias se basa en la sensibilidad logartmica en frecuencia del odo humano, dividindose el eje de frecuencias de forma didica en 4 grupos. Se necesitan 2 bits para distinguir el grupo actual, y en la implementacin realizada se ha incrementado un poco la sensibilidad del cuanticador respecto a la propuesta de [Ali95]. Se han elegido 512 escalones de cuanticacin (9 bits) para cada grupo. Por tanto, se necesitan 11 bits para codicar la frecuencia de cada tono. Una ventaja de elegir el mismo nmero de escalones por grupo es que se evita la dependencia del nmero de bits de cada grupo de los 2 bits iniciales que indican el grupo actual. Esto permite que si se produce un error de transmisin en los 2 bits iniciales no se pierda el sincronismo del segmento actual en el decodicador.
201
Fase. Para la fase, se utiliza un cuanticador uniforme de 6 bits, al igual que en [Ali95]. Este valor est comprendido entre y . Sera conveniente como lnea de futuro establecer qu tonos son sensibles a la cuanticacin de la fase en base a informacin perceptual. Amplitud. Las amplitudes se codican teniendo en cuenta principios perceptuales. Se ha utilizado para cuanticar las amplitudes el mecanismo explicado en el apartado 5.3.3 [Vera04b]. Usando este algoritmo, cada amplitud tiene un nmero de bits variable en funcin de la mscara calculada en el cuanticador. Los valores mximo y mnimo son tambin diseados bajo criterios psicoacsticos. As, el valor mximo corresponde al del tono de mayor amplitud y el mnimo al de la mscara de tonos actual. Este mecanismo de cuanticacin es un ejemplo de codicacin intra-trama, pues explota las relaciones entre los tonos de un mismo segmento para ahorrar rgimen binario. El problema que introduce es que los bits para cada amplitud son variables y dependientes de los bits de amplitud recibidos anteriormente. Esto hace muy sensible a errores esta informacin, porque un error de bit puede provocar la prdida de sincronismo del segmento actual. Por esta razn, se codica un valor adicional referente al nmero de bits total para la amplitud enviados en el segmento actual. Este valor informar del tamao de la informacin de amplitud previniendo un error de sincronismo global en el segmento. Como el nmero mximo de tonos es de 256 y no es normal obtener ms de 8 bits por amplitud de media, se dedican 11 bits (de 1 a 2048 valores) para informar del nmero de bits para las amplitudes.
8.4.3.
Parmetros de las funciones wavelet-packets
En el caso de los parmetros que modelan la parte transitoria de seal, stos no pueden ser cuanticados con criterios perceptuales. Al n y al cabo, stos parmetros se presentan cuando la seal no tiene un fuerte carcter estacionario, que es donde se dene el proceso de enmascaramiento simultneo. Los distintos parmetros codicados para las funciones waveletpackets son: Nmero de funciones. El nmero mximo de funciones por segmento se ha establecido en 256 funciones, por lo que se codica este valor con 8 bits (entre 0 y 255). Con este valor, se evita la prdida de funciones wavelet-packets para todos los segmentos de todas las seales de tests utilizadas. Profundidad. Como la profundidad usada en el codicador propuesto para el rbol de descomposicin wavelet-packets es P = 4, se necesitan 2 bits para su codicacin. Sub-banda y retardo. Se han codicado de manera conjunta estos dos parmetros con el objetivo de evitar un prdida de sincronismo si hay un error en la profundidad de la funcin wavelet-packets recibida. Para ello, hay que tener en cuenta que, dependiendo de la profundidad de la funcin wavelet-packets actual, el nmero de bits para codicar la subbanda, por un lado, y el retardo, por otro, cambian, pero en su conjunto se compensan. Tanto la sub-banda como el retardo son valores discretos en el codicador, puesto que ambos, junto con la profundidad, denen el tomo actual dentro del diccionario waveletpackets. La sub-banda depende de la profundidad, porque cada vez que baja el nivel de profundidad el nmero de sub-bandas se multiplica por dos. El retardo tambin depende
202
CAPTULO 8. CODIFICADOR PARAMTRICO PROPUESTO de la profundidad, por el diezmado que se produce en el rbol de descomposicin. Cada vez que se baja en profundidad, el nmero de retardos se reduce a la mitad. El nmero de bits total de la codicacin conjunta sub-banda y retardo slo depende del tamao del segmento actual, aunque su reparto depende de la profundidad recibida. Como el tamao de segmento vara entre 512 y 3072 muestras, el reparto de bits en funcin de la profundidad queda: 1. Profundidad 1. 1 bit para la sub-banda y de 8 (512 muestras para el segmento con 256 retardos a esta profundidad) a 11 bits (3072 muestras del segmento actual) para el retardo. 2. Profundidad 2. 2 bits para la sub-banda y de 7 (512 muestras para el segmento con 128 retardos a esta profundidad) a 10 bits (3072 muestras) para el retardo. 3. Profundidad 3. 3 bits para la sub-banda y de 6 a 9 bits para el retardo. 4. Profundidad 4. 4 bits para la sub-banda y de 5 a 8 bits para el retardo. Por tanto, el nmero de bits total variar entre 9 a 12 bits, en funcin del tamao del segmento actual e independientemente de la profundidad. Es preciso notar la sensibilidad de este parmetro codicado en funcin del tamao de segmento. Un error en este valor puede provocar una prdida de sincronismo. Como conclusin, el tamao de segmento es un informacin crtica en el conjunto de la trama enviada.
Amplitud. La amplitud de cada funcin wavelet-packets no es un parmetro de naturaleza discreta como los anteriores, sino que hay que denir un cuanticador para su codicacin. Este cuanticador no puede basarse en principios psicoacsticos, como en el caso de las amplitudes de los tonos. Por tanto, se impondr un nmero jo de 9 bits para su cuanticacin. En cuanto al valor de sobrecarga, se elige en funcin del valor mximo posible. Por tanto, como la seal de entrada est normalizada, se limita a 1 el mximo valor absoluto de amplitud. Sin embargo, la distribucin de las amplitudes de las funciones wavelet-packets dista mucho de ser uniforme; al contrario, se tienen muchas funciones de pequea amplitud en relacin al nmero de funciones de gran amplitud. Con estas condiciones, el cuanticador usado utiliza una compresin de tipo logartmico, en concreto ley A, para conseguir en lo posible una relacin seal a ruido constante, que depende del nmero de bits elegido.
8.4.4.
Parmetros del ruido
El segmento de seal puede ser dividido en sub-tramas de ruido en base a las decisiones del segmentador de ruido usado. Al igual que en el caso de los segmentos de seal, la informacin entre sub-tramas de ruido es completamente independiente entre las mismas. Para cada subtrama de ruido, se codica la longitud de la sub-trama, la energa total y los parmetros de la envolvente de energa en frecuencia y tiempo. Cada grupo de parmetros se codica de la siguiente forma: Tamao de sub-trama. El tamao de cada sub-trama de ruido se cuantica de la misma forma que el tamao de segmento de seal. Como el tamao de segmento mximo es de 3072 muestras y el tamao mnimo de sub-trama de 256 se necesitan 4 bits para codicar este valor.
203
Energa de ruido. El primer parmetro que se codica es la energa total de ruido. La cuanticacin de este valor se puede realizar bajo criterios psicoacsticos. As, la mxima energa de ruido posible (la seal est normalizada) corresponde a 96 dB SPL, el valor mnimo al mnimo del umbral de silencio y el nmero de bits se calcula en funcin de la mscara de ruido sobre ruido. En este caso, la mscara de ruido sobre ruido elegida es de 26dB [Hall98]. El nmero de bits se calcula como en el caso de las amplitudes de los tonos, segn la ecuacin 5.35, dando un valor de 7 bits. Envolvente de ruido en frecuencia. La envolvente de ruido en frecuencia se modela mediante polos warped -LPC. En el codicador propuesto el nmero de polos es variable en funcin de la ganancia de prediccin. Por lo tanto, se codican dos parmetros, el nmero de polos y la amplitud de cada polo, de la siguiente forma: Nmero de polos warped -LPC. El nmero de total de polos es funcin del tamao de sub-trama de ruido actual, ya que se permite un polo cada 32 muestras de ruido. Sin embargo, se ha establecido un nmero de bits jo para este valor independiente del tamao de sub-trama para evitar que el nmero de bits dependa de esta informacin. Para el caso peor, con una sub-trama de ruido de 3072 muestras (el valor mximo) puede haber 96 polos, por lo que se necesitan 7 bits para cuanticar el nmero de polos. Amplitud de cada polo warped -LPC. Los coecientes del ltro se obtienen de la librera warpT B . Estos coecientes de la estructura directa se convierten a coecientes en celosa. Al ser la seal de entrada una seal real, los coecientes (en estructura directa o en celosa) son reales, si bien los polos pueden ser reales o complejos conjugados. Los coecientes de la estructura en celosa tienen valores comprendidos entre 0 y 1. Un valor mayor o igual que 1 indicara un polo inestable. Si esto ocurre, este polo no se enva. Cuanticando los valores de los coecientes en celosa, se evitan inestabilidades en el proceso de cuanticacin y se obtienen los valores mximo y mnimo del cuanticador de manera directa. Se han empleado 6 bits para la cuanticacin de cada coeciente. En la bibliografa existen otros mtodos de cuanticacin para los polos, que se pueden revisar en [Kleijn95]. Envolvente de ruido en el tiempo. Bsicamente, para la envolvente de ruido en el tiempo se emplean los mismos mecanismos de cuanticacin, slo se deberan variar para la cuanticacin de los polos: Nmero de polos LPC. Como se permite un polo cada 32 muestras de ruido y, para el caso peor, el tamao de sub-trama de ruido es de 3072 muestras, puede haber 96 polos, por lo que se necesitan 7 bits para cuanticar el nmero de polos LPC. Amplitud de cada polo LPC. El problema de los polos LPC es que al modelarse la transformada del residuo, que es una seal compleja, los polos son tambin complejos. Para evitar este problema, se modela la transformada del residuo seguido de su extensin simtrica. De esta forma, la seal modelada es par en el tiempo y su transformada real. Este cambio ha de tenerse en cuenta tambin en el decodicador. Con
204
S C o e n g m t r o l T e n t o
l e
t - p
t s
T s N b i t s e
a g
m m 3
a e b
o t o i t s
N t o 8
n b o s i t s 1 1 F
r e
i a
e a / t o n o
N m 1
b p 1 b
i t s l i t u i t s d v A
l i t u
d w
N p 8
f u
. P
r o
f u
i d
S y 9
u r e - 1
- b t a 2 b
a r d i t s
n o
a A
l i t u
i t s
/ t o
o 6
i t s
r i a
l e
i t s
i t s
/ w
/ w
i t s
/ w
t o
R T s u a b m a - t r a m o a E
i d
u E N
b n
- t r a v 7 p b o o
m l v l o i t s e
a n s
1 t e e n f r e P 6 b c o i t s u l o / p e s o l o n c i a E N n 7 v p b o o l v l o i t s 6 e s P b n t e e n e l t i e o i t s l o / p m s o l o p o
i d
- t r a
r g
i t s 4
i t s 7
i t s
Figura 8.7: Estructura de la trama binaria del codicador paramtrico propuesto. esta solucin, los coecientes de la estructura en celosa son reales y el esquema de cuanticacin no cambia.
8.4.5.
Estructura de la trama binaria
La estructura de la trama binaria codicada se presenta en la gura 8.7. Se observa como la informacin de cada segmento es independiente de los dems. Dentro de cada segmento, los datos estn separados en datos de control, tonos, funciones wavelet-packets y ruido. A su vez, dentro de cada trama de ruido, la informacin de cada sub-trama est separada de forma independiente. Es destacable que en cada grupo de informacin de tonos, transitorios y ruido hay algn parmetro de control para indicar el nmero de parmetros de cada tipo que se han codicado. El grueso del tamao de trama nal corresponde a los parmetros de los tonos, funciones wavelet-packets y polos de ruido. Como este codicador est pensado para su uso en una aplicacin de streaming de audio, es preciso determinar la informacin ms sensible a errores. En este sentido, los parmetros de los que depende la informacin posterior en la trama son particularmente sensibles, porque un error en ellos provoca la prdida de sincronismo en el segmento a decodicar. Este hecho es inevitable en un codicador donde el rgimen binario es variable cada segmento. Estos parmetros que controlan la informacin a recibir son: Tamao de segmento. Nmero de tonos. Nmero de bits de las amplitudes de los tonos. Nmero de funciones wavelet-packets. tamao de sub-trama de ruido. Nmero de polos warped -LPC. Nmero de polos LPC.
8.5. RESULTADOS
205
As pues, en el diseo de la torre de protocolos donde se enve la informacin al decodicador, sera conveniente proteger esta informacin de manera especial. Adems, en lo relativo al diseo de protocolos, al estar la informacin recibida organizada en segmentos independientes, la informacin de un segmento es ideal para ser transmitida en paquetes, no teniendo mucho sentido dividir la informacin de un segmento en paquetes independientes. Otro tema relacionado con la estructura de la trama del codicador es la cabecera debida a informacin paramtrica. En un codicador de forma de onda por transformada, slo es necesario enviar las amplitudes de la transformada. Por ejemplo, si la transformada usada fuera la DFT, la informacin de amplitud y fase es suciente, no siendo necesario enviar el ndice de frecuencia. Esto se debe a que se envan todas las frecuencias en un codicador por transformada. Para que la compresin en un codicador paramtrico sea satisfactoria, el nmero de funciones (tonos en el ejemplo) debe ser muy reducido para enviar menos informacin con el ndice incluido (frecuencia en el ejemplo) que en el caso de la codicacin por transformada. Por tanto, se conoce como cabecera de informacin paramtrica los bits dedicados a la denicin del tomo dentro del diccionario. Para los tonos, esta cabecera es la frecuencia, mientras que para las funciones wavelet-packets es la profundidad, sub-banda y retardo. En el caso del codicador propuesto, la cabecera gasta ms del 50 % del bit rate (en el caso de las funciones wavelet-packets), aunque debido al reducido nmero de tomos que se modelan el ratio de compresin es elevado. Esta armacin se comprobar a continuacin en los resultados de rgimen binario de cada seal de test.
8.5.
Resultados
Los resultados del codicador propuesto no se deben presentar de forma aislada, es decir, habr que comparar los resultados de calidad perceptual y rgimen binario con respecto a los resultados obtenidos por otros codicadores comerciales. En concreto, se van a utilizar dos codicadores para realizar la comparacin: 1. El codicador AAC con las mejoras introducidas en MPEG-4, porque es el codicador estandarizado de forma de onda que ofrece mayor calidad y de mayor uso en aplicaciones donde el rgimen binario es muy reducido. 2. El codicador PPC estandarizado por MPEG [MPEG03], porque es el estndar en codicacin paramtrica de audio. Para comparar los codicadores en igualdad de condiciones, es necesario conocer el rgimen binario medio que ofrece el codicador propuesto. En este sentido, para las seales de test utilizadas, el rgimen binario resultante es cercano a 16 Kbit/s en media. Con este resultado, se comparar con AAC a 16 Kbit/s. Sin embargo, para PPC no se ha conseguido el codicador a 16 Kbit/s, aunque s que se han obtenido las seales a 24 Kbit/s, gracias a la colaboracin del investigador E. G. P. Shuijers de Philips, quien ha aportado las seales codicadas a este rgimen binario y un decodicador para obtenerlas. Es preciso tener en cuenta que los regmenes binarios obtenidos no son jos por segmento, sino que ambos codicadores incluyen estrategias para poder variar de forma instantnea el rgimen binario si es recomendable en codicacin, aunque el rgimen binario objetivo sea el comentado con anterioridad.
206
CAPTULO 8. CODIFICADOR PARAMTRICO PROPUESTO Tabla 8.1: Rgimen binario y otros resultados al codicar el chero es01.
Fichero Rgimen binario (Kbit/s) Rgimen binario para tonos (Kbit/s) Rgimen binario para wavelet-packets (Kbit/s) Rgimen binario para ruido (Kbit/s) Rgimen binario para AAC-16 (Kbit/s) Rgimen binario para PPC-24 (Kbit/s) Tamao medio de segmento (muestras) Tamao medio de sub-trama de ruido (muestras) No de medio de tonos por segmento No de medio de funciones wavelet-packets por segmento No de medio de polos para la envolvente temporal por sub-trama de ruido No de medio de polos para la envolvente frecuencial por sub-trama de ruido es01 17,79 9,02 1,06 7,63 18,29 24,39 1829 1125 17,49 2,09 8,76 8,20
Las seales de prueba corresponden a las seales propuestas en el CD de la EBU para aseguramiento de la calidad (SQAM) en codicadores de audio. Para cada seal se ha realizado un test de MUSHRA, ya que es la medida subjetiva de la calidad de audio cuando se desean evaluar varios codicadores en la misma prueba. Este test se ha llevado a cabo gracias a la colaboracin de 10 miembros del departamento al que pertenezco. Adems, para cada seal se presentarn los resultados objetivos del codicador, en especial, el rgimen binario que obtiene el codicador propuesto en esta tesis.
8.5.1.
Seal es01
La seal es01 es una seal vocal cantada por la artista Suzanne Vega en idioma ingls. Esta seal, incluida en el grupo de las seales vocales, es una seal musical al tratarse de una seal cantada pese a que el nico instrumento que aparezca sea la voz. Los resultados objetivos se presentan en la tabla 8.1. Se puede observar como el rgimen binario del codicador propuesto es cercano a los 16 Kbit/s. Ms del 50 % del rgimen binario se dedica a informacin tonal, siendo por otra parte muy reducido el dedicado a transitorios. En cuanto al ruido, el rgimen binario es importante, debido a que se usan bastantes polos para parametrizar tanto la envolvente temporal como la frecuencial. El rgimen binario dedicado a la cabecera de cada segmento (tamao de segmento) es muy bajo, concretamente de 0,08 Kbit/s. Debido a este bajo rgimen binario, para la cabecera de cada trama se obviar esta informacin en los resultados de rgimen binario. En lo relativo a los resultados subjetivos, el test MUSHRA realizado aparece en la gura 8.8. En esta gura se presenta tanto el valor medio de la calidad valorada por los oyentes como el intervalo del 95 % de conanza de los resultados. El codicador propuesto se ha denominado codicador TWN (Tones, Wavelet-packets and Noise ) . Los comentarios ms reseables a partir de las opiniones de los oyentes acerca de la calidad de las seales codicadas se presentan a continuacin: El resultado perceptual de la seal codicada en AAC es el mejor de todos. En esta seal no se escucha otro artefacto que un ltrado con respecto a la seal original. Para el codicador PPC aparecen algunos errores propios del modelo, como una seal ms
8.5. RESULTADOS
es01
207
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
AAC 16 Kbits/s Paso Bajo 3.5 KHz
PPC 24 Kbits/s TWN 16 Kbits/s
Figura 8.8: Test MUSHRA para la seal es01. Se dibujan los resultados objetivos de la referencia, la seal ltrada paso bajo a 3,5 KHz, la seal codicada con AAC-16 Kbit/s, la seal codicada con PPC24 Kbit/s y la seal codicada con el codicador propuesto (TWN). Se representa, tanto el valor medio, como el intervalo del 95 % de conanza para cada versin de la seal evaluada. ruidosa que la original. Adems, el sonido de los tonos es algo metlico, seguramente debido a que en la codicacin de los tonos algunos de ellos se cuantican con pocos bits (hay un valor jo de bits por amplitud de cada tono en este codicador). El codicador TWN propuesto obtiene el peor resultado perceptual. Esta valoracin se atribuye principalmente a que se escucha un eco o desacompaamiento entre las partes tonal y ruidosa de la seal codicada. Es cierto que la energa de la parte ruidosa es aqu mucho mayor que en el caso del codicador PPC, debido a que se extraen muchos menos tonos. Adems, es apreciable una seal ms ruidosa que en los otros casos. Tanto en esta como en las dems seales vocales, los resultados de los codicadores paramtricos son peores que para AAC. Esto se debe principalmente a errores del modelo de tonos, transitorios y ruido usado. En una seal vocal y en un fonema sonoro se debera suponer que la parte ruidosa es (casi) nula, y los codicadores paramtricos modelan la energa tonal no audible como ruido lo que provoca una seal ruidosa codicada (hay que tener en cuenta que la mscara de ruido es menor en segmentos tonales que la mscara tonal). Se puede concluir, por tanto, que los codicadores paramtricos de audio no estn bien diseados para codicar seales vocales. Una posible solucin es implementar un decisor que indique si la seal es o no vocal para cambiar el codicador en caso de seales vocales.
8.5.2.
Seal es02
sta es una seal vocal masculina hablada en alemn. Para esta seal vocal, los resultados de los codicadores paramtricos no son nada buenos. Por su parte, los resultados objetivos se presentan en la tabla 8.2. Se puede observar cmo el rgimen binario del codicador propuesto es un poco superior a los 16 Kbit/s. De nuevo, ms del 50 % del rgimen binario se dedica a informacin tonal, siendo muy reducido el dedicado a transitorios. Para el ruido, aunque ahora el nmero de polos es menor, el tamao de sub-trama de ruido es tambin menor y el rgimen binario se mantiene con respecto al de seal anterior. Salvo en este detalle, los resultados objetivos de ambas seales son muy similares. El test MUSHRA para esta seal aparece en la gura 8.9. Los resultados subjetivos son
208
CAPTULO 8. CODIFICADOR PARAMTRICO PROPUESTO Tabla 8.2: Rgimen binario y otros resultados al codicar el chero es02.
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
es02
AAC 16 Kbits/s Paso Bajo 3.5 KHz
PPC 24 Kbits/s TWN 16 Kbits/s
Figura 8.9: Test MUSHRA para la seal es02. Se dibujan los resultados objetivos de la referencia, la
seal ltrada paso bajo a 3,5 KHz, la seal codicada con AAC-16 Kbit/s, la seal codicada con PPC-24 Kbit/s y la seal codicada con el codicador propuesto (TWN).
tambin homogneos en relacin a los obtenidos para otras seales vocales. Los comentarios a realizar son los siguientes: La seal codicada con AAC obtiene la mejor puntuacin en calidad perceptual, aprecindose slo un ligero ltrado. En el caso del codicador PPC, al ser un codicador paramtrico, se nota una seal ms ruidosa. De nuevo, se aprecian los tonos sintetizados con carcter metlico. Otra vez el codicador TWN propuesto obtiene el peor resultado perceptual. Vuelven a aparecer el eco y una seal ruidosa, aunque ahora si cabe con mayor importancia, ya que las notas perceptuales son menores que en la seal vocal cantada. Una posible explicacin es que ahora la seal es menos tonal (al ser hablada y no cantada) en los fonemas sonoros. Se obtiene un residuo con mayor energa y, de aqu, una seal sinttica con ms deciencias.
8.5. RESULTADOS Tabla 8.3: Rgimen binario y otros resultados al codicar el chero es03.
209
8.5.3.
Seal es03
La ltima de las seales vocales es una seal femenina hablada en ingls. Primero, se presentan los resultados objetivos en la tabla 8.3. En este caso, el rgimen binario del codicador propuesto es el mayor de todas las seales vocales. Han crecido en rgimen binario todas las componentes de la seal. Este incremento se debe simplemente a que se ha reducido el valor medio, tanto del tamao de segmento, como del tamao de sub-trama de ruido. El test MUSHRA para esta seal se representa en la gura 8.10. Ahora, aparecen nuevos comentarios que realizar en cuanto a los resultados perceptuales de las diferentes seales codicadas: Pese a obtener la mejor puntuacin, la seal codicada en AAC se aprecia ahora algo ms ltrada que en el caso de la seal vocal masculina. Para el codicador PPC, la seal se sigue escuchando metlica en los tonos y ruidosa respecto al original. Esta vez el codicador TWN ha vuelto a obtener la peor nota. Aparte del eco y la seal ruidosa, ahora se escucha algn pitido de alta frecuencia. Estos pitidos se localizan en segmentos ruidosos, debido al modelado como tonos de alta frecuencia de partes ruidosas de seal. De hecho, algunas eses del ingls son casi tonos, pero si se modelan como tales se produce un pitido, que es un artefacto de codicacin. Este artefacto es un error del modelo, en concreto, de la extraccin tonal.
8.5.4.
Seal si01
Con esta seal empieza la evaluacin de un grupo de tres seales que corresponden a instrumentos en solitario tocando notas aisladas. La seal si01 se produce con un clavicordio, que es un instrumento de cuerda. La seal est formada por notas aisladas que suben en frecuencia en la escala musical. En cuanto a los resultados objetivos, se presentan en la tabla 8.4. Ahora, el rgimen binario del codicador propuesto est ms cercano a los 16 Kbit/s y se reduce, pese a
210
es03 Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta AAC 16 Kbits/s Paso Bajo 3.5 KHz PPC 24 Kbits/s TWN 16 Kbits/s
Figura 8.10: Test MUSHRA para la seal es03. Se dibujan los resultados objetivos de la referencia, la
Tabla 8.4: Rgimen binario y otros resultados al codicar el chero si01.

Fichero Rgimen binario (Kbit/s) Rgimen binario para tonos (Kbit/s) Rgimen binario para wavelet-packets (Kbit/s) Rgimen binario para ruido (Kbit/s) Rgimen binario para AAC-16 (Kbit/s) Rgimen binario para PPC-24 (Kbit/s) Tamao medio de segmento (muestras) Tamao medio de sub-trama de ruido (muestras) No de medio de tonos por segmento No de medio de funciones wavelet-packets por segmento No de medio de polos para la envolvente temporal por sub-trama de ruido No de medio de polos para la envolvente frecuencial por sub-trama de ruido si01 17,37 13,19 0,24 3,85 18,42 22,51 1720 1164 24,14 0,10 2,09 7,11
crecer el rgimen binario de los tonos, porque desciende bastante el rgimen binario dedicado a la parte ruidosa. Se incrementa el nmero de frecuencias por segmento en los tonos y disminuyen bastante, tanto el nmero de polos para la envolvente temporal del ruido, como el nmero de funciones wavelet-packets por segmento para los transitorios. Los resultados del test MUSHRA llevado a cabo aparecen dibujados en la gura 8.11. Para esta seal, la primera de las seales musicales evaluadas, la calidad perceptual es muy buena en todos los codicadores evaluados. Se pueden realizar los siguientes comentarios en relacin a la calidad perceptual de cada codicador: En el codicador AAC slo se aprecian diferencias con el original debidas a la disminucin del ancho de banda de la seal codicada en el comienzo de cada nota. El codicador PPC obtienen ahora el peor resultado perceptual. La seal se escucha en general poco natural y el comienzo de cada nota no est bien representado. El codicador TWN propuesto obtiene un resultado similar en nota a AAC, aunque los artefactos son bien diferentes. La seal se escucha en este caso algo ruidosa, aunque la representacin del comienzo de cada nota es la mejor en este caso.
8.5. RESULTADOS
si01
AAC 16 Kbits/s PPC 24 Kbits/s TWN 16 Kbits/s
211
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
Paso Bajo 3.5 KHz
Figura 8.11: Test MUSHRA para la seal si01. Se dibujan los resultados objetivos de la referencia, la seal ltrada paso bajo a 3,5 KHz, la seal codicada con AAC-16 Kbit/s, la seal codicada con PPC-24 Kbit/s y la seal codicada con el codicador propuesto (TWN). Tabla 8.5: Rgimen binario y otros resultados al codicar el chero si02.
8.5.5.
Seal si02
Esta es la seal con mayor nmero de transitorios del grupo evaluado. Se trata de una seal producida por una castauela, por lo que no se puede hablar de notas sino de golpes de castauela aislados. En los resultados objetivos se aprecia el incremento en rgimen binario de la parte transitoria (dedicada a funciones wavelet-packets) con respecto al resto de seales. An siendo importante la cantidad de energa modelada por la parte transitoria, el rgimen binario que se dedica a esta parte no es elevado. Estos resultados se presentan en la tabla 8.5, donde se observa cmo el rgimen binario medio es slo algo superior a los 16 Kbit/s. El rgimen binario se mantiene en el orden habitual, debido al aumento del tamao medio de segmento, puesto que en las zonas con transitorios no se parte la seal en segmentos estacionarios, obtenindose el tamao de segmento mximo. Gracias a esta propiedad, el rgimen binario de los tonos es muy reducido, an habiendo un nmero medio de tonos por segmento similar al de otras seales no transitorias. Los resultados del test MUSHRA se representan en la gura 8.12. En el caso de esta seal con una importante parte transitoria, la calidad obtenida es muy diversa entre los diferentes codicadores empleados en el test, estando muy relacionada con la calidad obtenida al codicar
212

si02
TWN 16 Kbits/s
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
PPC 24 Kbits/s AAC 16 Kbits/s Paso Bajo 3.5 KHz
Figura 8.12: Test MUSHRA para la seal si02. Se dibujan los resultados objetivos de la referencia, la
los golpes de castauela. Para cada codicador se puede decir que: En el codicador AAC la calidad de los golpes de castauela es bastante baja. No slo se ltran al ser codicados, sino que adems contienen bastante menos cantidad de energa que los originales, por lo que suenan incluso distorsionados. El codicador PPC emplea un modelo de transitorios al parametrizar la envolvente de cada transitorio. Esto funciona correctamente, pero al modelar el contenido espectral de cada transitorio, la parametrizacin es bastante imprecisa (se supone debido a la limitacin en rgimen binario). Es conveniente recordar que el codicador PPC normaliza la seal dividindola entre su envolvente y realiza entonces un modelado tonal. Como este modelado tonal no se aplica en una seal estacionaria, su resultado desde un punto de vista perceptual es bastante pobre. La mejor versin de la seal de castauelas codicada se obtiene con el codicador TWN propuesto. Ahora, se modela correctamente tanto la energa de cada transitorio como su contenido espectral. Los oyentes observan simplemente un golpe de castauela algo ltrado respecto del original.
8.5.6.
Seal si03
Se evala ahora una seal muy tonal, ya que est compuesta de notas aisladas producidas por un diapasn. Adems, cada una de las tres notas se mantienen en el tiempo varios segundos. En los resultados objetivos que aparecen en la tabla 8.6 lo ms destacable es el bajo rgimen binario con que se codica esta seal. Es curioso observar cmo el codicador PPC tambin obtiene un resultado bajo en rgimen binario. La parte tonal domina, por tanto, el rgimen binario y se puede ver cmo la envolvente temporal del ruido prcticamente no se utiliza. Adems, se observa que el tamao de segmento es elevado y no se modela ninguna funcin wavelet-packets en toda la seal, es decir, no se detecta ningn transitorio ni micro-transitorio. Los resultados del test MUSHRA se representan en la gura 8.13. La seal si03 es muy tonal, por lo que los artefactos producidos en codicacin son bsicamente debidos a errores en la parte tonal:
8.5. RESULTADOS Tabla 8.6: Rgimen binario y otros resultados al codicar el chero si03.
213
Para el codicador AAC, la calidad es bastante baja porque aparecen artefactos extraos al mantenerse cada nota en el tiempo. El artefacto principal consiste en el efecto birding, que en la bibliografa se describe como un efecto molesto que se debe a la respuesta de los bancos de ltros empleados. Aunque este efecto se minimiza en el AAC con las mejoras introducidas por MPEG-4, ocurre en algunas situaciones, como es el caso de esta seal. El mejor resultado se obtiene con el codicador PPC, ya que en este caso la parte tonal est muy bien representada. La seal del diapasn tiene una modulacin de amplitud en cada nota sostenida, que es bien representada por el diagrama de ventanas que usa el codicador PPC. Para el codicador TWN propuesto la seal tiene una calidad aceptable, aunque salen a relucir algunos artefactos. En concreto, el efecto ms audible es la aparicin/desaparicin dentro de la misma nota y de unos segmentos a otros de algunos tonos. Esto produce la sensacin de que vara el contenido espectral, cuando la seal en s es muy estable. La causa a este artefacto se encuentra en que no se realiza un seguimiento entre segmentos de tonos que estn cercanos al umbral de enmascaramiento. Segn [Levine98], para evitar este problema, es necesario tener en cuenta para decidir sobre la audibilidad de un tono si dicho tono es tambin audible en segmentos anteriores. Este proceso de seguimiento lo denomina el autor ltrado (o promediado) de la importancia perceptual.
8.5.7.
Seal sm01
La primera seal del grupo de tres seales de un slo instrumento tocando una meloda se trata de la seal producida por una gaita y, por tanto, la seal es bastante tonal. En este instrumento las notas cambian lentamente mientras el instrumento no deja de sonar, es decir, las frecuencias cambian con el tiempo en la frontera entre las notas. En cuanto a los resultados objetivos que se presentan en la tabla 8.7, se pueden destacar varios aspectos. Como en el caso anterior, el rgimen binario es inferior a 16 Kbit/s, aunque ahora no pasa lo mismo en el codicador PPC. Este bajo rgimen binario se debe en gran medida a que el tamao medio de segmento y, sobre
214

si03
PPC 24 Kbits/s AAC 16 Kbits/s Paso Bajo 3.5 KHz TWN 16 Kbits/s
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
Figura 8.13: Test MUSHRA para la seal si03. Se dibujan los resultados objetivos de la referencia, la
Tabla 8.7: Rgimen binario y otros resultados al codicar el chero sm01.

Fichero Rgimen binario (Kbit/s) Rgimen binario para tonos (Kbit/s) Rgimen binario para wavelet-packets (Kbit/s) Rgimen binario para ruido (Kbit/s) Rgimen binario para AAC-16 (Kbit/s) Rgimen binario para PPC-24 (Kbit/s) Tamao medio de segmento (muestras) Tamao medio de sub-trama de ruido (muestras) No de medio de tonos por segmento No de medio de funciones wavelet-packets por segmento No de medio de polos para la envolvente temporal por sub-trama de ruido No de medio de polos para la envolvente frecuencial por sub-trama de ruido sm01 12,51 9,78 0,16 2,95 18,34 23,48 2257 1877 22,56 0,00 0,75 9,98
todo, el tamao de sub-trama de ruido es elevado. Al ser una seal muy tonal, no hay funciones wavelet-packets y se codican muy pocos polos para modelar la envolvente temporal del ruido. Los resultados subjetivos derivados del test MUSHRA se encuentran grcamente en la gura 8.14. Al igual que en la seal anterior, esta seal producida por la gaita es muy tonal y los mayores defectos se aprecian en la parte tonal: Se obtiene una seal codicada aceptable para AAC. La mayor distorsin encontrada es el efecto birding, aunque no con la intensidad de la seal anterior, por lo que la calicacin perceptual nal es ms alta. Tambin es buena la calidad perceptual que obtiene el codicador PPC. Las diferencian respecto al original se maniestan en una parte tonal con sonido metlico poco realista. El codicador TWN propuesto obtiene ahora la nota ms baja, al evaluar la calidad subjetiva de la seal de gaita codicada; sin embargo, la calicacin obtenida est cercana a la de los otros dos codicadores. Los oyentes maniestan que la seal codicada se escucha ms ruidosa que el original.
8.5. RESULTADOS
sm01
PPC 24 Kbits/s AAC 16 Kbits/s TWN 16 Kbits/s
215
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
Paso Bajo 3.5 KHz
Figura 8.14: Test MUSHRA para la seal sm01. Se dibujan los resultados objetivos de la referencia, la
Tabla 8.8: Rgimen binario y otros resultados al codicar el chero sm02.

Fichero Rgimen binario (Kbit/s) Rgimen binario para tonos (Kbit/s) Rgimen binario para wavelet-packets (Kbit/s) Rgimen binario para ruido (Kbit/s) Rgimen binario para AAC-16 (Kbit/s) Rgimen binario para PPC-24 (Kbit/s) Tamao medio de segmento (muestras) Tamao medio de sub-trama de ruido (muestras) No de medio de tonos por segmento No de medio de funciones wavelet-packets por segmento No de medio de polos para la envolvente temporal por sub-trama de ruido No de medio de polos para la envolvente frecuencial por sub-trama de ruido sm02 6,40 3,15 0,29 2,88 17,83 12,16 2017 1184 6,15 0,30 1,13 5,93
8.5.8.
Seal sm02
Esta meloda se produce con el instrumento glockenspiel, y es una seal interesante puesto que pone de maniesto el modelado de los micro-transitorios. Ahora, la seal de una nota no se ha extinguido cuando de repente aparecen las frecuencias de la nueva nota, lo que provoca un repentino aumento de la energa, aunque no con la fuerza suciente como para hablar de transitorios en la mayora de los casos. Los resultados de rgimen binario junto a otras estadsticas se muestran en la tabla 8.8. Se observa en esta tabla cmo el rgimen binario es muy reducido, algo que pasa tambin en el codicador PPC. La principal causa de este rgimen binario se debe a que la parte tonal tiene un muy bajo rgimen binario, ya que se modelan pocas frecuencias por segmento en trmino medio. Pese a esto, el resultado subjetivo es bueno, como se ver a continuacin. Es destacable tambin que aparecen funciones wavelet-packets modeladas, debido a la deteccin de los micro-transitorios de seal. Los resultados subjetivos al realizar el test MUSHRA se dibujan en la gura 8.15. En este caso, el modelo de micro-transitorios es fundamental para obtener una buena calidad perceptual: La calidad de la seal codicada con AAC es baja. Los errores debidos al efecto birding se maniestan de forma molesta, haciendo que la puntuacin obtenida sea menor que en
216

sm02
PPC 24 Kbits/s TWN 16 Kbits/s AAC 16 Kbits/s Paso Bajo 3.5 KHz
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
otras ocasiones. La calidad obtenida mediante el codicador PPC es aceptable, aunque se noten ltrados los micro-transitorios. Este efecto de ltrado se debe a que el codicador PPC no realiza ms que una segmentacin adaptativa cuando se encuentra un micro-transitorio. Por lo tanto, los micro-transitorios son modelados con tonos lo que provoca un modelo bastante pobre en lo que a contenido espectral se reere. El mejor modelo de micro-transitorios se obtiene con el codicador TWN propuesto. La seal codicada mantiene una buena riqueza espectral en los micro-transitorios de seal, habiendo sido calicada con la nota ms alta por los oyentes.
8.5.9.
Seal sm03
Esta seal se obtiene mediante punteos de un instrumento de cuerda, en concreto de guitarra. En trminos de rgimen binario, ver tabla 8.9, esta seal obtiene unos resultados muy cercanos al rgimen binario objetivo de 16 Kbit/s. Este regimen binario est dominado por los bits dedicados a la parte tonal. El ruido, pese a tener un tamao medio de sub-trama pequeo, obtiene un rgimen binario reducido, ya que casi no se modelan polos para la envolvente temporal. Incluso, aparecen algunas funciones wavelet-packets, ya que se detectan ciertos micro-transitorios en los punteos de guitarra. En los resultados subjetivos de la gura 8.16, obtenidos mediante el test MUSHRA, se aprecia cmo el codicador TWN propuesto obtiene la mayor calidad perceptual. Se detallan a continuacin las causas probables de la puntuacin de cada codicador: El efecto birding vuelve a aparecer en la seal codicada con AAC, lo que hace bajar considerablemente la puntuacin subjetiva. Si bien la seal codicada con PPC tiene sonidos metlicos por la cuanticacin de los tonos, este efecto se aprecia de forma diferente entre oyentes. Como resultado, en media, la calidad obtenida es aceptable.
8.5. RESULTADOS Tabla 8.9: Rgimen binario y otros resultados al codicar el chero sm03.
Fichero Rgimen binario (Kbit/s) Rgimen binario para tonos (Kbit/s) Rgimen binario para wavelet-packets (Kbit/s) Rgimen binario para ruido (Kbit/s) Rgimen binario para AAC-16 (Kbit/s) Rgimen binario para PPC-24 (Kbit/s) Tamao medio de segmento (muestras) Tamao medio de sub-trama de ruido (muestras) No de medio de tonos por segmento No de medio de funciones wavelet-packets por segmento No de medio de polos para la envolvente temporal por sub-trama de ruido No de medio de polos para la envolvente frecuencial por sub-trama de ruido
sm03
PPC 24 Kbits/s TWN 16 Kbits/s AAC 16 Kbits/s Paso Bajo 3.5 KHz
217
sm03 16,90 11,90 0,22 4,72 18,14 23,99 2071 899 25,66 0,13 1,07 7,83
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
La mejor puntuacin de todos los codicadores se obtiene en esta seal con el codicador TWN propuesto. Los oyentes dan la nota ms alta a esta seal codicada, porque obtiene una buena representacin de los punteos de guitarra, sin que se aprecie una seal ruidosa como en otras ocasiones.
8.5.10.
Seal sc01
La primera del grupo de tres seales ms complejas es un solo de trompeta. Esta seal se caracteriza por ser una seal tonal con un cambio rpido en el tiempo de las notas musicales. En cuanto a los resultados objetivos, representados en la tabla 8.10, no hay muchas particularidades que poner de maniesto. La seal obtiene una rgimen binario algo superior a los 16 Kbit/s. Aunque domina la parte tonal en trminos de rgimen binario, la parte ruidosa tiene un rgimen binario elevado con una gran cantidad de polos tanto para la envolvente espectral como temporal. Este resultado es inquietante, porque indica que la parte ruidosa es importante en energa, aunque se trate de una seal tonal. Los resultados subjetivos de los tres codicadores evaluados bajo el test MUSHRA en la gura 8.17 son relativamente buenos. Se puede destacar para cada codicador:
218
CAPTULO 8. CODIFICADOR PARAMTRICO PROPUESTO Tabla 8.10: Rgimen binario y otros resultados al codicar el chero sc01.
sc01
sc01 17,87 10,90 0,24 6,62 18,65 23,13 1844 1250 21,16 0,20 8,26 8,50
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
Figura 8.17: Test MUSHRA para la seal sc01. Se dibujan los resultados objetivos de la referencia, la seal ltrada paso bajo a 3,5 KHz, la seal codicada con AAC-16 Kbit/s, la seal codicada con PPC-24 Kbit/s y la seal codicada con el codicador propuesto (TWN). Con AAC, el comportamiento del proceso de codicacin es muy bueno, quizs debido a que se trata de una seal con un contenido espectral concentrado en frecuencias relativamente bajas. La calidad de la seal codicada con PPC es tambin buena, ya que no se aprecian demasiado los sonidos metlicos de la codicacin de los tonos en este caso. Ahora el codicador PPC obtiene un resultado algo peor en calidad perceptual. La causa se deriva de la fuerte energa de la parte ruidosa, que no es capaz de seguir los rpidos cambios de las notas de la seal original. Este efecto de pre-eco se aprecia en la seal codicada.
8.5.11.
Seal sc02
La seal sc02 es una pieza orquestal con unas caractersticas bastante tonales. Las notas musicales cambian lentamente con el tiempo. En lo que a rgimen binario se reere, presentado en la tabla 8.11, se encuentra muy cercano a los 16 Kbit/s. Como seal tonal, el tamao de segmento es grande, no hay funciones wavelet-packets y el nmero de polos de la envolvente temporal del ruido es reducido.
8.5. RESULTADOS Tabla 8.11: Rgimen binario y otros resultados al codicar el chero sc02.
sc02
AAC 16 Kbits/s PPC 24 Kbits/s TWN 16 Kbits/s
219
sc02 16,46 10,60 0,16 5,63 17,99 24,42 2215 931 24,46 0,00 2,97 7,42
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
Paso Bajo 3.5 KHz
Figura 8.18: Test MUSHRA para la seal sc02. Se dibujan los resultados objetivos de la referencia, la seal ltrada paso bajo a 3,5 KHz, la seal codicada con AAC-16 Kbit/s, la seal codicada con PPC-24 Kbit/s y la seal codicada con el codicador propuesto (TWN). Los resultados subjetivos obtenidos aplicando el test MUSHRA se representan en la gura 8.18. Los comentarios acerca de la calidad de cada seal codicada se realizan a continuacin: La calidad obtenida con el codicador AAC es muy buena, no aprecindose artefactos importantes. Con PPC, la calidad disminuye, debido en gran medida a una parte tonal metlica y a que el ruido es algo diferente del original. El codicador TWN obtiene el peor resultado, porque se aprecia un ruido poco natural. La energa modelada con el ruido es mucha y el modelo implementado no obtiene un resultado natural, aprecindose un eco de ruido en la seal codicada.
8.5.12.
Seal sc03
La ltima seal evaluada es una seal de pop contemporneo. Esta seal est formada por varios instrumentos, algunos de ellos de percusin, y tiene una energa cambiante con el tiempo. Los resultados objetivos se muestran en la tabla 8.12. Para esta seal, el codicador propuesto
220
CAPTULO 8. CODIFICADOR PARAMTRICO PROPUESTO Tabla 8.12: Rgimen binario y otros resultados al codicar el chero sc03.
sc03
sc03 20,76 14,25 0,23 6,20 18,40 24,77 1706 1094 26,07 0,05 5,53 7,81
Puntuacin MUSHR
100 80 60 40 20 0
Referencia oculta
Figura 8.19: Test MUSHRA para la seal sc03. Se dibujan los resultados objetivos de la referencia, la seal ltrada paso bajo a 3,5 KHz, la seal codicada con AAC-16 Kbit/s, la seal codicada con PPC-24 Kbit/s y la seal codicada con el codicador propuesto (TWN). obtiene el mayor rgimen binario con un valor algo superior a 20 Kbit/s. Se puede observar cmo el rgimen binario dedicado a la parte tonal ocupa casi las tres cuartas partes de la asignacin de bits. Tambin el ruido requiere un rgimen binario alto en relacin a otras seales codicadas. Los resultados subjetivos con el test MUSHRA son similares y aceptables para los tres codicadores evaluados, mostrndose en la gura 8.19. Para cada codicador se puede decir que: Con AAC, la seal se escucha algo ltrada en general. Con PPC, la seal esta bien representada. Slo se nota algo metlica en los golpes de percusin. Con el codicador TWN propuesto, la seal obtiene una buena representacin de los golpes de percusin, aunque se aprecia ruidosa en general.
8.5.13.
Resultados en trmino medio
Por ltimo, se van a mostrar los resultados objetivos y subjetivos en media de todas las seales evaluadas con anterioridad. En lo que a rgimen binario se reere, los resultados en
8.5. RESULTADOS
221
Tabla 8.13: Rgimen binario y otros resultados en media al codicar todos las seales evaluadas.
Todos los cheros Rgimen binario (Kbit/s) Rgimen binario para tonos (Kbit/s) Rgimen binario para wavelet-packets (Kbit/s) Rgimen binario para ruido (Kbit/s) Rgimen binario para AAC-16 (Kbit/s) Rgimen binario para PPC-24 (Kbit/s) Tamao medio de segmento (muestras) Tamao medio de sub-trama de ruido (muestras) No de medio de tonos por segmento No de medio de funciones wavelet-packets por segmento No de medio de polos para la envolvente temporal por sub-trama de ruido No de medio de polos para la envolvente frecuencial por sub-trama de ruido 16,10 9,67 0,79 5,57 18,40 22,33 2003 1109 20,00 1,68 4,37 7,42
media se muestran en la tabla 8.13. El rgimen binario medio est muy prximo a los 16 Kbit/s, siendo la mayor parte debido a los tonos. El ruido viene a ocupar un tercio del rgimen binario nal, mientras que los transitorios tienen un rgimen binario medio reducido, ya que aparecen en pocas de las seales tenidas en consideracin en esta evaluacin. Se puede destacar adems que el rgimen binario medio de AAC es algo mayor del objetivo marcado de 16 Kbit/s. Los resultados subjetivos medios obtenidos con el test MUSHRA para todas las seales consideradas son similares para los tres codicadores evaluados y se muestran en la gura 8.20. La calidad es ligeramente superior en media para el codicador PPC (que es el que tiene un mayor rgimen binario), siendo similar en AAC y el codicador TWN propuesto. El intervalo de conanza es mayor, debido a la variacin de las calicaciones entre las distintas seales. Esta variacin es mayor en TWN, puesto que se comporta bien para unas seales y relativamente mal para otras, es decir, tiene una alta variabilidad en funcin del tipo de seal evaluada. Algo similar ocurre en AAC, mientras que en PPC la calicacin es ms estable entre seales. Para cada codicador se pueden realizar los siguientes comentarios: AAC obtiene una muy buena nota en las seales tonales donde no aparece el efecto birding ; mientras que en aquellas seales tonales donde este efecto se pone de maniesto la calicacin subjetiva obtenida es mucho ms baja. En las seales con transitorios y microtransitorios las seales se perciben ltradas y la calidad subjetiva es baja. Sin embargo, en las seales vocales la calidad es elevada. PPC es un codicador robusto para las seales evaluadas, obteniendo una calidad aceptable para la mayora de las seales. Para las seales vocales, PPC, an teniendo una calidad relativamente baja, se comporta de forma robusta. Las seales con transitorios y microtransitorios tampoco obtienen una buena nota, porque no se obtiene un resultado natural desde un punto de vista perceptual, si bien este codicador ofrece un comportamiento robusto, ya que posee herramientas especcas para modelar estas seales. En las seales tonales, el artefacto ms importante es el sonido metlico de la cuanticacin de los tonos, en funcin del cual la calidad puede ser aceptable o muy buena; adicionalmente, algunas seales se escuchan un poco ruidosas. Es importante destacar que, segn algunas referencias
222

todas las seales
PPC 24 Kbits/s AAC 16 Kbits/s Paso Bajo 3.5 KHz
Puntuacin MUSHRA
100 80 60 40 20 0
Referencia oculta
TWN 16 Kbits/s
Figura 8.20: Valores del test MUSHRA en media para todas las seales de prueba. Se dibujan los resultados objetivos de la referencia, las seales ltradas paso bajo a 3,5 KHz, las seales codicadas con AAC-16 Kbit/s, las seales codicadas con PPC-24 Kbit/s y las seales codicadas con el codicador propuesto (TWN). bibliogrcas [Brinker02], PPC a 24 Kbit/s obtiene una calidad muy similar en media a AAC a 24 Kbit/s. El codicador TWN propuesto tiene una calidad bastante variable en funcin de la seal evaluada. Para seales vocales, la calidad es reducida por el ruido poco natural que se escucha como eco, no obtenindose un resultado satisfactorio. Para seales tonales, la calidad es directamente proporcional a la sensacin de seal ruidosa. En ciertas seales tonales este efecto es importante mientras que en otras casi no se aprecia. Los mejores resultados subjetivos se obtienen en seales con transitorios y micro-transitorios, ya que con las herramientas empleadas para su modelado se obtienen unos fantsticos resultados subjetivos manteniendo un rgimen binario reducido. Para terminar este documento, se pasar a realizar los comentarios acerca de las conclusiones que se extraen de este trabajo de investigacin y de las importantes lneas futuras que se dibujan como caminos a seguir a partir de los resultados obtenidos.
Parte III
Conclusiones y Lneas Futuras
223
Captulo 9
Conclusiones
Antes de empezar las conclusiones y lneas futuras de investigacin, es preciso tener en cuenta que esta tesis ha estado encaminada al desarrollo de modelos de seal paramtricos con aplicacin a la codicacin de audio. En este sentido, la aplicacin implementada se ha diseado con orientacin a la realizacin de streaming de audio. Adems, se ha tenido en cuenta que la adaptacin del codicador propuesto hacia una versin escalable sea fcil y sencilla. Con estas consideraciones, en el codicador propuesto la informacin es completamente independiente entre segmentos de seal. Esta restriccin no est presente en el codicador paramtrico estandarizado PPC. En cambio, el codicador AAC s que tiene implementadas herramientas que permiten que AAC sea escalable y se utilice en algunas aplicaciones de streaming de audio. A partir de los resultados del codicador paramtrico TWN propuesto y de los modelos de seal de transitorios, tonal y de ruido expuestos a lo largo de este documento, se pueden extraer una serie de conclusiones que aclaran la utilidad de las tcnicas de codicacin implementadas. Las conclusiones extradas son bsicamente las siguientes: Codicador de audio propuesto. El uso de modelos de seal paramtricos en una aplicacin de codicacin de audio orientada a realizar streaming por internet permite el desarrollo de un codicador completamente paramtrico. Este codicador divide la seal en tonos, transitorios y ruido. Con un modelo tonal con guiado y parada perceptuales, un modelo de transitorios con un diccionario mixto formado por funciones wavelet packets y exponenciales complejas, y un modelo de ruido que obtiene la envolvente en frecuencia mediante warped LPC y la envolvente temporal mediante LPC, es posible disear un codicador paramtrico de audio con un rgimen binario medio de 16 Kbit/s y una buena calidad subjetiva de seal. Modelo de transitorios. En el codicador paramtrico propuesto, el modelo de transitorios se utiliza para modelizar los transitorios de audio y, tambin, para obtener un modelo de los micro-transitorios. Para cada caso se aplica en el codicador propuesto de una forma diferente. Se puede implementar un modelo paramtrico para los transitorios de seal de audio basado en el empleo del algoritmo matching pursuits con un diccionario mixto de funciones wavelet-packets y exponenciales complejas, el cual consigue una calidad excelente en los transitorios codicados con un rgimen binario muy reducido. El uso de 225
226
CAPTULO 9. CONCLUSIONES este diccionario mixto permite una modelizacin ms exacta de los transitorios de audio con un nmero de funciones menor que en el caso de los diccionarios en serie. Se ha comprobado, adems, como este diccionario mixto obtiene un modelo ms apropiado de los transitorios de audio que un diccionario de funciones sinusoidales amortiguadas exponencialmente, que es la aproximacin ms utilizada en la bibliografa especializada. Para realizar la actualizacin de las correlaciones en el algoritmo matching pursuits con el diccionario mixto propuesto, es necesario tener almacenado en memoria la DFT de las funciones wavelet-packets. Se puede reducir la cantidad de memoria requerida, si se tienen en cuenta las propiedades de desplazamiento en el tiempo de las funciones wavelet-packets que pertenecen al mismo nodo del rbol de descomposicin. Se ha llegado a demostrar que se pueden actualizar las correlaciones cruzadas guardando en memoria slo la FFT de la respuesta de cada nodo del rbol de descomposicin WP. Para el modelado de los micro-transitorios de audio, un modelo tonal seguido de un modelo de transitorios (con algoritmo matching pursuits y un diccionario de funciones wavelet-packets) obtiene un rgimen binario muy reducido con una buena representacin de estas seales. Se emplea este modelo para los micro-transitorios de audio ante la imposibilidad de detectar esta caracterstica de la seal de audio con un simple detector de transitorios. De hecho, los micro-transitorios slo pueden ser detectados una vez aplicado el modelo tonal a la seal a analizar. Por tanto, cuando se detecta un micro-transitorio en el residuo que produce el modelo tonal, se aplica un modelo de transitorios basado en el algoritmo matching pursuits con un diccionario de funciones wavelet-packets sobre este residuo.
Modelo sinusoidal. El modelo sinusoidal obtiene una seal tonal sinttica con una calidad muy natural usando un guiado perceptual en la extraccin tonal, una parada del algoritmo matching pursuits basada en criterios perceptuales, y un esquema de cuanticacin con un nmero variable de bits por amplitud de cada tono basado en el clculo de un sencillo umbral de enmascaramiento tanto en codicacin como en decodicacin. Las contribuciones realizadas en el modelo tonal se detallan a continuacin. Para realizar el guiado perceptual del algoritmo matching pursuits se ha denido una nueva medida de la importancia perceptual de cada tono, basada en la integracin en banda de Bark de la divisin entre la amplitud del tono y el umbral de enmascaramiento. Esta nueva denicin en banda de Bark permite una mejor discriminacin entre tonos y ruido que la denicin en frecuencia encontrada en la bibliografa especializada. Adems, la integracin en banda de Bark permite una reduccin de la complejidad computacional asociada a la medida de importancia perceptual. Se puede realizar una parada perceptual del algoritmo matching pursuits guiado perceptualmente realizando una correcta inicializacin de los umbrales de enmascaramiento. El umbral en la primera iteracin del algoritmo matching pursuits se debe inicializar al umbral de silencio ms el umbral de ruido sobre tonos. La inclusin de este ltimo es necesaria para evitar la seleccin de tonos que hayan sido enmascarados por el ruido presente en la seal. En cada iteracin del algoritmo matching pursuits se debe sumar al umbral de enmascaramiento la contribucin del tono extrado. De
227 esta forma, cuando la importancia perceptual para todos los tonos est por debajo del umbral de enmascaramiento se detiene el algoritmo matching pursuits. Con este enfoque, se tienen en cuenta todas las fuentes de enmascaramiento de cada tono y, como consecuencia, se detiene el algoritmo cuando los tonos que quedan en el residuo son inaudibles. Para realizar la cuanticacin de las amplitudes de cada tono en el modelo sinusoidal, la aproximacin ms comn en la bibliografa especializada es la cuanticacin de todas las amplitudes con el mismo nmero de bits por amplitud y, de esta forma, no tener que enviar informacin lateral relativa al nmero de bits por tono. Con este enfoque, la calidad de la seal sinttica del modelo tonal se aleja mucho de ser transparente. En esta tesis se ha desarrollado un esquema de cuanticacin que permite un nmero de bits variable para la amplitud de cada tono. Este esquema se basa en el clculo, tanto en codicacin como en decodicacin, de un sencillo umbral de enmascaramiento, a partir del cual, estimar el nmero de bits para la amplitud de cada tono. De esta forma, se evita el envo de informacin lateral, obtenindose a la vez una seal sinttica con una mejor calidad. En las pruebas realizadas, el esquema de cuanticacin propuesto para las amplitudes tonales obtiene mejor calidad y menor rgimen binario que otras propuestas encontradas en la bibliografa especializada. Modelo de ruido. El modelo de ruido parametriza la envolvente en tiempo y frecuencia del residuo dejado por los otros modelos. En el decodicador se genera ruido blanco y se ltra para obtener la misma envolvente en tiempo y frecuencia. En codicacin paramtrica de audio, la separacin de la seal entre tonos y ruido en el modelo de ruido es un punto crtico. Tanto es as que, en el caso de seales vocales, el modelo que desarrollan los codicadores paramtricos no obtiene una buena representacin de estas seales. Para el modelo de ruido se ha trabajado sobre las siguientes cuestiones. En relacin a la separacin entre tonos y ruido, y teniendo en cuenta el modelo tonal propuesto, la seal de entrada se puede dividir tericamente en tonos audibles, tonos inaudibles y ruido. En este sentido, las simulaciones realizadas no aconsejan eliminar la energa de los tonos inaudibles de seal, sino modelizar esta energa mediante el modelo de ruido. La causa de este resultado se debe a que la separacin entre tonos inaudibles y ruido no se puede realizar de forma satisfactoria. El modelado de los tonos inaudibles como ruido, aunque vlido en general para seales musicales, no proporciona un buen resultado para las seales vocales, ya que en este caso cuando la seal es sonora no se debe generar una seal ruidosa. Como conclusin, los codicadores paramtricos, basados en la descomposicin en un mismo segmento de seal estacionaria de tonos y ruido, se deben utilizar en aplicaciones donde la seal sea una seal musical. En base a las pruebas realizadas, se puede considerar en general que un modelo de ruido basado en warped -LPC obtiene mejor calidad que un modelo basado en ltros ERB. La explicacin de este hecho se encuentra en que el modelo basado en warped LPC obtiene una representacin ms exacta del residuo en baja frecuencia, que es donde el odo humano tiene una mayor sensibilidad.
228
CAPTULO 9. CONCLUSIONES Se puede denir un modelo warped -LPC pesado perceptualmente si se modela la envolvente resultante de dividir en frecuencia la seal y el umbral de enmascaramiento. Sin embargo, aunque el modelo de ruido obtenido con este enfoque consigue una seal menos ruidosa, la ventaja introducida no es general para todas las seales, ya que en algunas ocasiones la seal generada por el modelo de ruido se escucha con eco y ltrada. Este resultado inapropiado se obtiene en seales donde el residuo tiene un pitch denido como consecuencia de la importancia de los tonos no audibles. En cualquier caso, el uso de warped -LPC pesado perceptualmente se puede considerar una herramienta prometedora en el momento en que se solucionen los problemas de separacin entre tonos y ruido. Se puede obtener una buena envolvente en tiempo usando la estrategia de TNS sobre el residuo. La idea es utilizar un ltro predictor basado en LPC sobre la transformada del residuo. Al realizar la prediccin sobre las muestras de la FFT del residuo, se consigue un ltro LPC en frecuencia cuya respuesta temporal tiene la forma de la envolvente del residuo. Con este esquema se obtiene una envolvente natural, pudiendo determinar el nmero de polos del ltro predictor a partir de la ganancia de prediccin de cada polo. Una vez implementado este esquema en el codicador propuesto se consigue un bajo rgimen binario para modelizar la envolvente del residuo en el tiempo.
Captulo 10
Lneas futuras de investigacin

Se dedican los siguientes prrafos a realizar una recopilacin de aquellas cuestiones que han quedado abiertas durante la investigacin realizada, as como a sealar algunas nuevas direcciones de trabajo en el campo de los modelos de seal paramtricos para seal de audio. Las lneas de investigacin que, a juicio del autor, pueden resultar interesantes de abordar en un futuro son las siguientes: La primera lnea de trabajo abierta a partir del trabajo realizado en esta tesis doctoral es la implementacin de una versin escalable del codicador TWN propuesto. En el codicador escalable a desarrollar se debe separar la informacin de cada segmento en capas, estando formada cada capa por parmetros que tengan una importancia perceptual similar. La idea es partir de una capa bsica con un rgimen binario reducido que, gracias a la informacin de las capas superiores, rene la calidad de la seal codicada. Adems, para reducir la cantidad de informacin codicada se debe trabajar en la codicacin intra-trama de las frecuencias y las fases del modelo tonal. Una vez realizado este trabajo, la evaluacin de este codicador consistira en la revisin de los protocolos a utilizar en la aplicacin de streaming por internet que utilice este codicador, en el desarrollo de estrategias de difusin y multidifusin que eviten el corte de la comunicacin cuando se producen errores en la transmisin de paquetes o una sobrecarga en la red y, por ltimo, en la evaluacin de los codicadores actualmente utilizados en internet para streaming de audio. Este trabajo ya se ha comenzado [Cuevas05] [Cuevas06], habiendo sido aprobado en nuestro departamento un proyecto de tesis en esta lnea a desarrollar por el profesor Juan Carlos Cuevas Martnez. Una lnea de trabajo que se puede empezar con independencia de la anterior es la implementacin de un codicador paramtrico generalista, que consiga una buena calidad tanto en codicacin de msica como en codicacin de voz. En este sentido, los ltimos trabajos realizados [Munoz05] indican que una etapa de pre-procesamiento con extraccin de sencillas caractersticas a partir de la seal de entrada puede decidir si la seal es msica o voz con un alto ndice de acierto. En caso de decidir que la seal es musical, el codicador a usar sera, por ejemplo, el codicador propuesto en esta tesis, mientras que si se decide que la seal es de voz, un vocoder parece ser la mejor eleccin. Con esta decisin msica/voz el sistema implementa la primera etapa del rbol de clasicacin de seales de audio. De nuevo, los trabajos en esta lnea ya se han comenzado con xito aplicando caractersticas 229
230
CAPTULO 10. LNEAS FUTURAS DE INVESTIGACIN conocidas y un sistema basado en lgica borrosa [Munoz06], y tambin se ha aprobado en el departamento al que pertenezco un proyecto de tesis a desarrollar por el profesor Jos Enrique Muoz Expsito. En el campo de los modelos de seal paramtricos con uso en codicacin de audio, se pueden comenzar nuevas investigaciones. As, parece interesante evitar que la extraccin tonal guiada perceptualmente dependa de la medida de tonalidad de cada banda. Una posible solucin es emplear el modelo de enmascaramiento que aparece en [Par02], donde la mscara se obtiene al pasar la seal de audio por un sistema que imita el tratamiento que se produce en el odo humano. Este sistema devuelve si la seal es o no audible en base a la distorsin producida dentro del sistema. Por otra parte, en los ltimos trabajos encontrados en la bibliografa [Gribonval03] se realiza un modelado sinusoidal con extraccin de un complejo armnico completo. Esta idea es muy interesante puesto que, por ejemplo, para seal de voz evitara los errores del modelo, ya que en un fonema sonoro si se extrae todo el complejo armnico generado (en vez de ser tratados como tonos individuales) la separacin entre tonos y ruido sera ptima. Se pueden aplicar, en este sentido, las aportaciones realizadas en esta tesis doctoral con respecto al modelado sinusoidal. La idea consiste en tratar al complejo armnico como un conjunto, evitando el tratamiento individualizado de cada tono, que ofrece mucha menos informacin en la discriminacin entre tonos y ruido. Agrupando en la importancia perceptual de cada conjunto armnico la de los tonos individuales que lo forman, se puede conseguir una mejora en la discriminacin entre los tonos que pertenecen a un conjunto armnico y aquellos que pertenecen a zonas de ruido, con lo que se mejora sobremanera la distincin entre tonos y ruido, que es el problema ms critico encontrado en codicacin paramtrica de audio. En cuanto al modelo de ruido, se puede modicar el modelo de ruido para incluir en la generacin del mismo, aparte de ruido blanco, la posibilidad de generar ruido multipulso [Ding97]. Con esta opcin, se podr modelar de forma ms satisfactoria el residuo cuando ste posee una parte determinstica proveniente de tonos no eliminados en la seal. Los modelos de seal diseados a lo largo del trabajo realizado en esta tesis doctoral pueden ser utilizados en otras aplicaciones distintas a la codicacin de audio. Un posible campo de aplicacin es el desarrollo de sistemas de clasicacin de seales de audio en base a los parmetros extrados por cada modelo. Por ejemplo, las funciones wavelet-packets extradas en cada seal dan una idea muy precisa del contenido en transitorios y micro-transitorios de la seal en cuestin. Desde otro punto de vista, otra posible aplicacin es la separacin de fuentes en audio. En este caso, el modelo tonal es muy efectivo al estar basado en consideraciones perceptuales. Por ejemplo, suponiendo una situacin prctica, si se desea implementar un sistema que elimine el ruido de fondo en una comunicacin mvil realizada dentro de un vehculo, el modelado de ruido contiene la energa correspondiente al ruido de fondo. As, con un modelo apropiado de los patrones de este ruido, se puede llegar a separar el ruido de fondo de la seal de voz. Incluso, en trminos ms vagos, puede llegar a ser posible separar dos instrumentos tonales, si, a partir de los tonos audibles, se consigue determinar a qu complejo armnico pertenece cada tono individual, para realizar como consecuencia inmediata la separacin de los tonos que pertenecen a cada instrumento.
231 Como se puede observar estas lneas de investigacin son ciertamente esperanzadoras y se esperan que sean fructferas con el objetivo de desarrollar una investigacin de calidad que permita, tanto la publicacin de las aportaciones cientcas que se realicen, como una aplicacin de los resultados en contratos entre universidad y empresa.
232
CAPTULO 10. LNEAS FUTURAS DE INVESTIGACIN
Publicaciones asociadas
Revistas incluidas en JCR
1. P. Vera Candeas, N. Ruiz Reyes, D. Martinez Muoz, M. Rosa Zurera y M. Lucena. Sinusoidal Modelling with Complex Exponentials for Speech and Audio Signals. Lecture Notes in Computer Science (Springer-Verlag). Vol. 2652, pp. 1049-1056, Junio, 2003. 2. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J. Curpin Alonso y F. Lpez Ferreras. New matching pursuit based sinusoidal modelling method for audio coding. IEE Proceedings - Vision, Image and Signal Processing. Vol. 151, pp. 21-28, Febrero, 2004. 3. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, D. Martinez Muoz y F. Lpez Ferreras. Transient Modeling by Matching Pursuits with a Wavelet Dictionary for Parametric Audio Coding. IEEE Signal Processing Letters. Vol. 11, no. 3, pp 349-352, Marzo, 2004. 4. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras. Fast implementation of an improved parametric audio coder based on a mixed dictionary. Signal Processing. Vol. 86, no. 3, pp. 432-443, Marzo, 2005. 5. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras. Adaptive Signal Models for Wide-Band Speech and Audio Compression. Lecture Notes in Computer Science (Springer-Verlag). Vol. 3523, pp. 571-576, Marzo, 2005. 6. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras. Sinusoidal Modelling Using Perceptual Matching Pursuits in the Bark Scale for Parametric Audio Coding. IEE Proceedings - Vision, Image and Signal Processing. In press, 2006.
Congresos internacionales
1. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, F. Lpez Ferreras y D. Martnez Muoz. Matching pursuit based audio coding approach. 2nd Cost Workshops on Information and Knowledge Management for Integrated Media Communication. Conference proceedings, Florencia, Italia, Marzo, 2002. 2. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, F. Lpez Ferreras y D. Martnez Muoz. Energy-adapted matching pursuits in multi-parts models for audio coding purposes. 112th Audio Engineering Society (AES) Convention. Preprint 5570, Munich, Alemania, Mayo, 2002. 233
234
3. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, D. Martnez Muoz y M. Lucena. Sinusoidal Modelling with Complex Exponentials for Speech and Audio Signals. 1st Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA 2003). Conference Proceedings, Palma de Mallorca, Espaa, Junio, 2003. 4. P. Vera Candeas, N. Ruiz Reyes, D. Martinez Muoz, J. Curpin Alonso, F. Montero de Espinosa y R. Vicen Bueno. High resolution pursuit for detecting aws close to the surface of strongly scattering materials in NDT applications. Ultrasonics International 2003. Granada, Espaa, Julio, 2003. 5. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera y J.M. Fuertes. A new sinusoidal modeling approach for parametric audio coding. 3rd IEEE International Symposium on Image and Signal Processing and Analysis (ISISPA 2003). Conference Proceedings, Roma, Italia, Septiembre, 2003. 6. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J. Curpin Alonso y P.J. Reche Lpez. Signal-adaptive parametric modeling for high quality low bit rate audio coding. 116th AES convention. Preprint 6176, Berln, Alemania, Mayo, 2004. 7. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y P.J. Reche Lpez. Parametric audio coding based on adaptive signal models. 12th European Signal Processing Conference (EUSIPCO-2004). Conference Proceedings, Viena, Austria, Septiembre, 2004. 8. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y J.L. Blanco Claraco. A Sinusoidal Modeling Approach Based on Perceptual Matching Pursuits for Parametric Audio Coding. 118th Audio Engineering Society (AES) Convention. Convention papers, preprints, Barcelona, Espaa, Mayo, 2005. 9. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y F. Lpez Ferreras. Adaptive Signal Models for Wide-Band Speech and Audio Compression. 2nd Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA 2005). Conference Proceedings, Estoril, Portugal, Junio, 2005. 10. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y J.M. Garca. Matching pursuit based on a mixed dictionary composed of Sines + Wavelets for parametric audio coding. 5th EURASIP Conf. on Speech and Image Processing, Multimedia Communications and Services. Conference Proceedings, Smolenice, Eslovaquia, Julio, 2005. 11. P. Vera Candeas, N. Ruiz Reyes, M. Rosa Zurera, J.C. Cuevas Martnez y J.M. Garca. Using a Sines + Wavelets mixed dictionary for improving matching pursuit-based parametric audio coding. 13th European Signal processing conference (EUSIPCO-2005). Conference Proceedings, Antalya, Turqua, Septiembre, 2005.
Otras revistas cientcas

1. P. Vera Candeas, N. Ruiz Reyes, D. Martnez Muoz, J. Curpin Alonso y P.J. Reche Lpez. Post-processing modications in a parametric audio coder. WSEAS Transactions on Communications. Vol. 3, pp. 675-678, Julio, 2004.
235
Congresos nacionales
1. P. Vera Candeas, M. Rosa Zurera, J. Curpin Alonso y J. Pieiro. Uso de descomposiciones atmicas para la mejora del modelado sinusoidal en codicacin de audio. XVI Symposium Nacional de la U.R.S.I.. Actas del congreso, pp. 51-52, Madrid, Espaa, Septiembre, 2001.
236
Bibliografa
[Adler96] J. Adler, B. Rao, and K. Kreutz-Delgado. Comparison on basis selection methods. Conference Record 13rd Asilomar Conference on Signals, Systems and Computers, 1:252257, November 1996. M. Ali. Adaptive signal representation with application in audio coding. PhD thesis, University of Minnesota, 1995.
[Ali95]
[Askenfelt00] A. Askenfelt and A. Galembo. Study of spectral inharmonicity of musical sound by the algorithms of pitch extraction. Acoustical Physics, 46(2):121132, 2000. [Barbarossa98] S. Barbarossa, A. Scaglione, and G.B. Giannakis. Product high-order ambiguity function for multicomponent polynomial-phase signal modeling. IEEE Trans. Signal Processing, 46(3):691707, 1998. [Beer92] J.G. Beerends and J.A. Stemerdink. A perceptual audio quality measure based on a psychoacoustic sound representation. Journal of the AES, 40(12):963978, 1992. T. Berger. Rate Distortion Theory. Englewood Clis, 1971.
[Berg71]
[Brandenburg90] K. Brandenburg and J. Johnston. Second generation perceptual audio coding: The hibrid coder. Proc. of the 88th AES-Convention, 1990. Preprint 2937. [Brandenburg91] K. Brandenburg. Aspec coding. Proc. of the 10st Int. conf. of the AES, pages 8190, 1991. [Brandenburg97] K. Brandenburg and M. Bosi. Overview of mpeg audio: Current and future standards for low bit-rate audio coding. Journal of the AES, 45:421, 1997. [Breebaart04] J. Breebaart, S. van der Par, A. Kohlraush, and E. Schuijers. High-quality parametric spatial audio coding at low bit rates. Proc. of the 116th AES-Convention, May 2004. Preprint 6072, Berlin, Germany. [Brink64] G. ven den Brink. Detection of tone pulse of various durations in noise of various bandwidths. J. Acoust. Soc. Am., 36:12061211, 1964. A. C. den Brinker, , and A. W. J. Oomen. Fast arma modelling of power espectral density functions. Proc. of the 10th European Signal Processing Conference (EUSIPCO), pages 12291232, September 2000. Tampere, Finland. 237
[Brinker00]
238 [Brinker02]
BIBLIOGRAFA A. C. den Brinker, E. G. P. Shuijers, and A. W. J. Oomen. Parametric coding for high quality audio. Proc. of the 112th AES-Convention, May 2002. Preprint 5554, Munich, Germany. A. C. den Brinker and F Riera-Palou. Pure linear prediction. Proc. of the 115th AES-Convention, October 2003. Preprint 5924, New York, USA. A. C. den Brinker. Meixner-like functions having a rational z-transform. Int. J. Circuit Theory Appl., 23:237246, 1995. S. Buus, E. Schorer, M. Florentine, and E. Zwicker. Decision rules in detection of simple and complex tones. J. Acoust. Soc. Am., 80:16461657, 1986. S.S. Chen. Basis Pursuit. PhD thesis, Departament of Statistics. Standford University, 1995. S. Chen and J. Wigger. Fast orthogonal least squares algorithm for ecient subset model selection. IEEE Trans. Signal Processing, 43(7):17131715, 1995. S.S. Chen, D. Donoho, and M. Saunders. Atomic decomposition by basis pursuit. Standford University, Tech. Report, February 1996. Available at playfair.standford.edu. L. Cohen. Time-frequency signal analysis. Englewood Clis, Prentice-Hall, 1995.
[Brinker03] [Brinker95] [Buus86] [Chen95] [Chen95b] [Chen96]
[Cohen95]
[Coifman92] R.R. Coifman and M.V. Wickerhauser. Entropy-based algorithms for best-basis selection. IEEE Trans. Information Theory, 38:713718, 1992. [Cuevas05] J.C. Cuevas, P. Vera, and N. Ruiz. Scalable parametric audio coder for internet audio streaming. 118th AES convention, pages Convention papers, preprints, May 2005. Barcelona, Spain. J.C. Cuevas, P. Vera, and N. Ruiz. A community hierarchic based approach for scalable parametric audio multicasting over the internet. 120th AES convention, pages Convention papers, preprints, May 2006. Paris, France.
[Cuevas06]
[Daubechies88] I. Daubechies. Time-frequency localization operators: a geometric phase space approach. IEEE Transactions on Information Theory, 34(4):605612, 1988. [Davis94] [Depalle97] G. Davis. Adaptive nonlinear approximations. PhD thesis, Departament of Mathematics. New York University, 1994. Ph. Depalle and T. Hlie. Extraction of spectral peak parameters using a shorttime fourier transform modeling and no sidelobe windows. IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics, pages 1922, 1997. New York, USA.
[Desainte00] M. Desainte-Catherine and S. Marchand. High-precision fourier analysis of sounds using signal derivatives. J. Acoust. Soc. Am., 48(7/8):654667, July/Aug. 2000.
BIBLIOGRAFA [Dietz02]
239
M. Dietz, L. Liljeryd, K. Kjorling, and O. Kunz. Spectral band replication, a novel approach in audio coding. Proc. of the 112th AES Convention, April 2002. Preprint Number 5553. M. Dietz. Mpeg-4 extension 1: Bandwidth enhancement. 113th AES Convention, March 2003. Workshop on Recent Developments in MPEG-4 Audio. Y. Ding and X. Qian. Sinusoidal and residual decomposition and residual modeling of musical tones using the quasar signal model. Proc. of the International Computer Music Conference, pages 3542, September 1997. B. Edler, H. Purnhagen, and C. Ferekidis. Asac - analysis/synthesis audio codec for very low bit rates. Proc. of the 100th AES-Convention, May 1996. Preprint 4179, Copenhagen, Denmark. B. Edler and H. Purnhagen. Concepts for hybrid audio coding schemes based on parametric techniques. Proc. of the 105th AES-Convention, September 1998. Preprint 5554, San Francisco, USA. K. Fitz and L. Haken. Bandwith enhanced sinusoidal modeling in lemur. Proc. of the International Computer Music Conference, pages 154157, September 1995.
[Dietz03]
[Ding97]
[Edler96]
[Edler98]
[Fitz95]
[Flanagan66] J.L. Flanagan and R.M. Golden. Phase vocoder. Bell Laboratories, Tech. Report, 1966. Bell Syst. Tech. J. 45. [Fletcher40] H. Fletcher. Auditory patterns. Rev. Mod. Phys., pages 4765, Enero 1940. [Fletcher64] H. Fletcher. Normal vibration frequencies of a sti piano string. J. Acoust. Soc. Am., 36:203209, 1964. [Friedlander95] B. Friedlander and A. Zeira. A oversampled gabor representation for transient signals. IEEE Trans. Signal Processing, 43:20882094, 1995. [Gabor46] D. Gabor. Theory of communication. Journal of the Institution of Electrical Engineers, 93(III-26):429427, 1946.
[Galembo99] A. Galembo and A. Askenfelt. Signal representation and estimation of spectral parameters by inharmonic comb lters with application to the piano. IEEE Trans. Speech Audio Processing, 7(2):197203, 1999. [George87] E.B. George and M.J.T. Smith. A new speech coding model based on a leastsquares sinusoidal representation. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 16411644, 1987. Dallas, USA. E.B. George and M.J.T. Smith. Analysis-by-synthesis/overlap-add sinusoidal modeling applied to the analysis and synthesis of musical tones. Journal of the Audio Engineering Society, 40(6):497515, June 1992.
[George92]
240 [George97]
BIBLIOGRAFA E.B. George and M.J.T. Smith. Speech analysis/synthesis and modications using an analysis-by-synthesis/overlap-add sinusoidal model. IEEE Trans. on Speech and Audio Processing, 5(40):389406, September 1997. P.E. Gill, W. Murray, and M.H. Wright. Numerical linear algebra and optimization. Addison Wesley, 1991. Redwood city, California, USA.
[Gill91]
[Glasberg90] B. Glasberg and B.C.J. Moore. Derivation of auditory lter shapes from notchednoise data. Hearing Res., 47:103138, 1990. [Gonzalez01] N. Gonzalez and A. Pena. An adaptive tiling of the time-frequency plane with application to multiresolution-based perceptual audio coding. Signal Processing, 81:301319, 2001. [Goodwin96] Goodwin M. Residual modeling in music analysis/synthesis. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 10051008, Mayo 1996. [Goodwin97] M.M. Goodwin. Adaptive signal models: Theory, algorithms, and audio applications. PhD thesis, Departament of Electrical Engineering and Computer Science at the University of California, 1997. [Goodwin97b] M.M. Goodwin. Matching pursuit with damped sinusoids. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), 3:20372040, Abril 1997. [Goodwin98] M.M. Goodwin. Adaptive signal models: Theory, algorithms, and audio applications. Kluwer Academic Publishers, 1998. [Gorodnitsky97] I.F. Gorodnitsky and B.D. Rao. Sparse signal reconstruction from limited data using focuss: A re-weighted minimum norm algorithm. IEEE Transactions on Signal Processing, 45(3):600616, March 1997. [Greenwood90] D. Greenwood. A cochlear frequency-position function for several species: 29 years later. J. Acoust. Soc. Amer., 87:25922605, Junio 1990. [Gribonval01] R. Gribonval. Fast matching pursuit with a multiscale dictionary o gaussian chirps. IEEE Trans. on Signal Processing, 49(5):9941001, May 2001. [Gribonval03] R. Gribonval and E. Bacry. Harmonic decompositions of audio signals with matching pursuit. IEEE Trans. on Signal Processing, 51(1):101111, January 2003. [Gribonval96] R. Gribonval, E. Bacry, S. Mallat, P. Depalle, and X. Rodet. Analysis of sound signals with high resolution matching pursuit. Proceedings of the IEEE-SP International Symposium on Time-Frequency and Time-Scale Analysis, pages 125128, June 1996. [Grin88] [Hall98] D.W. Grin and J.S. Lim. Multiband excitation vocoder. IEEE Trans. Acoust., Speech, Signal Processing, 36(8):12231235, August 1988. J. Hall. Auditory psychophysics for coding applications. CRC Press, 1998.
BIBLIOGRAFA [Hamdy96]
241
K.N. Hamdy, M. Ali, and A.H. Tewk. Low bit rate high quality audio coding with combined harmonic and wavelet representation. Proc. of ICASSP, 2:10451048, May 1996. Atlanta, Georgia, USA. K.N. Hamdy and A.H. Tewk. Audio coding using steady state harmonics and residuals. International Workshop on Multimedia Signal Processing, September 1999. Copenhagen, Denmark.
[Hamdy99]
[Harma00a] A. Harma, M. Karjalainen, M. Savioja, V. Valimaki, U.K. Laine, and J. Huopaniemi. Frequency warped signal processing for audio applications. J. Acoust. Eng. Soc., 48(11):10111031, 2000. [Harma00b] A. Harma. Implementation of frequency-warped recursive lters. Signal Processing, Elsevier Science, 80:543548, 2000. [Harma01] A. Harma. Frequency-warped autoregressive modeling and ltering. PhD thesis, Helsinki University of Technology. Departament of Electrical and Communications Engineering, 2001. F.J. Harris. On the use of windows for harmonic analysis with the discrete fourier transform. Proc. IEEE, 66(1):5183, 1978.
[Harris78]
[Hawkins50] J.E. Hawkins and S.S. Stevens. The masking of pure tones anf of speech by white noise. J. Acoust. Soc. Am., 22:613, 1950. [Hell72] [Herre98] [Hess83] R.P. Hellman. Asymmetry of masking between noise and tone. Perception and Psychophysics, 11(2):241246, 1972. J. Herre and D. Schulz. Extending mpeg-4 aac codec by perceptual noise substitution. Proc. of the 104th AES-Convention, 1998. Preprint 4720. W Hess. Pitch Determination of Speech Signals. Springer-Verlag, 1983.
[Heusdens00] R. Heusdens and K. Vos. Rate-distortion optimal exponential modeling of audio and speech signals. Proc. of the 21th Symposium on Information Theory in the Benelux, pages 7784, 2000. Wassenaar, The Netherlands. [Heusdens02] R. Heusdens, R. Van, and W.B. Kleijn. Sinusoidal modelling using psychoacoustic-adaptive matching pursuits. IEEE Signal Proccesing Letters, 9(4):262265, 2002. [Heusdens02b] R. Heusdens and S. van de Par. Rate-distortion optimal sinusoidal modelling of audio and speech using psychoacoustical matching pursuits. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), II:18091812, 2002. Orlando, USA. [ITU-R01] ITU-R. Method for the subjective assessment of intermediate quality level of coding systems (mushra), 2001. ITU-R Recommend. BS.1534.
[ITU-R01b] ITU-R. Method for objective measurements of perceived audio quality, 2001. ITU-R Recommend. BS.1387-1.
242 [ITU-R97] [Ikram01]
BIBLIOGRAFA ITU-R. Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems, 1997. ITU-R Recommend. BS.1116-1. M.Z. Ikram and G.T. Zhou. Estimation of multicomponent polynomial phase signals mixed orders. Signal Processing, 81(11):22932308, 2001.
[Iwakami95] N. Iwakami, T. Moriya, and S. Miki. High quality audio coding at less than 64 kbit/s using transform-domain interleave vector quantization (twinvq). Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 30953098, 1995. [Jaggi98] S. Jaggi, W.C. Karl, S. Mallat, and A.S. Willsky. High resolution pursuit for feature extraction. Applied and Computational Harmonic Analysis, 5(4):428449, October 1998. Elsevier Science. J. Jensen and R. Heusdens. Optimal frequency-dierential encoding of sinusoidal model parameters. Proc. Int. Conf. Acoust. Speech Signal Processing (ICASSP), III:24972500, 2002. Orlando, USA.
[Jensen02]
[Johnston88] J.D. Johnston. Estimation of perceptual entropy using noise masking criteria. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing, pages 25242527, 1988. [Johnston88b] J.D. Johnston. Transform coding of audio signals using perceptual noise criteria. IEEE J. Select. Areas. Commun., 6(2):314323, February 1988. [Kahrs98] [Kay89] M. Kahrs and K. Brandenburg. Applications of Digital Signal Processing to Audio and Acoustics. Kluwer Acad-emic Publisher, 1998. S. Kay. A fast and accurate single frequency estimator. IEEE Trans. Acoust., Speech, Signal Processing, 37(12):19871999, 1989.
[Kerkhof02] L. van de Kerkhof. Mpeg-4 extension 2: Parametric coding of high-quality audio. Proc. of the 113th AES-Convention: Workshop on Recent Developments in MPEG-4 Audio, October 2002. [Kleijn95] [Koenen02] [Koenen99] [Lam99] W.B. Kleijn and K.K. Paliwal. Speech Coding and Synthesis. Elsevier, 1995. R. Koenen. Overview of mpeg-4 standard, March 2002. Technical Report N4030, ISO/IEC JTC1/SC29 WG11. R. Koenen. Mpeg-4 overview (maui version), December 1999. Technical Report N3156, ISO/IEC JTC1/SC29 WG11. Y. Lam and R. Stewart. Perception-based residual analysis-synthesis system. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), Mayo 1999.
[Langhans92] A. Langhans and A. Kohlrausch. Spectral integration of broadband signals in diotic and dichotic masking experiments. J. Acoust. Soc. Am., 91:317326, 1992. [Lattard93] J. Lattard. Inuence of inharmonicity on the tunning of a piano - measurements and mathematical simulation. J. Acoust. Soc. Am., 94:4653, 1993.
BIBLIOGRAFA [Lee03] [Lee87]
243
P. Lee. Wavelet Filter Banks in Perceptual Audio Coding. PhD thesis, University of Waterloo, 2003. H. Lee, D.P. Sullivan, and T.H. Huang. Improvement of discrete band-limited signal extrapolation by iterative subspace modication. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), 3:15691572, Abril 1987. Dallas, Texas, USA. S.N. Levine. Audio representation for data compression and compressed domain processing. PhD thesis, Departament of Electrical Engineering of Standford University, 1998.
[Levine98]
[Levine98b] S.N. Levine, T.S. Verma, and J.O. Smith. Multiresolution sinusoidal modelling for wideband audio with modications. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing (ICASSP), 6:35853588, September 1998. Seattle, USA. [Levine99] S.N. Levine and J.O. Smith. A switched parametric & transform audio coder. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing (ICASSP), 2:985988, 1999. Phoenix, USA.
[Liebchen04] T. Liebchen. Mpeg-4 audio lossless coding. 116th AES Convention, May 2004. Berlin, Germany. [MPEG01] [MPEG03] MPEG. Call for proposals for new tools for audio coding, 2001. ISO/IEC Technical Report JTSC1/SC29/WG11 N3793. MPEG. Avc test results validate superior technology, 2001. ISO/IEC Technical Report JTSC1/SC29/WG11 N6085.
[MPEG03b] MPEG. Report on the verication tests of mpeg-4 high eciency aac, 2003. ISO/IEC Technical Report JTSC1/SC29/WG11 N6009. [MPEG92] MPEG. Coding of moving pictures and associated audio for digital storage media at up to 1.5mbit/s, part 3: audio, 1992. International Standard IS 11172-3, ISO/IEC JTC1/SC29 WG11.
[MPEG97a] MPEG. Mpeg-2 advanced audio coding, aac, 1997. International Standard IS 13818-7, ISO/IEC JTC1/SC29 WG11. [MPEG97b] MPEG. Working draft of iso/iec 14496-3 mpeg-4 audio, 1997. Doc. N1631, ISO/IEC JTC1/SC29 WG11. [MPEG98] [MPEG99] MPEG. Information technology - very low bit rate audio-visual coding. part 3: Audio, 1998. International standard 14496-3. MPEG. Iso/iec 14496 mpeg-4: Coding of moving pictures and audio, 1999. Doc. N2995, ISO/IEC JTC1/SC29 WG11. Doc. N2803,
[MPEG99b] MPEG. Iso/iec 14496-3 (mpeg-4 audio): Amd. 1/fpdam, 1999. ISO/IEC JTC1/SC29 WG11.
244
BIBLIOGRAFA
[MPEG99c] MPEG. Iso/iec 14496-3, amd. 1/fpdam: Mpeg-4 audio version 2, 1999. Doc. N3058, ISO/IEC JTC1/SC29 WG11. [Mallat93] [Malvar90] [Markel76] [Masri96] [Masri98] S. Mallat and Z. Zhang. Matching pursuits with time-frequency dictionaries. IEEE Trans. Signal Proccesing, 41(12):33973415, December 1993. H.S. Malvar. Lapped transforms for ecient transform/subband coding. IEEE Trans. Acoust. Speech and Signal Proccesing, 38:969978, 1990. J. Markel and H. Gray. Linear Prediction of Speech. Springer-Verlag, 1976. P. Masri. Computer modelling of sound for transformation and synthesis of musical signals. PhD thesis, University of Bristol, 1996. P. Masri and N. Canagarajah. Extracting more detail from the scpectrum with phase distortion analysis. Digital Audio Eects (DAFX) Workshop, pages 119122, 1998. Barcelona, Spain.
[Mcaulay86] R.J. McAulay and T.F. Quatieri. Speech analysis/synthesis based on a sinusoidal representation. IEEE Trans. Acoust., Speech, Signal Proccesing, 34(4):744754, 1986. [Moore83] B. Moore and B. Glasberg. Suggested formulae for calculating auditory-lter bandwidths and excitation patterns. Journal of the Acoustical Society of America, 74:750753, September 1983. B. Moore. A introduction to the Psychology of Hearing. Academic Press, 1997. J.E. Munoz, S. Garcia, N. Ruiz, P. Vera, and F. Rivas. Speech/music discrimination using a single warped lpc-based feature. 6th International Conference on Music Information Retrieval (ISMIR 2005), page Conference Proceedings, September 2005. London, UK. J.E. Munoz, S. Garcia, N. Ruiz, P. Vera, and F. Rivas. A fuzzy rules-based speech/music discrimination approach for intelligent audio coding over the internet. 120th AES convention, pages Convention papers, preprints, May 2006. Paris, France.
[Moore97] [Munoz05]
[Munoz06]
[Myburg01] F.P. Myburg. Sinusoidal analysis of audio with polynomial amplitude and phase, 2001. Philips Research Laboratories, Tech. Rep. Nat.Lab. Technical Note 2001/309. [Myburg04] F.P. Myburg. Design of a scalable parametric audio coder. PhD thesis, Universidad de Eindhoven, 2004. [Natarajan95] B.K. Natarajan. Sparse approximate solutions to linear systems. SIAM Journal on Computing, 24(2):227234, April 1995. [Nieuwenhuijse98] J.ieuwenhuijse, R. Heusdens, and E.F. Deprettere. Robust exponential modelling of audio signals. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), VI:35813584, 1998. Seattle, USA.
BIBLIOGRAFA [Painter00] [Painter01]
245
T. Painter and A. Spanias. Perceptual coding of digital audio. Proceedings of the IEEE, 88(4):449513, 2000. T. Painter and A. Spanias. Perceptual segmentation and component selection in compact sinusoidal representation of audio. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), 5:32893292, May 2001. S. van de Par, A. Kohlraush, G. Charestan, and R. Heusdens. A new psychoacoustical masking model for audio coding applications. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), II:18051808, 2002. Orlando, USA. Y.C. Pati, R. Rezaiifar, and P.S. Krishnaprasad. Orthogonal matching pursuits: Recursive function approximation with applications to wavelet decomposition. Proc. 27th Asilomar Conf. Signals, Systems, Computers, 1993. G. Peeters and X. Rodet. Signal characterisation in terms of sinusoidal and nonsinusoidal components. Proc. Digital Audio Eects, November 1998. Barcelona, Spain. S. Peleg and B. Porat. Estimation and classication of polynomial-phase signals. IEEE Trans. Information Theory, 37(2):422430, 1991.
[Par02]
[Pati93]
[Peeters98]
[Peleg91]
[Prandoni97] P. Prandoni, M. Goodwin, and M. Vetterli. Optimal time segmentation for signal modeling and compression. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 20292032, 1997. Munich, Germany. [Princen87] J. Princen, A. Johnson, and A. Bradley. Subband/transform coding using lter bank designs based on time domain aliasing cancelation. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 21612164, 1987. [Purnhagen00] H. Purnhagen and N. Meine. Hiln - the mpeg-4 parametric audio coding tools. ISCAS, III:201204, May 2000. Geneva, Italy. [Purnhagen02] H. Purnhagen. Parameter estimation and tracking for time-varying sinusoids. First IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA), pages 58, November 2002. Leuven, Belgium. [Purnhagen98] H. Purnhagen, B. Edler, and C. Ferekidis. Object-based analysis/synthesis audio coder for very low bit rates. Proc. of the 104th AES-Convention, May 1998. preprint 4747, Amsterdam, The Netherlands. [Purnhagen99] H. Purnhagen and N. Meine. Core experimental proposal on improved parametric audio coding, March 1999. ISO/IEC Technical Report JTSC1/SC29/WG11 M4492. [Purnhagen99b] H. Purnhagen. An overview of mpeg-4 audio version 2. Proc. of the 17th AES International Conference, pages 157168, 1999. Florence, Italy. [Quackenbush03] S. Quackenbush. Mpeg-4 lossless audio coding. 113th AES Convention, March 2003. Workshop on Recent Developments in MPEG-4 Audio.
246
BIBLIOGRAFA
[Rabiner78] L.R. Rabiner and R.W. Schafer. Digital Processing of Speech Signals. Englewood Clis, Prentice-Hall, 1978. [Rebollo02] L. Rebollo and David Lowe. Optimized orthogonal matching pursuit approach. IEEE Signal Processing Letters, 9(4):137140, April 2002. [Rodrigues00] J.M. Rodrigues and A.M. Tom. On the use of backward adaptation in a perceptual audio coder. IEEE Trans. on Speech and Audio Processing, 8(4):488490, July 2000. [Rothweiler83] J.H. Rothweiler. Polyphase quadrature lters - a new subband coding technique. Proc. IEEE Int. Conf. Acoust. Speech and Signal Proccesing (ICASSP), pages 1280 1283, 1983. [Ruiz01] N. Ruiz Reyes. Codicacin de audio basada en la seleccin de la mejor base de funciones wavelet ortonormales. PhD thesis, Departamento de Teora de la Seal y Comunicaciones. Universidad de Alcal, 2001. N. Ruiz, M. Rosa, F. Lpez, and P. Vera. Algorithm for achieving adaptive tiling of the time axis for audio coding purposes. IEE Electronics Letters, 38(9):434435, 2002. N. Ruiz, M. Rosa, F. Lpez, and P. Jarabo. Adaptive wavelet-packet analysis for audio coding purposes. Signal Processing, Elsevier Science, 83(5):919929, 2003. B. Scharf. Critical bands. Foundations of Modern Auditory Theory, pages 159202, 1970.
[Ruiz02]
[Ruiz03]
[Scharf70]
[Schijndel03] N.H. van Schijndel, M. Gomez, and R. Heusdens. Towards a better balance in sinusoidal plus stochastic representation. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 197200, 2003. [Schijndel99] N.H. van Schijndel, T. Houtgast, and J.M. Festen. Intensity discrimination of gaussian windowed tones: Indications for the shapes of the auditory frequency-time window. J. Acoust. Soc. Am., 105:34253435, 1999. [Schuijers02] E.G.P. Schuijers, A.W.J. Oomen, and A.C. den Brinker. Advances in parametric coding for high-quality audio. First IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA), pages 7379, November 2002. Leuven, Belgium. [Schuijers03] E. Schuijers. Parametric coding of high-quality audio. Proc. of the 114th AESConvention: Workshop on New Technological Developments in MPEG-4 Audio, March 2003. [Schuijers04] E.G.P. Schuijers, J. Breebaart, H. Purnhagen, and J. Engdegard. Low complexity parametric stereo coding. Proc. of the 116th AES-Convention, May 2004. Preprint 6073, Berlin, Germany.
BIBLIOGRAFA [Serra89]
247
X. Serra. A system for sound analysis/transformation/synthesis based on a deterministic plus stochastic decomposition. PhD thesis, Departament of Music of Standford University, 1989. X. Serra. Musical Signal Processing, chapter Musical sound modelling with sinusoids plus noise. Swets and Zeitlinger, 1997. Curtis Roads, Stephen Pope, Aldo Piccialli and Giovanni De Poli. R.J. Sluijter and A.J.E.M. Janssen. A time warper of speech signals. Proc. IEEE Workshop on Speech Coding, pages 150152, 1999. Porvoo, Finland. J.O. Smith. The bark bilinear transform. Proc. of the Workshop on Applications of Single Processing to Audio and Acoustics, pages 202205, October 1995. J.O. Smith III and J.S. Abel. Bark and erb bilinear transforms. IEEE Transactions on Speech and Audio Processing, 7:697708, November 1999. M.M. Sondhi. New methods of pitch extraction. IEEE Trans. Audio Electroacoust., AU-16:262266, June 1968.
[Serra97]
[Sluijter99] [Smith95] [Smith99] [Sondhi68]
[Soulodre99] G.A. Soulodre and M.C. Lavoie. Subjective evaluation of large and small impairments in audio quality. AES 17th International Conference on High Quality Audio Coding, pages 329336, September 1999. Florence, Italy. [Stoll00] [Strube80] G. Stoll and F. Kozamernik. Ebu listening tests on internet audio codecs. EBU Technical Review, June 2000. H.W. Strube. Linear prediction on a warped frequency scale. J. Acoust. Soc. Am., 68:10711076, 1980.
[Terhardt79] E. Terhardt. Calculation virtual pitch. Hearing Res., 1:155182, 1979. [Thomson82] D.J. Thomson. Spectrum estimation and harmonic analysis. Proceedings of the IEEE, 70(9):10551096, 1982. [Todd94] C. Todd, G. Davidson, M. Davis, L. Fielder, B. Link, and S. Vernon. Ac-3: Flexible perceptual coding for audio transmission and storage. 96th Audio Engineering Society Convention, March 1994. S.A. Tretter. Estimating the frequency of a noisy sinusoid by linear regresion. IEEE Trans. Information Theory, 36(6):832835, 1985. P. Vera, M. Rosa, J. Curpian, and J. Pieiro. Uso de descomposiciones atmicas para la mejora del modelado sinusoidal en codicacin de audio. XVI Symposium Nacional de la U.R.S.I., pages 5152, September 2001. Madrid, Spain. P. Vera, N. Ruiz, M. Rosa, F. Lopez, and D. Martinez. Energy-adapted matching pursuits in multi-parts models for audio coding purposes. 112th Audio Engineering Society (AES) Convention, May 2002. Preprint 5570, Munich, Germany.
[Tretter85] [Vera01]
[Vera02a]
248 [Vera02b]
BIBLIOGRAFA P. Vera, N. Ruiz, M. Rosa, F. Lopez, and D. Martinez. Matching pursuit based audio coding approach. 2nd Cost Workshops on Information and Knowledge Management for Integrated Media Communication, March 2002. Conference proceedings, Florence, Italy. P. Vera-Candeas, N. Ruiz-Reyes, , D. Martinez-Muoz, J. Curpin-Alonso, F. Montero de Espinosa, and R. Vicen-Bueno. High resolution pursuit for detecting aws close to the surface of strongly scattering materials in ndt applications. Ultrasonics International 2003, July 2003. Conference proceedings, Granada, Spain. P. Vera, N. Ruiz, D. Martinez, M. Rosa, and M. Lucena. Sinusoidal modelling with complex exponentials for speech and audio signals. Lecture Notes in Computer Science (Springer-Verlag), 2652:10491056, June 2003. P. Vera, N. Ruiz, M. Rosa, and J.M. Fuertes. A new sinusoidal modeling approach for parametric audio coding. 3rd IEEE International Symposium on Image and Signal Processing and Analysis (ISISPA 2003), September 2003. Conference Proceedings, Roma, Italy. P. Vera, N. Ruiz, M. Rosa, , D. Martinez, and M. Lucena. Sinusoidal modelling with complex exponentials for speech and audio signals. 1st Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA 2003), June 2003. Conference Proceedings, Palma de Mallorca, Spain. P. Vera, N. Ruiz, M. Rosa, D. Martinez, and F. Lopez. Transient modeling by matching pursuits with a wavelet dictionary for parametric audio coding. IEEE Signal Processing Letters, 11(3):349352, Marzo 2004. P. Vera, N. Ruiz, M. Rosa, J. Curpin, and F. Lopez. New matching pursuit based sinusoidal modelling method for audio coding. IEE Proceedings - Vision, Image and Signal Processing, 151:2128, Febrero 2004. P. Vera, N. Ruiz, M. Rosa, J. Curpin, and P.J. Reche. Signal-adaptive parametric modeling for high quality low bit rate audio coding. 116th AES convention, May 2004. Preprint 6176, Berlin, Germany. P. Vera, N. Ruiz, D. Martinez, J. Curpin, and P.J. Reche. Post-processing modications in a parametric audio coder. WSEAS Transactions on Communications, 3:675678, July 2004. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and P.J. Reche. Parametric audio coding based on adaptive signal models. 12th European Signal processing conference (EUSIPCO-2004), September 2004. Conference Proceedings, Vienna, Austria. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lopez. Adaptive signal models for wide-band speech and audio compression. Lecture Notes in Computer Science (Springer-Verlag), 3523:571576, March 2005.
[Vera03a]
[Vera03b]
[Vera03c]
[Vera03d]
[Vera04a]
[Vera04b]
[Vera04c]
[Vera04d]
[Vera04e]
[Vera05a]
BIBLIOGRAFA [Vera05b]
249
P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and J.M. Garcia. Using a sines + wavelets mixed dictionary for improving matching pursuit-based parametric audio coding. 13th European Signal processing conference (EUSIPCO-2005), September 2005. Conference Proceedings, Antalya, Turkey. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and J.M. Garcia. Matching pursuit based on a mixed dictionary composed of sines + wavelets for parametric audio coding. 5th EURASIP Conf. on Speech and Image Processing, Multimedia Communications and Services, July 2005. Conference Proceedings, Smolenice, Slovakia. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lpez. Adaptive signal models for wide-band speech and audio compression. 2nd Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA 2005), June 2005. Conference Proceedings, Estoril, Portugal. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and J.L. Blanco. A sinusoidal modeling approach based on perceptual matching pursuits for parametric audio coding. 118th Audio Engineering Society (AES) Convention, May 2005. Convention papers, preprints, Barcelona, Spain. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lopez. Fast implementation of an improved parametric audio coder based on a mixed dictionary. Signal Processing, 86(3):432443, March 2006. P. Vera, N. Ruiz, M. Rosa, J.C. Cuevas, and F. Lopez. Sinusoidal modelling using perceptual matching pursuits in the bark scale for parametric audio coding. IEE Proceedings - Vision, Image and Signal Processing, In press, 2006. T.S. Verma and T.H.Y. Meng. A 6 kbps to 85 kbps scalable audio coder. Proc. Int. Conf. Acoust. Speech Signal Processing (ICASSP), pages 877880, 2000. Istanbul, Turkey. T.S. Verma and T.H.Y. Meng. An analysis/synthesis tool for transient signals that allows a exible sines+transients+noise model for audio. Proc. Int. Conf. Acoust. Speech Signal Processing (ICASSP), pages 1215, May 1998. Seattle, WA, USA. T.S. Verma. A perceptually based audio signal model with application to scalable audio compression. PhD thesis, Departament of Electrical Engineering of Standford University, 1999.
[Vera05c]
[Vera05d]
[Vera05e]
[Vera06a]
[Vera06b]
[Verma00]
[Verma98]
[Verma99]
[Verma99b] T.S. Verma and T.H.Y. Meng. Sinusoidal modeling using frame-based perceptually weighted matching pursuits. Proc. Int. Conf. Acoust. Speech Signal Processing (ICASSP), pages 981984, 1999. [Vos99] K. Vos, R. Van, R. Heusdens, and W.B. Kleijn. High-quality consistent analysissynthesis in sinusoidal coding. AES 17th International Conference on High Quality Audio Coding, pages 244250, September 1999. Florence, Italy.
250 [Waters98]
BIBLIOGRAFA G.T. (Editor) Waters. Sound quality assessment material recordings for subjective tests. users handbook for the ebu - sqam compact disc, April 1998. Technical centre of the European Broadcasting Union, Tech. Rep. 3253-E. Z. Xiong, K. Ramchandran, C. Herley, and M.T. Orchard. Flexible tree-structured signal expansions using time-varying wavelet packets. IEEE Trans. Signal Processing, 45(2):333345, February 1997. W.A. Yost and D.W. Nielsen. Fundamentals of hearing. An introduction. Holdt, Rinehart and Winston, 1985. T. Ziegler, A. Ehret, and M. Ekstrand, P. Lutzky. Enhancing mp3 with sbr: Features and capabilities of the new mp3pro algorithm. Proc. of the 112th AES Convention, April 2002. Preprint Number 5560.
[Xiong97]
[Yost85] [Ziegler02]
[Zwicker82] E. Zwicker and A. Jaroszewski. Inverse frequency dependance of simultaneous tone-on-tone masking patterns at low levels. J. Acoust. Soc. Am., 71:15081512, 1982. [Zwicker90] E. Zwicker and H. Fastl. Psychoacoustics, Facts and Models. Springer, 1990. [Zwicker99] E. Zwicker and H. Fastl. Psychoacoustics, Facts and Models, 2nd Edition. Springer, 1999.
ndice alfabtico
AAC, 30 AC-2, 28 AC-3, 28 algoritmo interior point, 82 simplex, 82 ARMA, 67 artefactos, 19 atomos de Gabor, 100 audio digital, 9 bancos de ltros hbridos, 23 polifsicos, 23 QMF, 23 wavelet, 23 banda crtica, 16 banda de Bark, 16 bit packing, 27 BOB, 78 BP, 80 break-in, 10 calidad de servicio, 10 CELP, 32 codicacin perceptual, 9 complejidad, 10 DAB, 9 DCT, 65 descomposicin atmica, 77 diccionario mixto, 105 diccionario sobrecompleto, 78 downmix, 30 DSP, 10 DST, 94 editabilidad, 10 EDS, 65 eciencia de compresin, 10 enmascaramiento simultneo, 17 temporal, 19 entropa perceptual, 11 ERB, 68 escalabilidad, 32 exponenciales complejas, 102 FOCUSS, 84 funcin de dispersin, 17 funcin de Meixner, 64 funcin tasa-distorsin, 11 HILN, 47, 71 HRP, 90 HVXC, 32 impredicibilidad, 26 indice de tonalidad, 25, 26 inharmonicity, 59 intensidad sonora, 15, 16 irrelevancia, 11 JND, 20 LPC, 67 maskee, 17 masker, 17 MDCT, 23 membrana basilar, 16 modelo perceptual, 25 MOF, 79 MOS, 38 251
252 MP, 86 MPEG, 27 multi-resolucin, 55 MUSHRA, 43 OMP, 90 PAMP, 120 peso perceptual, 119 pitch, 35, 48 plano de fase, 80 PMP, 122 PNS, 33 post-masking, 19 PPC, 47, 72 pre-eco, 19 pre-masking, 19 predictibilidad, 51 redundancia, 11 SAOL, 33 SBR, 36 segmentacin adaptativa, 55 similaridad, 91 sinusoides amortiguadas, 101 STFT, 60 STN, 50 timbre, 15 TNS, 187 tonalidad, 19 tono, 15 transformada, 77 trayectoria tonal, 52 TWIN-VQ, 27 TWN, 206 umbral de enmascaramiento, 17 de silencio, 14 unwrapping, 61 WLPC, 67, 175 WMP, 119 WPT, 104
NDICE ALFABTICO

Tesis Doctoral PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tesis Doctoral PDF

Cargado por

Copyright:

Formatos disponibles

TESIS DOCTORAL

DESARROLLO DE TCNICAS DE CODIFICACIN DE AUDIO BASADAS EN MODELOS DE SEAL PARAMTRICOS

Pedro Vera Candeas

Departamento de Teora de la Seal y Comunicaciones Escuela Politcnica UNIVERSIDAD DE ALCAL Ao 2006

NDICE GENERAL 47 51 52 58 60 63 63 63 66 67 67 68 68 70 73 77 77 78 79 85 94 99 100 101 102 103 105

Desarrollo y Metodologa de la Investigacin

NDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 216 217 218 219 220

Conclusiones y Lneas Futuras

9. Conclusiones 10.Lneas futuras de investigacin

97 98 99 101 101 102 106

173 175 178 179 180 181

xvii 215 216 217 218 219 220 222

Planteamiento de la Investigacin y Revisin de Conocimientos

Justicacin y objetivos de la investigacin

1.3. ESTRUCTURA DE LA TESIS

1.4. PRINCIPALES CONTRIBUCIONES

Introduccin a la codicacin perceptual de audio

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

Requisitos de los sistemas de codicacin de audio

2.3. CODIFICACIN PERCEPTUAL

El sistema auditivo humano

2.4. FUNDAMENTOS DE PSICOACSTICA

Umbral absoluto de audicin

2.4. FUNDAMENTOS DE PSICOACSTICA

Nivel de Presin Sonora, SPL (dB)

Figura 2.2: Umbral absoluto de audicin

Intensidad sonora, tono y timbre

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

2.4. FUNDAMENTOS DE PSICOACSTICA

Ancho de la Banda Crtica (Hz)

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

Nivel de Presin Sonora (dB)

Figura 2.5: Efecto de enmascaramiento de dos tonos en 1kHz y 4kHz

2.4. FUNDAMENTOS DE PSICOACSTICA

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

60 Premasking Simultneo Postmasking

Figura 2.6: Ejemplo de pre-masking y post-masking

Just Noticeable Dierence

2.5. ELEMENTOS BSICOS DE UN CODIFICADOR PERCEPTUAL DE AUDIO

Elementos bsicos de un codicador perceptual de audio

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

Banco de filtros de anlisis H0(f) H1(f) H2(f) k k k

Banco de filtros de sntesis k k k G0(f) G1(f) G2(f)

2.5. ELEMENTOS BSICOS DE UN CODIFICADOR PERCEPTUAL DE AUDIO

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

2.5. ELEMENTOS BSICOS DE UN CODIFICADOR PERCEPTUAL DE AUDIO

1000 muestras (d) RUIDO

Figura 2.10: Descomposicin de un golpe de batera en sus componentes.

2.6. ESTNDARES EN CODIFICACIN DE AUDIO

Banco de filtros auditivos

Estndares en codicacin de audio

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

MPEG-1 Audio - capas 1 y 2

2.6. ESTNDARES EN CODIFICACIN DE AUDIO

MPEG-1 Audio - capa 3

CAPTULO 2. INTRODUCCIN A LA CODIFICACIN PERCEPTUAL DE AUDIO

Formato de la trama binaria MPEG-1/2

Datos MPEG-1 Datos auxiliares MPEG-1

Datos MPEG-2 Datos auxiliares MPEG-2

2.6. ESTNDARES EN CODIFICACIN DE AUDIO

Factores de escala Proceso de control Tasa / Distorsin

Codificacin sin prdidas

2.6. ESTNDARES EN CODIFICACIN DE AUDIO