Está en la página 1de 15

8 Compresión de las Señales de Audio en MPEG y

Dolby Digital

8.1 Fuentes de Señal de Audio Digital


El oído humano tiene un rango dinámico de cerca de 140dB y el ancho de
banda de audición está cerca de los 20KHz. Consecuentemente las señales de
audio de alta frecuencia deben cumplir estas características. Las señales de
audio analógicas ´para ser muestreadas y digitalizadas, deben ser limitadas
en banda por medio de un filtro pasabajos. La conversión analógica a digital
es realizada a una frecuencia de muestreo de 32KHz, 44.1KHz o 48KHz (y
ahora también a 96KHz) y con una resolución de al menos 16 bits. La fre-
cuencia de muestreo de 44.1KkHz corresponde a los CD o discos compactos
de audio, 48/96KHz es calidad de estudio. Mientras que la frecuencia de
muestreo de 32KHz es aún usada para el estándar MPEG, de hecho es obsole-
ta. Una frecuencia de muestreo de 48KHz con una resolución de 16 bits da
una tasa de datos de 786Kb/s por canal, que significa aproximadamente
1.5Mb/s para una señal estéreo (Fig. 8.1.).

Fig. 8.1. Fuentes de señal de audio digital

El objetivo de la compresión del audio es reducir la tasa de datos de


1.5Mb/s al rango de entre 100Kb/s y 400Kb/s. Los archivos de audio en MP3,
los que son ampliamente usados hoy en día, a menudo tienen velocidades tan
bajas como 32Kb/s. De manera similar a la compresión de video, esto es lo-
grado con la reducción de la redundancia y la irrelevancia. En la reducción de
la redundancia, la información superflua simplemente es omitida; no hay
pérdida de información. Por contraste, la reducción de la información irrele-
vante es eliminada tal que no pueda ser percibida en la recepción, en este caso
8-2 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

el oído humano. Todos los métodos de compresión están basados en un mo-


delo psicoacústico, es decir, sacan ventaja de la “imperfección” del oído
humano para remover la información irrelevante de la señal de audio. El oído
humano no es capaz de percibir los eventos sonoros en la vecindad de un
sonido pulsante fuerte, ni en el dominio de la frecuencia ni el dominio del
tiempo. Esto significa que, para el oído, ciertos eventos sonoros enmascaran a
otros eventos sonoros de menor amplitud.

8.2 Historia de la Codificación del Audio


En el año 1988, el método MASCAM fue desarrollado por el Institut für
Rundfunktechnik (IRT) en Múnich en preparación para el sistema de radiodi-
fusión digital de audio ó Digital Audio Broadcasting (DAB). De MASCAM,
fue desarrollado en 1989 el método MUSICAM (Masking pattern Universal
Subband Integrated Coding And Multiplexing) en cooperación con CCETT,
Philips y Matsushita.
Las señales de audio codificadas con MUSICAM son usadas en DAB,
MASCAM y MUSICAM, ambas están basadas en la codificación de sub-
bandas. La señal de audio es dividida en un gran número de sub-bandas, cada
una de las cuales está sujeta a la reducción por irrelevancia en un mayor o
menor grado.

Fig. 8.2. Desarrollo del audio MPEG [DAMBACHER]

Al mismo tiempo que fue desarrollado el método de codificación por sub-


bandas, Fraunhofer Gesellschaft junto con Thomson desarrollaron el método
ASPEC, el cual está basado en la codificación por transformadas. La señal de
8- 3

audio es transformada del dominio del tiempo al dominio de la frecuencia


usando la DCT (Discrete Cosine Transform), y las componentes irrelevantes
de la señal son removidas.
Ambas, la codificación por sub-bandas MUSICAM y la codificación por
transformadas ASPEC, son incluidos en el método de compresión de audio
MPEG-1, el cual fue establecido en 1991 (estándar ISO/IEC 11172-3). El
audio en MPEG-1 comprende tres posibles capas: las capas I y II esencial-
mente usan codificación MUSICAM, y la Capa III usa codificación ASPEC.
Los archivos de audio MP3 son codificados en MPEG-1 capa III. MP3 es a
menudo confundido con MPEG-3 que fue originalmente diseñado para la
implementación de la HDTV (High Definition TeleVision), pero la HDTV fue
integrada en el estándar MPEG-2, así que el MPEG-3 fue dejado de lado y
abandonado. Por consiguiente el estándar MPEG-3 no existe.
En el audio MPEG-2, las tres capas del audio MPEG-1 fueron reemplaza-
das, y la capa II fue extendida a la capa II MC (multicanal). El estándar de
audio MPEG-2 ISO/IEC 13818-3, fue adoptado en 1994.
Simultáneamente con el audio en MPEG, el estándar de audio Digital
Dolby (también conocido como AC-3) fue desarrollado por Dolby Labs en
los Estados Unidos. Este estándar fue concebido en 1990 y presentado al
público en la película "Star Treck VI", proyectada en diciembre de 1991. En
la actualidad, muchas películas emplean la técnica del Dolby digital. En los
Estados Unidos, la televisión digital terrestre transmite en ATSC con codifi-
cación de audio AC-3 exclusivamente. Otros países también (p.e. Australia)
introducirá el audio AC-3 en adición al audio en MPEG. El uso de ambos, el
audio en AC-3 y el audio en MPEG, es significativo por el hecho de que tam-
bién salió de la grabación de películas. Aunque, desde el punto de la calidad,
prácticamente no hay diferencia entre el audio en MPEG y el Dolby Digital.
Por ende, los modernos decodificadores MPEG soportan ambos métodos. Los
discos de video en DVD también pueden usar el audio en Dolby Digital AC-3
en adición al audio en PCM y al audio en MPEG. A continuación un corto
resumen del desarrollo del Dolby digital:
 1990 Audio Dolby digital AC-3
 1991 Primera película de cine proyectada con codificación de audio en
AC-3
 Diciembre de 1991 "Star Treck VI" codificada en audio AC-3
Hoy:
 El audio en AC-3 es usado como estándar en muchas películas, en
ATSC y, en adición al audio en MPEG, en los flujos de transporte por
todo el mundo y también en los DVDs.
 Audio en Dolby AC-3, codificación por transformada, basada en la
modificación de la transformada discreta de coseno (MDCT); 5.1 cana-
8-4 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

les de audio (izquierdo, centro, derecho, izquierdo envolvente, derecho


envolvente, sub graves), 128Kb/s por canal.
Asimismo, MPEG ha traído nuevos métodos de codificación de audio:
 MPEG-2 AAC ISO/IEC 13818-7
AAC = Advanced Audio Coding
 MPEG-4 ISO/IEC 14496-3:
AAC y AAC Plus

8.3 Modelo Psicoacústico del Oído Humano


A continuación discutiremos el proceso de compresión del audio. La re-
ducción de la redundancia (sin pérdida) y la reducción de la irrelevancia (con
pérdida) disminuyen la tasa de datos de la señal de audio original en cerca de
90 %. La reducción de la irrelevancia recae en el modelo psicoacústico del
oído humano, el cual fue desarrollado por el Profesor Zwicker, en la cátedra
de electroacústica en la Universidad Técnica de Múnich. Este tipo de reduc-
ción está basado en lo que se describe como codificación perceptual. Esto
significa que los componentes de audio que no son percibidos por el oído
humano no son transmitidos.

Fig. 8.3. Anatomía del oído humano

Primero demos una mirada a la anatomía del oído humano (Fig. 8.3, 8.4.).
El oído consiste de tres partes principales: el oído externo, el oído medio y el
oído interno. El oído externo realiza las funciones de adaptador de impedan-
cias, capta la transmisión del sonido sobre el aire y actúa como un filtro con
ligera resonancia en la región de los 3KHz. Está en la misma región, de 3KHz
a 4KHz, en la que el oído humano exhibe su máxima sensibilidad. El tímpano
o membrana timpánica convierte las ondas sonoras en vibraciones mecánicas,
8- 5

las cuales son transmitidas vía el martillo, el yunque y el estribo a una venta-
na membranosa en la parte frontal sensorial del oído interno. La presión de
aire debe ser la misma, por delante y detrás del tímpano. Esto es asegurado
por un tubo que conecta la región posterior del tímpano con la faringe; el tubo
es llamado la Trompa de Eustaquio. Todos conocemos el problema de la pre-
sión que se sufre en el oído cuando ascendemos a grandes alturas. Al tragar,
la membrana mucosa en la Trompa de Eustaquio es la que habilita la com-
pensación de presión.
En el oído interno encontramos el órgano de balance, el cual está hecho de
muchas bóvedas y el caracol. El caracol es el órgano real de escucha (órgano
de Corti) por el cual el sonido es directamente percibido. Si el caracol fuese
desenrollado, los sensores para las altas frecuencias serían hallados en su
entrada, luego los sensores para las frecuencias medias y al final del caracol
estarían los sensores para las bajas frecuencias.
El caracol consiste de un canal en espiral el cual yace en un pequeño pasa-
je membranoso en espiral que se vuelve más ancho en el frente del oído. So-
bre la membrana interior descansan los sensores colectores de sonido selecti-
vos a la frecuencia desde los cuales los nervios auditivos se extienden al ce-
rebro. Los nervios auditivos transportan señales eléctricas con una amplitud
aproximada de 100mVpp. La tasa de repetición de los pulsos eléctricos está
en el orden de 1KHz. La información contenida en esta tasa es el volumen de
un tono a una determinada frecuencia. Cuanto mayor el tono, mayor la tasa de
repetición. Cada sensor de frecuencia se comunica con el cerebro vía una
línea neural separada. La selectividad de frecuencia de los sensores es alta a
bajas frecuencias y decrece con las altas frecuencias.
En seguida investigaremos estas características del oído humano, que son
de interés para la codificación del audio. Para empezar, la sensibilidad del
oído es muy dependiente de la frecuencia. Las señales por debajo de los 20Hz
y por arriba de los 20KHz son prácticamente inaudibles. La máxima sensibi-
lidad del oído está en el rango de 3KHz a 4KHz; fuera de este rango la sensi-
bilidad decae hacia las altas o las bajas frecuencias. Los sonidos con un nivel
debajo de cierto umbral (referido como el umbral de audibilidad) no son per-
cibidos por el oído humano. El umbral de audibilidad es dependiente de la
frecuencia. Cualquier componente de la señal de audio cuyo nivel esté debajo
del umbral de audibilidad no necesita ser transmitida; son irrelevantes para el
oído humano. La Figura 8.5. ilustra la relación general del umbral de audibi-
lidad versus la frecuencia.
8-6 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

Fig. 8.4. Modelo técnico del oído humano

La siguiente característica del oído humano, que es significativa para la


codificación del audio, es el comportamiento conocido como enmascaramien-
to. Por ejemplo, una onda sinusoidal de 1KHz con una amplitud constante es
aplicada al oído de una persona como prueba, y en la región alrededor de
1KHz se aplican otras ondas sinusoidales, cuyas frecuencias y amplitudes son
variadas. Encontraremos que las otras señales sinusoidales no son audibles
debajo de ciertos niveles de umbral dependientes de la frecuencia alrededor
de 1KHz. Esto es conocido como umbral de enmascaramiento (Fig. 8.6.). La
forma del umbral de enmascaramiento depende de la frecuencia de la señal
enmascarada. Cuanto mayor la frecuencia de la señal de enmascaramiento,
mayor el rango de enmascaramiento.
8- 7

Fig. 8.5. Umbral de audibilidad

Tono de enmascaramiento (1KHz)

Umbral de enmascaramiento

Fig. 8.6. Enmascaramiento en el dominio de la frecuencia


8-8 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

Fig. 8.7. Enmascaramiento en el dominio del tiempo

Esta característica del oído es conocida como enmascaramiento en el do-


minio de la frecuencia (Fig. 8.6.). Relevante para la codificación del audio es
el hecho de que los componentes del audio debajo de un umbral de enmasca-
ramiento definido no necesitan ser transmitidos.
Por otra parte, el enmascaramiento no solamente ocurre en el dominio de
la frecuencia sino también en el dominio del tiempo (fig. 8.7.). Un pulso fuer-
te en el dominio del tiempo enmascara señales de sonido antes y después del
pulso, siempre y cuando los niveles de estas señales estén debajo de cierto
umbral. Este efecto, y en particular el pre enmascaramiento, es difícil de ima-
ginar pero puede ser explicado. Esto es debido a la resolución de tiempo fini-
to del oído humano en conjunción con la manera en que las señales son trans-
portadas al cerebro vía los nervios auditivos.
Los métodos de compresión de audio conocidos usan solamente el enmas-
caramiento en el dominio de la frecuencia, siendo las técnicas empleadas muy
similares en todos los casos.

Rango total del AD


Señal sinusoidal
N bit de
resolución
A
PB
D

Ruido de Cuantización: S/N[dB] = 6•N

Fig. 8.8. Ruido de Cuantización


8- 9

Fig. 8.9. Principios de codificación de audio basado en la codificación perceptual

8.4 Principios Básicos de la Codificación del Audio


Antes de discutir los principios de la reducción de la irrelevancia para las
señales de audio, examinaremos brevemente el ruido de cuantificación. Si en
un convertidor análogo a digital es alimentado con una señal sinusoidal a
modulación total, se obtiene una relación señal a ruido S/N de aproximada-
mente 6•N dB (como regla), para una resolución de N bits, debido al ruido de
cuantización (Fig. 8.8.). Esto significa que se obtienen aproximadamente
48dB para una resolución de 8 bits y 96dB para una resolución de 16 bits. Las
señales de audio son usualmente muestreadas con 16 bit o más. Por tanto, 16
bits de resolución aún no se comparan con el rango dinámico del oído huma-
no, que es de cerca de 140dB.
Ahora discutiremos el principio básico de la codificación del audio (Fig.
8.9.). La fuente de señal de audio digital es dividida en el codificador en dos
ramas, filtradas y tomadas por el analizador de frecuencias. El analizador de
frecuencias realiza un análisis del espectro por medio de la transformada
rápida de Fourier (FFT) y determina las componentes de la señal de audio con
baja resolución de tiempo y alta resolución de frecuencia.
Basados en el conocimiento del modelo psicoacústico (efecto de enmasca-
ramiento), pueden ser identificados los componentes de frecuencia irrelevan-
tes de la señal.
Simultáneamente, con el análisis del espectro, la señal de audio sufre un
filtrado por el cual es dividida en muchas sub-bandas. Puede resultar que una
sub-banda completa sea enmascarada por las señales de otras sub-bandas, es
decir, el nivel de la señal en esta sub-banda está debajo del umbral de enmas-
caramiento. Si este es el caso, la sub-banda en cuestión no necesita ser trans-
mitida, la información transportada en esta banda es completamente irrele-
8 - 10 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

vante al oído humano. El proceso de filtraje por el cual la señal de audio es


dividida en sub-bandas debe usar muy altas resoluciones de tiempo tal que no
se pierda información en el dominio del tiempo. En contraste con el dominio
de la frecuencia, resolución gruesa, hasta el punto en que la reducción de la
irrelevancia sea afectada, hay otra posibilidad. Algunas veces, las señales en
una sub-banda están por encima del umbral de enmascaramiento, pero solo
por un margen estrecho. En tales casos, la cuantización en la sub-banda afec-
tada es reducida al grado que el ruido de cuantificación en esta banda esté por
debajo del umbral de enmascaramiento y por tanto no sea audible.
Igualmente, las señales debajo del umbral de audibilidad no necesitan ser
transmitidas. Aquí también, puede ser seleccionada una cuantificación gruesa
o fina dependiendo de los diferentes umbrales de audibilidad de las sub-
bandas tal que el ruido de cuantificación resultante siempre permanezca deba-
jo del umbral. Es posible una baja resolución de bits especialmente a altas
frecuencias.
La decisión si una sub-banda deba ser suprimida completamente, o si deba
ser aplicada una cuantización gruesa o fina, es hecha por el bloque del “mo-
delo psicoacústico”, el cual es alimentado con la información del bloque de
análisis de espectros. La cuantificación es suprimida o controlada por medio
del cuantificador de sub-bandas. Puede ser seguida por una reducción de re-
dundancia, la cual es efectuada por una codificación especial de los datos.
Después que estos procesos sean completados, está disponible la señal de
audio comprimida.
La codificación perceptual puede ser implementada de varias maneras.
Hay codificación pura de sub-bandas y codificación por transformadas, tam-
bién hay formas mixtas las cuales son referidas como codificación híbrida.

8.5 Codificación por Sub-bandas de Acuerdo con las Capas


I, II de MPEG
Primero será discutido el método de la codificación de sub-bandas. De
acuerdo con las capas I y II del MPEG (Fig. 8.10.), la señal de audio es pasa-
da a través de un banco de 32 filtros que dividen la señal en sub-bandas de
frecuencia de 750Hz. Para cada sub-banda hay un cuantificador separado por
un bloque FFT y un bloque del modelo psicoacústico. El cuantificador o su-
prime completamente la sub-banda en cuestión o reduce el número de pasos
de cuantificación. En el caso de la codificación de capa II, la FFT es realizada
cada 24 milisegundos. Durante el intervalo de 24ms, las sub-bandas están
sujetas a la reducción de irrelevancias de acuerdo con la información recibida
del bloque del modelo psicoacústico. En otras palabras, la señal es tratada
como si su composición no hubiera sido alterada por 24ms.
8- 11

Fig. 8.10. Codificación de sub-banda empleando 32 filtros pasabanda en MPEG-1 y


MPEG-2 capas I y II

Debido a los diferentes umbrales de audibilidad, ubicación de bits y que la


cuantificación es diferente para las diferentes sub-bandas; la cuantificación
debe ser más fina a bajas frecuencias y puede ser reducida hacia las altas fre-
cuencias.

Fig. 8.11. Reducción de la irrelevancia empleando efectos de enmascaramiento

La Fig. 8.11. ilustra el principio de reducción de la irrelevancia en la


transmisión de audio por medio de dos ejemplos. En una sub-banda hay una
señal de cerca de 5KHz, cuyo nivel está por encima del umbral de enmasca-
ramiento. En el caso de esta sub-banda, solamente puede reducirse el número
de pasos de cuantificación. En otra sub-banda encontramos una señal de cerca
8 - 12 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

de 10KHz cuyo nivel está debajo del umbral de enmascaramiento. Esto signi-
fica que esta sub-banda está totalmente enmascarada por las señales de las
sub-bandas en su vecindad y puede ser por tanto suprimida completamente.

Fig. 8.12. Estructura de datos MPEG-2 capas I y II

En la reducción de irrelevancia, las sub-bandas son también evaluadas por


si ellas contienen armónicas de la señal correspondientes a una sub-banda
más baja, es decir, sí la señales enmascaradas son componentes tonales
(armónicas) o no tonales. Sólo las señales enmascaradas no tonales pueden
ser completamente suprimidas.

Fig. 8.13. Reducción de redundancia a MPEG-2 capas I y II


8- 13

En la codificación MPEG, un cierto número de muestras son combinadas


en cuadros. Un cuadro de la capa I está formado con 12 muestras para cada
sub-banda. Un cuadro de la capa II está formado con 3 x 12 muestras para
cada sub-banda (Fig. 8.12.).
Para cada bloque de 12 muestras, la muestra más alta es determinada. Esta
muestra es usada como un factor de escala, el cual es aplicado a todas las 12
muestras del bloque para habilitar la reducción de la redundancia (fig. 8.13.).

8.6 Codificación por Transformadas para MPEG capa III y


Dolby Digital
La codificación por transformadas, contraria a la codificación por sub-
bandas, no usa bancos de filtros para el filtraje de las sub-bandas; aquí las
tajadas de la información de audio en el dominio de la frecuencia son efec-
tuadas por medio de una variación de la Transformada Discreta de Fourier.
Usando la Transformada Discreta de Coseno (DCT) o La Transformada Dis-
creta de Fourier Modificada (MDFT) la señal de audio es procesada para
conseguir 256 ó 512 valores de potencia espectral. Al mismo tiempo, de la
misma manera como en la codificación por sub-bandas, la Transformada
Rápida de Fourier (FFT) es llevada con relativamente alta resolución al do-
minio de la frecuencia. Controlada por el modelo psicoacústico creado por la
salida de datos de la FFT, los valores de potencia de la señal de audio obte-
nidas a través de la MDFT están sujetas a cuantificación gruesa o fina o son
completamente suprimidas. La ventaja de este método sobre el de la codifica-
ción por sub-bandas es que ofrece una resolución de alta frecuencia para el
proceso de reducción de las irrelevancias. Este tipo de codificación es usado,
por ejemplo, en el Dolby Digital AC-3 Audio (AC-3 viene de Audio Coding
3)

Fig. 8.14. Codificación por transformada


8 - 14 Compresión de Señales de Audio en MPEG-2 y Dolby Digital

También existe la codificación de sub-bandas mezcladas y la codificación


por transformada, conocida como codificación híbrida. Por ejemplo, en la
capa III del MPEG, el filtraje de las sub-bandas es realizado antes de la
(M)DCT (Fig. 8.15.). Esto significa que primero se divide de manera gruesa
en sub-bandas, luego se aplica la (M)DCT para cada sub-banda para obtener
la resolución fina. Después de la (M)DCT, los datos son sujetos a una reduc-
ción controlada de la irrelevancia por el modelo psicoacústico, el cual es ali-
mentado con la información del bloque de la transformada rápida de Fourier.
Los datos de audio codificados en MPEG capa III se conocen como archivos
de audio MP3 y hoy se utilizan comúnmente por todo el mundo.

Fig. 8.15. Híbrido sub-banda y codificación por transformadas

8.7 Sonido Multicanal


En la codificación multicanal de audio, las irrelevancias entre los canales
pueden ser determinadas y omitidas para la transmisión. Esto significa que los
canales son investigados por los componentes correlacionados que no contri-
buyan a la impresión auditiva espacial. Este procedimiento es empleado, por
ejemplo, en la capa II del MPEG y el Dolby digital 5.1 surround. En el audio
5.1, los siguientes canales son transmitidos: izquierdo, centro, derecho, iz-
quierdo envolvente, derecho envolvente y un refuerzo en el canal de bajas
frecuencias (LFE – Low Frequency Enhancement) para sub-graves (subwoo-
fer)
La figura 8.16, muestra la configuración de los parlantes para un audio
multicanal 5.1.
8- 15

Fig. 8.16. Audio Multicanal

La estructura detallada de estos métodos de codificación de audio no es re-


levante en términos de aplicaciones prácticas y no será discutido aquí. Para
mayor información, consulte la literatura relacionada y los estándares.

Bibliografía: [ISO13818-1], [DAMBACHER], [DAVIDSON], [THIELE],


[TODD], [ZWICKER]

También podría gustarte