Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Compresion de Audio PDF
Compresion de Audio PDF
Compresión de Audio
5.1 COMPRESIÓN
Enn este capítulo se presentan los conceptos básicos fundamentales relacionados con la compre-
sión de audio, describiendo superficialmente el estándar MPEG-1. Algunos conceptos son exac-
tamente iguales a los descritos para la compresión de vídeo, y se retoman aquí en el contexto de
la compresión de audio. Posteriormente se analizan con más detalle, y por tanto con más nivel de
complejidad, los estándares MPEG.
La técnica mas simple para reducir el volumen de datos en una señal digital es la reducción de la
frecuencia de muestreo o de la cantidad de bits de cuantización. Si bien es un método bastante
rudimentario y poco eficiente, todavía puede ser utilizado en
algunas aplicaciones. Solamente hay que tener en cuenta que reduciendo la frecuencia de mues-
treo se reduce el ancho de banda que es posible procesar, y reduciendo los bits de cuantización
disminuye el SQNR introduciéndose ruido en la señal.
Existen otras técnicas mas elaboradas para comprimir audio digital. En este punto es necesario
distinguir entre compresión con pérdida (lossy) o compresión sin pérdida de datos (lossless).
Lossless: La compresión lossless consiste en eliminar aquellos datos que son redundantes en la
señal de audio. Por ejemplo, si se observa que una determinada cadena de bits se repite con bas-
tante frecuencia en la señal no es necesario transmitirla todas las veces que aparezca. Se trans-
mite una sola vez y luego se insertan bits de control que indican en que lugares se deben
reinsertar estas cadenas.
Otro método de compresión sin pérdidas es el denominado DPCM (Diferential Pulse Code
Modulation); es parecido al PCM que se analizó anteriormente, pero en este caso, no se procesan
las muestras en su totalidad, sino que se trabaja con las diferencias entre una muestra y la ante-
TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2009-2010
rior. Debido a que las señales de audio son bastante continuas, una muestra y su precedente son
muy similares, por lo que no es necesario almacenar el valor absoluto de cada muestra, sino sola-
mente la diferencia entre muestras contiguas. Estas diferencias son, por lo general, bastante
pequeñas, por lo que son necesarios pocos bits para transmitirlas; logrando de esta forma una
compresión de los datos.
Estas técnicas de compresión y otras del mismo tipo son por lo general muy poco eficientes;
logran relaciones de compresión máximas de 4:1 aproximadamente.
Lossy: La compresión lossy, es decir, con pérdida de datos, es mas bien una reducción en la can-
tidad de información y no una compresión de la misma (eliminación de datos irrelevantes). Esto
significa que en el proceso de compresión-reducción, parte de la información se pierde irreme-
diablemente. Se trata entonces de un proceso irreversible; no es posible recuperar la señal origi-
nal en su totalidad efectuando el proceso inverso porque parte de la misma se perdió para
siempre. Un método lossy es, por ejemplo, el proceso de compresión denominado ADPCM.
Si bien las técnicas de compresión de señales digitales de audio progresaron de manera notable
durante los 70; especializándose según la aplicación final y abarcando casi todas las áreas del
audio digital; las eficiencias (niveles o relaciones de compresión) alcanzadas por la mayoría de
las técnicas todavía eran muy bajas. Por este motivo, durante la década de los 80, numerosos
laboratorios y equipos de investigación de todo el mundo se dedicaron a la búsqueda y desarrollo
de un algoritmo de compresión de audio mas eficiente, con una mayor relación de compresión e
independiente de la fuente original del sonido.
Así es como surge una de las técnicas lossy mas complejas y eficientes: la denominada P.A.C.,
Perceptual Audio Coding desarrollada por Bell Laboratories. Con esta técnica se alcanzan radios
de compresión realmente notables (desde 3:1 a 24:1 según el algoritmo) y es parte esencial de
numerosos productos de consumo masivo o de uso profesional.
considerados irrelevantes, por ejemplo, datos que representan sonidos considerados inaudibles en
presencia de otros elementos de una señal compleja.
Este tipo de codificación es denominada PAC, Perceptual Audio Coding (Codificación del Audio
Percibido) y está basada en los dos principios básicos del comportamiento del oído humano ya
descritos, el enmascarado temporal y el enmascarado frecuencial. La técnica es del tipo lossy, es
decir, con pérdida de datos.
El método implica contar con un modelo matemático del sistema de audición humano y es ente-
ramente dependiente de la precisión del mismo, además del manejo preciso de técnicas de fil-
trado y del análisis del audio.
Fundamentalmente, la técnica consiste en eliminar aquella parte de la señal de audio que el oído
humano no será capaz de percibir debido a la presencia de otras señales que la enmascaran. Para
poder entender como funciona el PAC, es necesario conocer algunos principios psicoacústicos
fundamentales.
En la actualidad existen diversos algoritmos de compresión que utilizan este tipo de codificación,
tal es el caso del ATRAC, (Adaptive Transform Acoustic Coding)), de compresión 5:1, utilizado
en los MiniDisk de Sony y en el formato de audio Surround SDDS (Sony Dynamics Digital
Sound) para reproducciones cinematográficas, AC3 (Audio Code number 3) de los Laboratorios
Dolby, usado en las transmisiones de televisión digital y en los DVD), PASC (utilizado en el
DCC, Digital Compact Cassette de Philips); y MPEG, utilizado en los DVD (Digital Versatile
Disc), CD-I (Compact Disc Interactive, de Philips), transmisiones satelitales, RDSI, Internet y en
reproductores de audio portátiles. Para comprender el funcionamiento de las técnicas PAC, es
necesario manejar algunos conceptos de psicoacústica.
La mayor parte del tiempo el mundo se presenta con gran variedad de sonidos simultáneos; el ser
humano automáticamente lleva a cabo la tarea de distinguir cada uno de ellos y atender a los de
mayor importancia. Es muy difícil percibir un sonido cuando existe otro de mayor intensidad
presente al mismo tiempo. Este proceso, al parecer intuitivo, a niveles psicoacústicos y cognosci-
tivos es muy complejo. El término para este fenómeno es enmascaramiento (masking), y es pro-
bablemente la cualidad auditiva mas investigada.
40
30
dB 20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Frecuencia (KHz)
Si se repite la prueba para varias frecuencias distintas y se grafican los diversos niveles de inten-
sidad se obtiene una curva como la representada en la figura 5.1.
Si ahora se produce un tono de 4 KHz a una intensidad fija, por ejemplo 60 dB (tono enmascara-
dor) y al mismo tiempo se va incrementando la intensidad de un tono de audio de 1 KHz (tono de
prueba) desde los 0dB hasta que sea apenas audible, se registra dicho punto y se repite para
varias frecuencias del tono de prueba se obtiene la curva mostrada en la figura 5.2.
Puede observarse como el tono enmascarador (de 4 KHz) eleva el umbral de audición y convierte
una multitud de "puntos audibles" en "puntos inaudibles". Ahora el nuevo umbral de audición es
el definido por la curva superior. Todos los puntos debajo de dicha curva corresponden a sonidos
inaudibles y todos los puntos encerrados entre la curva inferior y la superior corresponden a soni-
dos enmascarados por el tono de 4 KHz, sonidos que antes (en el silencio) podían oírse.
80
60
dB 40
20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Frecuencia (KHz)
humano le lleva un determinado tiempo hasta poder percibir algún sonido próximo mas débil.
Para explicar mejor el fenómeno supóngase el siguiente experimento. Se ejecuta un tono enmas-
carador de 1 KHz a 60 dB junto con un tono de prueba de 1,1 KHz a 40 dB, el tono de prueba no
puede oírse, está enmascarado.
60
40
dB
20
Retardo (ms)
En una señal de audio mas compleja, con multitud de frecuencias de distintas intensidades
sonando al mismo tiempo, ambos fenómenos interactúan (enmascaramiento frecuencial y tempo-
ral), produciendo una curva como se muestra en la figura 5.4.
Además de los dos principios psicoacústicos de enmascarado frecuencial y temporal vistos hasta
ahora, existe otro concepto de psicoacústica que es también fundamental para poder comprender
el funcionamiento de las técnicas PAC de reducción de datos. Es el concepto de bandas críticas.
El sistema auditivo del ser humano tiene una respuesta en frecuencia limitada en cuanto a resolu-
ción. Es decir, existen bandas de frecuencias que el oído humano percibe como una sola, siendo
incapaz de identificar diferencias entre dos frecuencias distintas dentro de una misma banda.
Estas bandas de frecuencia son las denominadas bandas críticas y sus respectivos anchos no son
constantes a lo largo de todo el espectro audible. A frecuencias bajas miden menos de 100 Hz,
mientras que a frecuencias mas altas miden mas de 4 KHz. De esto se desprende que en la parte
baja del espectro de audición humano hay mas cantidad de bandas críticas que en el extremo mas
alto. En total, todo el rango de frecuencias de audio puede ser particionado en 25 bandas críticas.
dB
Tiempo
Tono enmascarador
Sonidos inaudibles
(debajo de la curva)
Frecuencia
El concepto de bandas críticas está muy relacionado con los fenómenos de enmascaramiento
antes vistos, esto se debe a que: un sonido de mucha intensidad dentro de una banda crítica ten-
derá a enmascarar cualquier otro sonido mas débil dentro de la misma banda. Estos tres princi-
pios psicoacústicos que se acaban de explicar son los elementos fundamentales necesarios para
comprender el funcionamiento de un codificador PAC, es decir, las técnicas PAC de reducción
de datos basan su funcionamiento en estos dos fenómenos de enmascaramiento, frecuencial y
temporal, y en el concepto de bandas críticas para alcanzar relaciones de compresión varias veces
superiores a los alcanzados por otras técnicas menos complejas.
De todas las implementaciones mencionadas antes existe una en particular que ha cobrado nota-
ble relevancia en los últimos tiempos. Es el caso de la norma MPEG (Moving Pictures Experts
Group).
• La norma ISO/IEC-11172
En 1987, un grupo de investigadores del Instituto Fraunhofer IIS, con sede en Alemania, traba-
jando bajo los auspicios de la ISO (International Organization for Standardization) y el IEC
(International Electrotechnical Commission) comenzó a desarrollar un algoritmo para comprimir
señales digitales de audio y video mediante técnicas de codificación basadas en la percepción
(PAC). Este grupo de trabajo se denominó MPEG (Motion Pictures Experts Group). A mediados
de la década del '80 los recién presentados Discos Compactos (Compact Discs o CD's) se perfila-
ban como el soporte de almacenamiento masivo de datos del futuro. No tardaron en aparecer los
CD's para almacenar archivos de computadora (CDROM), fotografías (Photo-CD de Kodak) e
incluso discos multimedia interactivos (CD-i de Philips). En vista de todo esto, el objetivo funda-
mental del MPEG era desarrollar un algoritmo de compresión de datos que permitiera almacenar
una hora de audio y video de alta calidad dentro de un CD. Trabajando con esta premisa durante
3 años, el Grupo desarrolló un algoritmo que luego fue publicado como Norma Internacional por
el ISO/IEC bajo el nombre de ISO/IEC-11172, mas conocido como MPEG-1.
El título completo de la Norma es: "ISO/IEC-11172: Coding Of Moving Pictures And Associa-
ted Audio For Digital Storage Media At Up To About 1.5 Mbit/s" (Codificación de imágenes
animadas y audio asociado para medios de almacenamiento digitales de hasta aproximadamente
1,5 Mbit/s). La mención de la tranferencia del medio (1,5 Mbit/s) en el título de la norma hace
referencia a la capacidad de transferencia máxima de un Disco Compacto; de esta capacidad total
la norma utiliza aproximadamente 1,2 Mbps para el video y 0,3 Mbps para el audio.
MPEG-1 es un estándar para la compresión de audio genérico, es decir, el algoritmo alcanza sus
altos niveles de compresión sin asumir nada sobre la naturaleza de la fuente del sonido. En otras
palabras: no está pensado para comprimir, por ejemplo, señales de voz solamente (como es el
caso del algoritmo CELP), en lugar de esto, MPEG-1 puede comprimir cualquier señal de audio
pensada para ser escuchada por el oído humano; esto es debido a los principios psicoacústicos en
los que se basa.
En otros determinados aspectos la norma es mas flexible para futuras mejoras e innovaciones.
Por ejemplo, los diseñadores que utilicen la norma quedan libres para probar nuevas y diferentes
implementaciones del codificador y el decodificador MPEG sin traspasar los límites impuestos
por la norma. Existe mas potencial de diversidad en cuanto al codificador debido a que el están-
dar no define uno en particular. No así con el decodificador, que, además del formato del bits-
tream de datos, es lo único que define específicamente la norma.
A continuación se detallan algunos aspectos generales de la norma, mas adelante en esta sección
se profundizará el estudio sobre el codificador y el decodificador MPEG.
• La frecuencia de muestreo del audio digital que le sirve de entrada al codificador puede ser: 32,
44.1 o 48 KHz.
• El bitstream de datos comprimidos puede contar con uno o dos canales de audio en alguno de los
siguientes modos:
2.- Modo doble monofónico: para dos canales de audio independientes (esta funcio-
nalidad es idéntica al modo estéreo tradicional).
3.- Modo estéreo: para canales estéreo que poseen bits en común.
4.- Modo Joint-Stereo: que toma ventaja de las correlaciones entre canales estéreo y
de la irrelevancia de la diferencia de fase entre canales.
• La cadena de bits comprimida (bitstream) puede tener una de varias cadencias (bit rates) predefi-
nidas: de 32 Kbps a 224 Kbps por canal. Dependiendo de la frecuencia de muestreo de la señal
esto se traduce en radios de compresión que van de 2,7 a 24. Además, el estándar provee un
modo de velocidad de bits libre para soportar otras cadencias distintas a las preestablecidas.
• MPEG-1 ofrece la posibilidad de elegir entre tres niveles o layers (capas o estratos) de compre-
sión. Esto provee un amplio rango de soluciones de compromiso entre complejidad del algoritmo
y calidad del audio comprimido. Los niveles son:
• Layer 1: es la mas simple de todas; esta pensada para bitrates superiores a los 128 Kbps.
Por ejemplo, el DCC (Digital Compact Cassette) de Philips utiliza una variante del Layer 1
denominada PASC alcanzando un bitrate de 192 Kbps por canal.
• Layer 2: ofrece un nivel de complejidad intermedio y está pensada para bitrates cercanos a
los 128 Kbps por canal. Las posibles aplicaciones para esta capa incluyen la codificación
de audio para la Emisión de Audio Digital que es la base de la radio digital, DAB (Digital
Audio Broadcasting), CD-i y Video CD.
• Layer 3: es la mas compleja de todas, pero ofrece la mejor calidad de audio a los bitrates
mas bajos (alrededor de los 64 Kbps por canal). Esta capa se adapta muy bien para la trans-
misión de audio sobre RDSI y reproductores de audio portátiles.
Las tres capas están diseñadas de manera tal que un decodificdor de layer 2 pueda entender tam-
bién un bitstream de layer 1; y un decodificador de layer 3 haga lo propio con uno de layer 1 y 2.
Las tres capas son los suficientemente simples como para permitir la implementación de un deco-
dificador en un solo chip de circuito integrado.
• El bitstream de audio comprimido soporta (como una opción) la detección de errores a través de
un código de CRC (Cyclic Redundancy Check).
• MPEG-1 ofrece la posibilidad de incluir datos auxiliares en la cadena de bits comprimida (anci-
llary data).
• Además la organización o formato del bitstream de datos comprimidos permite la existencia de
algunas prestaciones adicionales tales como el acceso aleatorio a cualquier porción de la cadena,
avance y retroceso rápido del audio, etc..
En general, los codificadores de este tipo operan descomponiendo la señal en bloques o unidades,
correspondiendo cada uno a un cierto rango de frecuencia y tiempo determinados. Utilizando
esta distribución tiempo-frecuencia, la señal es analizada de acuerdo con principios psicoacústi-
cos. Este análisis indica qué bloques o unidades son críticos y precisan ser codificados con la
máxima precisión, y cuales son menos "delicados" y pueden tolerar cierto nivel de ruido de cuan-
tización sin degradar la calidad final del sonido percibido. Basándose en esta información, los
bits disponibles (según el bitrate elegido) son distribuidos en estas unidades de tiempo-frecuen-
cia. Los coeficientes espectrales en cada unidad son, entonces, cuantizados utilizando los bits
asignados.
El codificador MPEG-1 recibe como entrada las muestras de audio digital (PCM samples) y pro-
duce el bitstream comprimido para su almacenamiento o transporte. El algoritmo codificador no
está estandarizado por la Norma ISO/IEC 11172-3, pero su bitstream de salida debe ser tal que
un decodificador MPEG-1 (normalizado) pueda reproducir el audio original a partir de allí. Para
estudiar el funcionamiento de un codificador MPEG-1 tómese en consideración el diagrama en
bloques de la figura 5.5.
Modelo
Psicoacústico Información
auxiliar
(opcional)
La implementación de los filtros puede variar entre codificadores y entre las distintas capas
(layers) de la norma. Conceptualmente el banco de filtros puede considerarse como un conjunto
de 32 filtros pasabanda trabajando en paralelo, todos reciben la misma señal de entrada y todos
entregan una porción del espectro a la salida.
• Modelo psicoacústico:
Cuando se analizaron los principios básicos del audio digital se introdujo el concepto de Relación
señal/ruido de cuantización (SQNR), que en conclusión indicaba que cuando se agrega un bit
más para cuantizar una muestra de audio se agregan 6 dB de resolución y el ruido de cuantiza-
ción disminuye en la misma magnitud.
donde
Aunque la norma no define ninguna implementación específica del modelo psicoacústico, ofrece
dos posibilidades de acuerdo a la cantidad de bits disponibles para cada una de las bandas; infor-
mación suministrada por el modelo psicoacústico. Este bloque también es denominado Noise/
Bits Allocation o "Asignación de Ruido/Bits". Finalmente, la cadena de bits resultante es enviada
al bloque de formateo para su acondicionamiento final. La figura 5.6 es otro esquema de un codi-
ficador en donde puede visualizarse cómo la salida de cada uno de los filtros es cuantizada por
separado de acuerdo al análisis del modelo psicoacústico.
Cuantización
Entrada
Salida
Cuantización
Banco de Multiplexor
Filtros
Cuantización
Modelo
Psicoacústico
Layer 1: En este nivel el banco de filtros divide la señal de audio en 32 sub-bandas de frecuencia,
todas del mismo ancho (frecuencia de muestreo / 64), . Los filtros están basados en transforma-
das rápidas de Fourier (FFT - Fast Fourier Transform) de 512 puntos (sobre un solo frame) y pro-
veen una aceptable resolución en frecuencia. El hecho de dividir la señal en 32 bandas de igual
ancho no se corresponde completamente con el concepto de bandas críticas explicado con ante-
rioridad. Aún mas, Layer 1 no tiene en cuenta el fenómeno de enmascaramiento temporal, solo el
enmascaramiento en frecuencia (por ello el análisis con FFT se realiza sobre un solo frame). En
el proceso de cuantificación, la asignación puede ir de 0 a 15 bits por sub-banda.
Layer 2: El algoritmo utilizado en esta capa representa una pequeña mejora respecto del Layer 1.
Los filtros también dividen el espectro audible en 32 bandas de igual ancho, pero están basados
en FFT's de 1024 puntos. Layer 2 contempla un poco de enmascarado temporal.
Layer 3: El algoritmo del Layer 3 es una aproximación mucho mas refinada a los conceptos psi-
coacústicos que ya se han explicado. El banco de filtros divide el espectro en 32 sub-bandas pero
el ancho de cada una de ellas depende de un análisis previo sobre la señal original, de esta forma
se aproxima mucho mas al concepto de bandas críticas. La implementación matemática de estos
filtros está basada en la denominada Modified Discrete Cosine Transform, MDCT (Transfor-
mada Discreta del Coseno Modificada), que provee mejor definición en frecuencia. El efecto del
enmascarado temporal está plenamente contemplado en este algoritmo.
Además de todas estas mejoras, Layer 3 implementa a la salida del bloque cuantificador, una
etapa más de compresión. El proceso es del tipo lossless y se basa en la eliminación de informa-
ciones redundantes dentro del bitstream. El algoritmo se denomina "Compresión Huffman" y
añade un nivel mas de compresión a todo el conjunto.
• Decodificador MPEG
El algoritmo decodificador MPEG-1 es uno de los pocos aspectos normativos del estándar ISO/
IEC-11172-3. El proceso es mucho mas simple que el codificador, pero aún así ofrece un grado
importante de complicación matemática.
Los aspectos cualitativos mas importantes de este algoritmo son los siguientes. En un decodifica-
dor PAC, el espectro cuantizado es reconstruido de acuerdo a los bits asignados y luego, sinteti-
zado en una señal de audio compleja. Para comprender mejor el proceso, considérese el diagrama
en bloques de la figura 5.7.
Cadena de bits
(Bitsream) Salida de
codificada audio PCM
Descomposicón Reconstrucción de las Conversión
del Bitstream muestras frecuencialess frecuencia-tiempo
Información auxilar
(opcional)
El primer bloque detecta los frames dentro del bitstream y decodifica la información auxiliar que
pudieran contener. El bloque siguiente reconstruye el espectro cuantizado según los bits asigna-
dos y el último bloque devuelve toda la información al dominio del tiempo para obtener las
muestras PCM definitivas. La figura 5.8 muestra un esquema alternativo de un decodificador
MPEG-1:
Cuantización
Entrada inversa
Cuantización Salida
inversa
Demultiplexor Banco de
Filtros
Cuantización
inversa
• Extensiones de la norma
Los cambios respecto de MPEG-1 son en realidad ampliaciones. En MPEG-2 se agregan 3 nue-
vas frecuencias se muestreo (16, 22,05 y 24 KHz); se reduce el bitrate del bitstream hasta un
mínimo de 8 Kbps y se suman 3 nuevos canales de audio (totalizando 5). Durante el desarrollo de
esta norma se puso especial énfasis en la compatibilidad con MPEG-1. Un decodificador MPEG-
2 puede entender perfectamente un bitstream comprimido con MPEG-1.
Existe a su vez otra extensión a MPEG-2, conocida como MPEG-2.5. Este documento es un
desarrollo de la empresa Alemana FhG Erlangen y solo modifica algunos aspectos del Layer 3;
agregando mas frecuencias de muestreo para lograr bitrates aún mas bajos.
Existe una variedad enorme de formatos de sonido digital. Los principales aparecen en la tabla
5.1:
Los parámetros que definen la calidad de un sonido digital así como el tamaño que finalmente
ocupe el archivo son los siguientes:
b) Precisión de las muestras: Indica la escala de bits que se ha utilizado para guardar el sonido.
Pueden ser 8 bits (256 valores posibles) o 16 bits (más de 65.000 valores posibles).
c) Mono / estéreo: El sonido pude grabarse en un solo canal (mono). en dos (estéreo), o en múlti-
ples canales, 5, 6 o más. Debemos combinar estos tres parámetros de forma coherente a los resul-
tados que queramos obtener, pues tanto la calidad del sonido como el espacio que ocupe el
fichero dependerá de ellos. Así, por ejemplo, si queremos conseguir una calidad estándar de CD
deberemos seleccionar una frecuencia de 44,1 Khz, una precisión de 16 bits y dos canales (esté-
reo). En cambio, si simplemente lo que queremos es grabar una voz, con 11 Khz, 8 bits y calidad
mono será suficiente. Es importante saber escoger los parámetros adecuados en cada caso pues la
calidad CD ocupa unas 12 veces más espacio en el disco duro que el segundo caso.
Los datos fundamentales de las capas del estándar MPEG de audio se muestran en la tabla 5.3.
Por último, debe tenerse en cuenta la diferencia entre sonido digitalizado y el sintetizado. El
sonido MIDI no se obtiene de una señal de sonido natural. El formato MIDI no es un sonido
almacenado como tal sino en forma de datos y para que para que pueda ser reproducido es nece-
sario un sintetizador, presente en la tarjeta de sonido. De hecho es como si se tratase de una par-
titura que contiene la nota que se toca en cada momento, su intensidad y su duración.
Los archivos de este tipo son pequeños y en muy pocos Kb podemos almacenar gran cantidad de
música, aunque, eso sí, con una sonoridad un tanto artificial. Existen dos extensiones que Win-
dows reconoce perfectamente: .mid (la más habitual) y .rmi. Programas como Music Time crean
y reproducen estos tipos de ficheros.
El bitstream resultante esta divido en pequeños paquetes de datos denominados frames (cuadros
o marcos). Cada frame es totalmente independiente de cualquier otro y, según el layer, el bitrate
elegido y la frecuencia de muestreo, puede contener entre 20 y 70 ms de audio digital compri-
mido. Un frame MPEG-1 está dividido en cuatro partes:
- Datos de audio: parte del bitstream que contiene las muestras de audio comprimido.
- Datos auxiliares (ancillary data): parte del bitstream en donde pueden incluirse datos auxilia-
res.
El tamaño en bytes de cada frame puede ser calculado utilizando la siguiente expresión (sólo para
Layer 3):
144 × BitRate
FrameSize = [bytes ]
SampleRate
en donde:
• Ejemplo: supóngase una frecuencia de muestreo típica de 44,1 KHz y un Bitrate de 128 Kbps,
con estos datos el tamaño del paquete sería:
La figura 5.9 muestra un modelo de sistema de codificación de audio MPEG, desde el punto de
vista de la creación de las tramas.
CODIFICADOR
Datos auxiliares
M odelo
psicoacústico
DECODIFICADOR
Salida de
audio digital
Desempaquetador Reconstrucción Síntesis en
de tramas sub-bandas
Datos auxiliares
Figura 5.9 Sistema de codificación de audio MPEG, desde el punto de vista de la creación de las tramas.
La tabla 5.4 resume el significado de los 32 primeros bits del encabezado de un frame:
En el diagrama de bloques del modelo de sistema de codificación de audio MPEG-1 se puede ver
el proceso básico de codificación/decodificación de la señal de audio digital. Esta señal se divide
en 32 subbandas de frecuencia con un banco de filtros. Simultáneamente se calcula para cada
subbanda, en el modelo psicoacústico, los coeficientes entre los niveles de señal y el umbral de
enmascaramiento (los sonidos no se distinguen por debajo de este umbral). A cada banda se le
asigna un número de bits para reducir el ruido total de cuantificación, esto se realiza en el bloque
de asignación de bits y cuantificación. El último bloque empaqueta la información anterior y
añade los datos auxiliares en la trama.
La trama MPEG-2 se construye en torno a los dos canales principales (izquierdo y derecho), para
que sea compatible con la trama MPEG-1, el resto de información necesaria para los canales de
sonido envolvente (surround) o los canales multilingües se incluye en la zona de datos auxiliares.
Así un decodificador que siga la norma MPEG-1 obtendrá los canales izquierdo y derecho, mien-
tras que un decodificador MPEG-2 puede obtener todos los canales.
Cabecera MC
MC-Muestras de
MC-CRC
las subbandas
MC-BAL
MC-SCFSI Multilenguaje Datos
MC-SCF anteriores 2
Predicción-MC
Multi-
Datos de audio multicanal lenguaje
Estéreo
Básico
Extensión multicanal
L/R
• El archivo "MP3"
El bitstream (cadena de bits) a la salida del codificador MPEG-1 está formado por frames (cua-
dros). Como ya se explicó, estos frames cuentan con un encabezamiento; un control de errores
por medio del método de redundancia cíclica (CRC), los datos
La extensión del nombre de este archivo es ".MP3", identificando de esta manera a un bitstream
codificado en MPEG1 Layer 3. De la misma manera, la extensión ".MP2" está relacionada con
archivos codificados en MPEG1 Layer 2.
Estos archivos no contienen ningún tipo de encabezamiento general, simplemente son grandes
"paquetes" de frames. No obstante esto, es posible encontrar al final del archivo, información
sobre el origen del audio comprimido a manera de etiqueta (tag -en inglés-); de esta manera el
dispositivo o programa que comprime una grabación musical puede añadir el nombre del autor,
de la obra, del álbum al que corresponde (con 30 caracteres asignados a cada uno), año de reali-
zación (en 4 bytes), comentarios (30 caracteres), y un índice numérico correspondiente al género
musical (1 byte). El campo (si es especificado y es correcto) tiene como identificación inicial la
palabra 'TAG'. Con estos tres caracteres totaliza 128 bytes.
En esta sección se presentan los métodos de compresión de audio fundamentales con mayor deta-
lle. La complejidad de los mismos requiere ciertos conocimientos de tratamiento digital de seña-
les. Para el lector no instruido en estos temas es suficiente con entender lo descrito anteriormente,
pero no debe renunciar a la lectura de esta sección, aunque sólo sea para observar los conoci-
mientos necesarios para abordarlo.
A continuación se van a detallar los mecanismos de los algoritmos de compresión MPEG bási-
cos. Para ello se presentan inicialmente algunas herramientas fundamentales.
Es una generalización del método de eliminación de blancos. Con esta técnica se puede reducir
cualquier secuencia de caracteres cuando el nivel de la ocurrencia es de tres o más caracteres
iguales consecutivos.
Cuando se encuentran 3 o más caracteres iguales consecutivos lo que se hace es sustituir esta
secuencia por:
fghhhhjjerØØØØØØØØØtttrrrrrywqad
fgSch4jjerScØ9Sct3Scr5ywqad
gtScr5juliScØ4jklScp3hj
gtrrrrrjuliØØØØjklppphj
La construcción de este código se fundamenta en asignar a cada símbolo del alfabeto fuente una
secuencia de bits cuya longitud esté relacionada de forma directa con la probabilidad de apari-
ción de ese símbolo. De esta forma, a los símbolos con mayor frecuencia de aparición se les asig-
narán las palabras de código de menor longitud.
Se repite este proceso hasta que sólo tengamos dos símbolos. A continuación se realiza el pro-
ceso de codificación. Primeramente asignamos un 1 a uno de los dos símbolos que tenemos y un
0 al otro. Posteriormente recorreremos la estructura que hemos construido hacia atrás de forma
que cuando dos símbolos hayan dado origen a un nuevo símbolo, estos dos símbolos "heredarán"
la codificación asignada a este nuevo símbolo y a continuación se le añadirá un 1 a la codifica-
ción de uno de los símbolos y un 0 a la del otro símbolo.
M edida de
Inverso r
nivel
có digo
de n ive l
(a)
Nivel de Señal
SNR
Nivel de Ruido
(b) (c)
Figura 5.11 Compensación digital. (a) El codificador amplifica la entrada al nivel máximo y el decodificador atenúa en la
misma cantidad. (b) Señal antes de la compresión. (c) En el sistema compensado la señal se manitiene tan
lejos como es posible del ruido que se produce por la longitud de palabra de la muestra.
Una alternativa a la reducción de la longitud de palabra consiste en convertir la señal PCM uni-
forme en un formato no uniforme. En este caso el tamaño del paso de cuantificación crece con la
magnitud de la muestra tal que el nivel de distorsión es mayor que cuando se dan los niveles más
altos.
La compensación está relacionada con la codificación en punto flotante. Esta técnica se muestra
en la figura 5.12. El valor de la muestra se expresa como una mantisa y un exponente binario que
determina el desplazamiento que debe realizarse sobre la mantisa para obtener el valor absoluto
correcto sobre una escala PCM. El exponente es el equivalente a la ganancia o al factor de escala
en un sistema compensado.
M M E
0 0 1 1 0 0 1 0 = 1 0 0 1 01
7 6 5 4 3 2 1 0
0 0 0 0 1 0 1 1 = 0 1 1 0 1 1
En punto flotante la relación señal-ruido viene determinada por el número de bits en la mantisa.
La figura 5.13 ilustra cómo la relación señal-ruido varía como una función diente de sierra. El
mejor valor, que se obtiene cuando la mantisa es cercana al desbordamiento, es remplazado por
el peor valor cuando la mantisa se desborda y el exponente se incrementa.
Como puede observarse, en el ejemplo mostrado en la figura 5.13, la máxima relación SNR es de
6db×8=48 decibelios con una entrada m·xima de 0db. Como el nivel de entrada disminuye y el
nivel de ruido permmanece igual entonces la SNR disminuye a 42 db.Una mayor reducción en el
nivel de señal tendría como consecuencia que el conversor desplazase el rango (punto A de la
figura 5.13) aumentando la ganacia de la entrada analógica en 6 db. La SNR volvería al valor ini-
cial y el el exponenete cambiaría de 7 a 6 para obtener el mismo cambio en el receptor. En este
sistema tan simple, el ruido modulado se escucharía y por ello en la práctica es necesria una pala-
bra mayor para la mantisa.
SNR (db)
48
48
48
48
48
Conversor de exponente 0 1 2 3 4 5 6 7
La notación en punto flotante se utiliza en los DSPs ya que facilita los problemas computaciona-
les debidos a longitudes de palabras grandes. Así por ejemplo, al multiplicar números en punto
flotante basta con multiplicar las mantisas, mientras que los exponentes sólo se suman, redu-
ciendo el coste computacional.
Un sistema en punto flotante necesita un exponente con cada mantisa, lo que es innecesario y
demasiado costoso ya que en los sistemas de audio reales el nivel no cambia tan rápidamente
como para necesitar una información tan precisa, por lo que puede considerarse que existe redun-
dancia en los exponentes. Una alternativa más adecuada es la codificación en punto flotante en
bloque, también conocida como compensación cuasi-instantánea. En ella la magnitud de la
muestra mayor de un bloque se utiliza para determinar el valor de un exponente que será válido
para el bloque completo. Enviar un exponente por bloque requiere una velocidad de datos menor
que en la codificación en punto flotante.
Otra solución consiste en utilizar una ventana temporal variable en función del contenido del
transitorio de la forma de onda de audio. Cuando ocurren los transitorios musicales se necesitan
bloques cortos y la ganancia de codificación será baja. En otro caso los bloques se vuelven mayo-
res permitiendo una ganancia de codificación mayor. Mientras que este sistema se utilice sólo se
permite codificación de ganancia, el factor de compresión tiene que limitarse porque se obtiene
poco beneficio del enmascaramiento. Esto se debe a que estas técnicas producen distorsión que
puede encontrarse en cualquier lugar de toda la banda de audio. Si el espectro de la entrada de
audio es estrecho este ruido no se enmascarará.
Transitorio
Tiempo
Bloque de transformada
Debe tenerse en cuenta que el resultado de reducir la longitud de palabra de las muestras en un
codificador sub-banda es considerado a menudo como ruido. Estrictamente, el ruido es una señal
no deseada que no está correlacionada con la señal deseada. Esto no sucede generalmente en la
compresión de audio. El elemento aleatorio en la linealización en los bits de bajo orden estará de
alguna manera debajo de el final de la palabra reducida. Si la palabra es simplemente redondeada
al entero más cercano el efecto de la linealización se perderá produciendo distorsión por la cuan-
tificación. Como la distorsión se produce en un sistema de banda limitada los armónicos genera-
dos aparecerán con alias en la banda. Cuando la recuantificación se realiza en una sub-banda la
distorsión se confinará a esa sub-banda, tal y como se ilustra en la figura 5.15. Esta distorsión es
anarmónica.
La señal de audio se considera usualmente una forma de onda en el dominio temporal ya que esto
es los que produce un micrófono. Sin embargo, el análisis espectral permite que cualquier forma
de onda se represente por un conjunto de elementos armónicamente relacionados de amplitud y
fase dadas. En teoría es perfectamente posible descomponer una forma de onda periódica en sus
frecuencias y fases, y grabar o transmitir la transformada. Esta puede invertirse y reconstruir la
forma de onda temporal original.
La transformada de una forma de onda típica de audio cambia con relativa lentitud la mayoría de
las veces. La lenta decaída de la mayoría de los sonidos musicales permite reducir la velocidad
de muestreo de la transformada, con lo que se obtiene una codificación de ganancia. En algunas
frecuencias el nivel estará por debajo del máximo y puede utilizarse una longitud de palabra
menor. Además podrá obtenerse codificación de ganancia si los coeficientes que describen las
frecuencias que se enmascararán se cuantificarán menos finamente.
En la práctica aparecen algunas dificultades. Los sonidos reales no son periódicos, contienen
transitorios para los que la transformación no puede realizarse de forma precisa. Una posible
solución consiste en separar la forma de onda en dos segmentos cortos y transformar cada uno
individualmente. El retardo se reduce pero existe la posibilidad de que aparezcan efectos no
deseados debido a que la forma de onda ha sido truncada en ventanas temporales rectangulares.
Una solución es utilizar funciones de ventana, y superponer los segmentos, tal y como se ilustra
en la figura 5.15. Entonces, cada muestra de entrada aparece en sólo dos transformadas, pero con
pero variable dependiendo de su posición a lo largo del eje temporal.
El número de sub-bandas que deben utilizarse depende de las herramientas de conversión que se
combinen con la codificación sub-banda. Si se intenta optimizar la compresión basada en enmas-
caramiento las bandas deberán ser preferiblemente más estrechas que las bandas críticas del oído,
y entonces se necesitará un gran número. Sin embargo, esta característica a menudo no se
alcanza. Por ejemplo los ISO/MPEG Layers I y II usan únicamente 32 sub-bandas. La figura 5.16
muestra la condición crítica donde el enmascaramiento está en la arista superior de la sub-banda.
La utilización de un número excesivo de sub-bandas aumenta la complejidad y el retardo de la
codificación, así como el riego de pre-rizado en los transitorios, los cuales pueden exceder el
enmascaramiento temporal. Por último debe tenerse en cuenta que el proceso de separación de
bandas es complejo y necesita gran cantidad de cálculo.
Nivel de
enmanscaramiento Tono de
enmanscaramiento
Frecuencia Frecuencia
Figura 5.16 Condición crítica en la que el tono del enmascaramiento se encuentra en el límite superior de la sub-banda
La codificación MPEG/audio se utiliza para DAB (digital audio broadcasting) y para el audio de
la emisión de televisión digital.
En Estados Unidos se ha propuesto utilizar una compresión alternativa para el contenido de audio
de las emisiones de televión digital ATSC (Advanced Television Systems Commitee). Este es el
sistema AC-3 desarrollado por los laboratorios Dolby. La estructura de transporte MPEG ha sido
también estandarizada para permitir transportar audio codoficado AC-3. El DVD (Digital Video
Disk) puede también transportar codificación de audio AC-3 o MPEG.
Otro codificador popular, que es de propietario, es el ATRAC, que es el que se utiliza en los
MiniDisc
El objetivo de la compresión de audio quedó bien establecido cuando se formó el grupo MPEG/
Audio. En un principio no era necesario para el grupo producir codificadores (codecs) porque el
trabajo existente y los desarrollos hasta ese momentos eran adecuados. Como parte del proyecto
Eureka 147, se desarrolló el sistema conocido como MUSICAM (Masking pattern adapted Uni-
versal Sub-band Integrated Coding And Multiplexing). Fue desarrollado por la CCETT en Fran-
cia, IRT en Alemania y Philips en Holanda. Este sistema fue diseñado para que fuese apropiado
para la emisión DAB (Digital Audio Broadcasting). En paralelo se desarrolló el sistema ASPEC
(Adaptive Spectral Perceptual Entropy Coding), a partir de numerosos sistemas anteriores, por
los laboratorios AT&T Bell Labs, Thomson, la Fraunhofer Society y el CNET. El sistema
ASPEC fue diseñado para utilizar altos factores de compresión para permitir la transmisión de
audio sobre RDSI.
Los dos sistemas anteriores fueron implementados completamente en Julio de 1990, cuando la
Corporación Sueca de Emisiones realizó un test exhaustivo. Como resultado de estas pruebas, el
grupo MPEG/Audio combinó las características de los sistemas ASPEC y MUSICAM en un
único estándar manteniendo tres niveles de complejidad y de especificaciones.
Los tres niveles, conocidos como layers (capas), son necesarios ya que existen numerosas aplica-
ciones, con diferentes exigencias. Los codificadores de audio pueden trabajar con diferentes
niveles de calidad en las especificaciones y con distintos factores de compresión. Por ejemplo,
los equipos clásicos estereofónicos requieren unas especificaciones de calidad diferentes a los
mono. La complejidad del codificador será menor cuando el factor de compresión sea menor.
Cuando se necesite una compresión moderada un codificador sencillo será más eficaz. Por otro
lado, cuando el factor de compresión aumenta será necesario emplear un codificador más com-
plejo para mantener la calidad.
El codificador MPEG Layer I es una versión simplificada del MUSICAM, que es muy apropiado
para aplicaciones de compresión media y bajo coste. El Layer II es idéntico al MUSICAM y se
utiliza para DAB y para el contenido audio de la televisión digital DVB. El Layer III es una com-
En cada capa, la codificación MPEG Audio permite velocidades de muestreo de entrada de 32,
44.1 y 48 KHz y velocidades de salida de 32, 48, 56, 64, 96, 112, 128, 192, 256 y 384 kbits/seg.
La transmisión puede ser mono, canal dual (por ejemplo bilingüe) o estéreo. Otra posibilidad es
utilizar el modo estéreo de manera que el audio se vuelve mono sobre un cierto rango de frecuen-
cias. Esto permite una velocidad de bits menor con la desventaja evidente de que se reduce la
fidelidad estéreo.
Las capas del codificador MPEG Audio, (I, II y III), no deben confundirse con los estándar de
codificación para televisión MPEG-1 y MPEG-2. Estos definen un rango de sistemas para la
codificación de video y audio mientras que los layers definen tipos de codificación de audio. El
primer estándar de MPEG-1 comprime audio y video con cerca de 1.5 Mbits/SEG. La codifica-
ción de audio del MPEG-1 puede utilizarse para codificar uno o dos canales a velocidades supe-
riores a 448 kbits/seg. MPEG-2 permite que el número de canales crezca hasta cinco: izquierdo,
derecho, centro, izquierdo surround y derecho surround. Con el fin de mantener la compatibili-
dad con MPEG-1, el MPEG-2 convierte los cinco canales de entrada en una señal compatible de
dos canales, Lo, Ro, tal y como se muestra en la figura 5.17.
Envolvente Izquierdo
(Left Surround)
Ls Σ Lo=L+αC+βLs
Izquierdo (Left) L
α
Derecho (Right) R
Figura 5.17 Obtención de una señal estéreo a partir de cinco señales envolventes para permitir la compatibilidad con
un sistema de dos canales.
Los datos de estos dos canales se codifican en un estándar MPEG-1 de audio, siguiendo MPEG-
2 con un sistema de datos subordinado que el decodificador MPEG-1 ignorará. El sistema subor-
dinado contiene datos de otros tres canales de audio. La figura 5.18 muestra como hay ocho
modos en los que estos tres canales pueden obtenerse. El codificador seleccionará el modo que
tendrá la menor velocidad de datos para la distribución de energía dominante en los canales de
entrada. Un decodificador MPEG-2 extraerá esos tres canales además del sistema MPEG-1 de
manera que se recuperan los cinco canales originales mediante una matriz inversa que es dirigida
por los bits de selección de modo de la cadena de bits.
L R C
L Rs C
Ls R C
Ls Rs C
L R Ls
L R R
Ls R R
L Rs Ls
Figura 5.18 Combinaciones posibles de señales que deben enviarse, además del par compatible estéreo.
En todos los casos mostrados en la figura 5.18 pueden repuerearse los cinco canales originales a
partir de una matriz inversa adecuada.
Las especificaciones para el MPEG-2 de audio para que se mantenga la compatibilidad con
MPEG-1 era fundamental para algunas aplicaciones pero comprometía las prestaciones ya que
algunas herramientas de codificación muy útiles no se utilizaban. Por ello el grupo MPEG Audio
desarrolló un estándar multicanal que no era compatible ya que incorporaba herramientas de
codificación adicionales con el fin de obtener mayores prestaciones. Este estándar fue denomi-
nado MPEG-2 AAC (Advanced Audio Coding).
La figura 5.19 muestra el diagrama de bloques del codificador Layer I, que es una versión simpli-
ficada del sistema MUSICAM. Un filtro polifásico divide el espectro de audio en 32 sub-bandas
iguales. La salida del banco de filtros es muestreada críticamente. Es decir, la velocidad de salida
de los datos no es mayor que la velocidad de entrada. La compresión de sub-bandas tiene la ven-
taja de que los sonidos reales no tienen espectro de energía uniforme. La longitud de palabra del
PCM audio se basa en el rango dinámico necesario que generalmente es, como se dijo, constante
para todas las frecuencias. Cuando una señal con un espectro no par se convierte en PCM, el
rango dinámico completo se ocupa únicamente por la componente espectral menos alta, y todas
las demás componentes se codifican con espacio excesivo. En su forma más simple la codifica-
ción sub-banda divide la señal de audio en un número determinado de bandas de frecuencia y
cada banda se compensada de acuerdo con su propio nivel. Las bandas en las que hay poca ener-
gía producen amplitudes pequeñas que pueden transmitirse con longitudes de palabra pequeñas.
Por tanto, cada banda produce muestras de longitud variable, pero la suma de todas las longitudes
de palabra de las muestras es menor que la del PCM y así puede realizarse la codificación de
ganancia. La figura 5.20 muestra el decodificador.
Modelo de
enmascaramiento
Tamaño de
FFT escalón
Factor de
escala
Cuantificación
Entrada de inversa Salida Audio
audio comprimido Muestras Banco de PCM
Demultiplexor
filtros
inverso
Expansión
Tamaño de
escalón
Un codificador supeditado al Layer I, es decir, aquel cuya salida puede ser entendida por cual-
quier decodificador estándar, puede realizarse simplemente de esta manera. Una vez garantizado
que la sintaxis de la cadena de bits es correcta el decodificador no tiene que considerar cómo se
realizaron las decisiones en la codificación. Sin embargo, los factores de distorsión elevados
necesitan que el nivel de distorsión aumente y esto debe hacerse sólo si se sabe que los productos
de distorsión serán enmascarados. En el caso ideal las sub-bandas serán más estrechas que las
bandas críticas del oído.
La figura 5.16 mostró que la condición crítica en la que el tono enmascarado está en el lado supe-
rior de la sub-banda. Sin embargo, la utilización de un número excesivo de sub-bandas aumen-
tará la complejidad y el retardo del codificador. El uso de 32 sub-bandas iguales en los MPEG
Layers I y II es una solución de compromiso entre ambos factores.
Filtros separadores de banda polifásicos eficientes pueden sólo operar con achura de sub-bandas
iguales y por ello en un modelo de audición basado en la octava las sub-bandas son demasiado
anchas para bajas frecuencias y demasiado estrechas para las altas.
Con el fin de soslayar el problema de la precisión en el filtro sub-banda se utiliza un una transfor-
mada rápida de Fourier para dirigir el modelo de enmascaramiento. El estándar sugiere algunos
de estos modelos de enmascaramientos pero se pueden obtener cadenas de bits adecuadas a partir
de otros modelos. En el Layer-I se utiliza una FFT de 512 puntos. La salida de la FFT se utiliza
para determinar el umbral de enmascaramiento que es la suma de todas las fuentes de enmascara-
miento. Estas fuentes incluyen al menos el umbral de audición que puede aumentar localmente
por el contenido en frecuencia de la entrada de audio. El grado con el que el umbral crece
depende de si la entrada de audio es sinusoidal o atona (cuasi-ruido). En el caso de una onda sin-
usoidal la magnitud y la fase de la FFT para cada frecuencia será similar en una ventana y en la
siguiente, mientras que si la señal es átona la información de la magnitud y la fase sería caótica.
El umbral de enmascaramiento es en efecto una medida del ruido como función de la frecuencia,
tal y como ilustra la figura 5.21. El umbral de enmascaramiento se calcula convolucionando el
espectro de la FFT con la función ampliada con correcciones por tonalidad. El nivel del umbral
de enmascaramiento no puede caer por debajo de umbral absoluto, que es el umbral de audición.
Por tanto el umbral de enmascaramiento se sobrepone sobre las frecuencias reales de cada sub-
banda tal que puede establecerse el nivel permitido de distorsión en cada una.
Frecuencia
Subbanda
Figura 5.21 (a) Curva que muestra el nivel de ruido observable calculada mediante el modelo de enmascaramiento. (b)
Niveles de ruido en cada subbanda.
Los niveles de ruido en cada subbanda mostrados en la figura 5.21 deben establecerse de forma
que no excedan el nivel de la curva.
Se utilizan bloques de entrada de tamaño constante con 384 muestras. A 48 KHz las 384 mues-
tras corresponden a un periodo de 8 mseg. Después del filtro de sub-banda cada banda contiene
12 muestras por bloque. El tamaño del bloque es suficientemente grande para evitar el fenómeno
del pre-enmascaramiento, que se observaba en la figura 5.16. Por tanto el modelo de enmascara-
miento debe garantizar que no se utiliza una recuantificación masiva en un bloque que contiene
un gran transitorio seguido de un periodo estacionario. Esto puede realizarse comparando los
parámetros del bloque con los de los bloques anteriores, ya que una diferencia significativa indi-
cará una actividad transitoria.
Las muestras de cada bloque de sub-banda, denominadas bin, se compensan de acuerdo con el
valor de pico en los bin. Se utiliza un factor de escala de seis bits para cada sub-banda que se
aplica a las 12 muestras. La ganancia de etapa es de 2 dB y por tanto es posible un código de seis
bits sobre un rango dinámico de 120 dB.
Se utiliza una velocidad de bits de salida fija, y el tamaño del bloque se salida codificado será
fijo. La longitud de palabra en cada bin será tal que la suma de los bits de todas las sub-bandas es
igual al tamaño del bloque codificado. Por tanto, algunas sub-bandas pueden tener longitudes de
palabra grandes si otras las tienen pequeñas. El proceso para determinar el tamaño del paso de
recuantificación, y pro tanto la longitud de palabra en cada sub-banda, se denomina localizador
de bit. En el Layer I todas las sub-bandas se tratan de la misma manera y se utilizan 14 clases
diferentes de recuantificaciones. Cada una tiene un número impar de intervalos cuantificados.
Cuando se realiza el enmascaramiento la señal se cuantifica con menos presisión hasta que el
nivel de distorsión aumenta hasta el nivel de enmascaramiento. Esta cuantificación menos pre-
cisa necesita longitudes de palabra más pequeñas y permite una codificación en ganancia. La
localización de bit puede ser iterativa ya que se van realizando ajustes a lo largo de todas las sub-
bandas con el fin de obtener la misma relación ruido-enmascaramiento, NMR (Noise to masking
ratio). Si la velocidad de datos permitible es adecuada se producirá una NMR positiva y entonces
la calidad de la decodificación será óptima. Sin embargo, a velocidades de bit más bajas y en
ausencia de almacenamiento no es posible un aumento en la velocidad de bit. La distorsión de la
codificación no puede enmascararse y lo mejor que puede hacer el codificador es igualar la NMR
negativa a lo largo del espectro de manera que la distorsión no se enfatice en ninguna sub-banda.
Es posible que en algunas sub-bandas no haya dato alguno, debido a que sus frecuencias no estu-
vieran presentes originalmente o porque el codificador las descarte para obtener una velocidad de
bit menor.
Las muestras de diferentes longitud de palabra en cada bin se ensamblan en el bloque codificado
de salida. A diferencia de un bloque PCM, que contiene muestras de longitud de palabra fija, un
bloque codificado contiene numerosas longitudes de palabra diferentes que pueden variar de una
sub-banda a la siguiente. Con el fin de descomponer el bloque en muestras de distintas longitudes
de palabra y demultiplexar estas muestras en los bins de frecuencias apropiadas, es necesario que
se comunique al decodificador cuáles fueron las localizaciones de bits utilizadas cuando se
empaquetaron, con lo que es imprescindible algún tipo de sincronismo para permitir que se iden-
tifique el principio del bloque.
codificadores con grados de compresión variable que pueden incorporar diferentes prestaciones
de ancho de banda/especificaciones con el mismo hardware.
La figura 5.22.a muestra el formato de la cadena elemental del Layer I. El sistema comienza con
un patrón síncrono para inicializar la fase de descomposición, y una cabecera que describe la
velocidad de muestreo y cualquier uso de preénfasis. A continuación sigue un bloque de 32 gru-
pos de cuatro bits que son códigos de localización, que especifican la longitud de palabra utili-
zada en cada una de las sub-bandas y permiten que el descodificador descomponga el bloque de
muestras de las sub-bandas. Seguidamente se encuentra un bloque de 32 grupos de seis bits que
indican los factores de escala, que especifican las ganancias dadas a cada banda durante la com-
presión. El último bloque contiene 32 conjuntos de 12 muestras, que tienen longitudes de palabra
distintas de un bloque al siguiente, y pueden tener una longitud entre 0 y 15 bits. La descomposi-
ción tiene que utilizar la información de los códigos de las 32 localizaciones para analizar cómo
se descomponen los bloques de muestras en muestras individuales de longitud variable. La figura
5.22.b muestra el formato de la cadena elemental del Layer II.
(a)
(b)
Figura 5.22 (a).Formato de la cadena elemental del Layer I. (b) Formato de la cadena elemental del Layer I.
La figura 5.23 muestra el decodificador Layer I MPEG. La cadena elemental se descompone uti-
lizando el patrón de sincronismo y las muestras de longitud variable se ensamblan utilizando los
códigos de localización. Las muestras de longitud variable se convierten en muestras con longi-
tud de palabra de 15 bits añadiendo ceros. Los índices del factor de escala se utilizan entonces
para determinar los factores de multiplicación utilizados para reconstruir la amplitud original las
formas de onda de cada sub-banda. Entonces se mezclan las 32 señales de las sub-bandas en un
espectro mediante filtrado de síntesis, que consiste en un banco de filtros pasa-banda que rea-
signa cada sub-banda a su localización correcta en el espectro de audio y seguidamente los suma
para producir la salida de audio.
Información de codificación
array de
índices de Tabla de
Control de
factores de factores de
escala decodificador
escala
Señal de Información de
entrada localización
Layer I Demux array de
de índices de Factores de
Bitstream factores de escala
escala
Tamaño de
paso Subbanda Salida
de de audio
muestras audio PCM
Filtro
inverso
Cuantizador Expansor
inverso
La figura 5.22.b muestra la estructura de la cadena elemental del Layer II. Tras el patrón de sin-
cronismo se envía los datos de localización de bit. El proceso de recuantificación del Layer II es
más complicado que el del Layer I. Las sub-bandas se clasifican en tres rangos de frecuencia,
baja, media y alta, y la recuantificación en cada rango es diferente. Las muestras a baja frecuen-
cia pueden cuantificarse en 15 longitudes de palabra diferentes, las frecuencias medias en 7 lon-
gitudes de palabra y las altas en tres. Los datos de localización de bits utilizan palabras de cuatro,
tres y dos bits dependiendo del sub-canal al que se refieran. Esto reduce la cantidad de datos de
localización de bits que deben ser enviados. En cada caso existe una combinación extra en el
código de localización, que se utiliza para indicar que no se envían datos para esa sub-banda.
El bloque de 1152 muestras del Layer II se divide en tres bloques de 384 muestras de manera que
puede utilizarse la misma estructura de compresión que en el Layer I. Se mantiene el tamaño de
paso de 2 dB en los factores de escala pero no se transmiten todos los factores de escala porque
Del mismo modo que en el Layer I, el proceso de recuantificación siempre utiliza un número
impar de pasos para permitir que uno sea un cero real. Con códigos de longitud de palabras gran-
des esto no es un problema pero cuando se utilizan tres, cinco o nueve intervalos de cuantifica-
ción es ineficiente poruqe no se usan algunas combinaciones. Por ejemplo, cinco intervalos
necesitan un código de tres bits que permiten ocho posibilidades, con lo que tres no se utilizan.
La solución es que cuando se usan tres, cinco o nueve niveles se codifican juntos conjuntos de
tres muestras en un "gránulo". La figura 5.24 muestra el proceso de granulado. Con cinco inter-
valos de cuantificación cada muestra tendría cinco valores diferentes con lo que todas las combi-
naciones posibles de las tres muestras tendrían 125 valores diferentes. Dado que se pueden
codificar 128 valores con un código de 7 bits esta agrupación es más eficaz que codificar las
muestras de forma separada ya que tres códigos de cinco niveles necesitarían nueve bits. Las tres
muestras recuantificadas se utilizan para direccionar una tabla que indica el código de gránulo. El
decodificador puede establecer que se ha utilizado la codificación de gránulo examinando los
datos de localización de bit.
En el codificador En el decodificador
Código 1 Código 1
-2, -1, 0, 1, 2
Código de 8 bits
Tabla de Tabla de
Código 2 consulta consulta Código 2
-2, -1, 0, 1, 2 (Look up) (Look up)
Código 3 Código 3
-2, -1, 0, 1, 2
Las muestras-gránulos recusntificados en cada sub-banda, los datos de localización de bit, los
factores de escala y los códigos de selección de los factores de escala se multiplexan en la cadena
de bits de salida.
La figura 5.25 muestra el decodificador Layer II, que no es mucho más complejo que el Layer I.
La demultiplexación separa las muestras de la información adicional. Los datos de localización
de bit especificarán la longitud de palabra o el tamaño de gránulo utilizado, de manera que el blo-
que de muestras puede desagruparse y los gránulos decodifocados. El selector del factor de
escala se utilizan para decodofocar los factores de escala comprimidos obteniendo un factor de
escala por bloque de 384 muestras. La cuantificación inversa y el filtrado inverso de las sub-ban-
das se realiza igual que en el Layer I.
Datos de
muestras
Decodificador de Cuantización Compensación
gránulo inversa inversa
Entrada
Demux Banco de
Localización filtros
de bit inverso
Factores de escala
Decodificador
Datos de
cadena Salida
Figura 5.25 Decodificador Layer II, algo más complejo que el Layer I debido a la decodificación de los gránulos y de los
factores de escala.
El Layer III es el más complejo, y sólo es realmente necesario cuando deben conseguirse las res-
tricciones más severas en la velocidad de datos. Es bien conoida la aplicación del MP3 en la dis-
tribución de música por Internet. Consiste en un código transformado basado en el sistema
ASPEC con algunas modificaciones para obtener cierto grado de compatibilidad con el Layer II.
El codificador ASPEC original utilizaba una MDCT (modified discrete cosine transform) directo
sobre las muestras de entrada. En el Layer III esto se modificó para utilizar una transformada
híbrida que incorpore los 32 filtros polifásicos de los Layer I y II y mantener el tamaño de bloque
de 1152 muestras. En el Layer III las 32 sub-bandas son procesadas por una MDCT críticamente
muestreada.
Las ventanas se superponen de dos a una, y se utilizan dos tamaños de ventana para reducir el
pre-echo en el transitorio. La ventana mayor trabaja con 36 muestras de sub-banda a 24 mseg
sólo a 48 kHz y resuelve para 18 frecuencias diferentes, manejando 576 frecuencias (32 filtros
por 18 frecuencias). Los productos de codificación se extienden a lo largo de este periodo, que es
aceptable en el estacionario, pero no en las cercanías de los transitorios. En este caso la longitud
de la ventana se reduce a 8 mseg. Doce muestras de sub-banda se resuelven en 6 frecuencias dife-
rentes con un total de 192 frecuencias (32 filtros por 6 frecuencias). Esta es la desigualdad de
Heisenberg: al aumentar la resolución temporal en un factor de tres, la resolución en frecuencia
disminuye en el mismo factor.
La figura 5.26 muestras los tipos de ventana posibles. Además de las ventanas simétricas grandes
y cortas, hay un par de ventanas de transición, conocidas como ventanas de inicio y parada, que
permiten transiciones suaves entre las ventanas de tamaños grande y pequeño. Con el fin de utili-
zar un muestreo crítico las MDCTs deben resolver en un conjunto de frecuencias que sea múlti-
plo de cuatro. La conmutación entre 576 y 192 frecuencias permite satisfacer este criterio.
Obsérvese que una ventana de 8 mseg es todavía demasiado grande como para eliminar el pre-
echo, que se eliminará mediante almacenamiento. La utilización de una ventana pequeña mini-
miza el tamaño del búfer necesario.
(a) (c)
(b) (d)
L T S T L
(e)
Figura 5.26 Funciones de ventana del codificador Layer III. (a) Ventana de longitud normal. (b) Ventana corta para el
tratamiento de transitorios. (c) y (d) Utilización de (a) y (b) conmutando entre ellas. (e) Ejemplo de conmu-
tación de ventanas utilizando ventanas de transición.
La figura 5.27 muestra el codificador Layer III. La salida del filtro de sub-bandas son 32 cadenas
de muestras continuas de banda limitada, que son sometidas a 32 MDCTs paralelos. El tamaño
de la ventana puede conmutarse individualmente en cada sub-banda. La FFT paralela dirige el
modelo de enmascaramiento que decide el tamaño de la ventana y produce el umbral de enmas-
caramiento para los coeficientes cuantificados. El bucle de control de la distorsión itera hasta que
se alcanza la capacidad de datos de salida con la NMR más uniforme.
Entrada 32 576
Banco de Filtros MDCT Cuantizador no Código de Búfer
32 bandas uniforme Huffman
Conmutador de
ventanas
Salida
Modelo
FFT de 1024 psico- Control de Código de Formato
puntos acu´stico Cuantizador Huffman
En la figura 5.27 puede observarse la conexión entre el búfer y el cuantizador, que permite que
diferentes frames contengan distintas cantidades de datos.
La figura 5.28 muestra como la ocupación del búfer es realimentada hacia el cuantificador.
Durante el estacionario los contenidos del búfer disminuyen intencionadamente. El búfer se
vacía ya que la velocidad de salida es fija pero la de entrada ha sido reducida. Cuando llega un
transitorio los coeficientes grandes pueden manejarse llenando el búfer, evitando que la veloci-
dad de los bits de salida aumente, mientras que también se evita el pre-echo que se produciría si
los coeficientes fuesen fuertemente cuantificados.
Coeficientes
Cuantizador no
uniforme
Tamaño del
paso
Búfer
Entropía
perceptual
Control de
Cuantizador
Ocupación del búfer
cabeceras para permitir un tamaño de estructura variable. La figura 5.29 muestra cómo el sistema
comienza con un único patrón de sincronismo que es seguido de la información. La información
contiene un parámetro denominado "comienzo del los datos principales" que especifica dónde
empiezan los datos principales de la actual estructura. Este parámetro permite que el decodifica-
dor encuentre el bloque de coeficientes en el búfer del decodificador. Como las cabeceras de la
estructura se mantienen en localizaciones fijas, los bloques de datos principales pueden ser inter-
pretados por las cabeceras.
1 2 3 4
Como puede observarse en la figura 5.29, en el Layer III la velocidad de frame es constante y se
transmite con patrones de sincronismo igualmente espaciados. Los bloques de datos no necesitan
coincidir con el sincronismo. Un puntero después de cada patrón de sincronismo especifica
dónde comienzan los bloques de datos. En el ejemplo de la figura 5.29 el bloque 2 es el menor y
el 1 y el 3 son más grandes.
El siguiente sistema estándar MPEG desarrolló un sistema realzado conocido como AAC. Se
intentó que fuera un estándar que desarrollase las especificaciones más altas posibles utilizando
nuevas herramientas desarrolladas que no podrían ser compatibles con los anteriores codificado-
res. El codificador AAC es el base fundamental del codificador de audio del MPEG-4.
El codificador AAC soporta hasta 48 canales de audio con soporte por defecto monofónico, esté-
reo y canales 5.1 (3/2). El concepto de AAC se basa en un número de herramientas de codifica-
ción conocidas, estructuradas como módulos que pueden combinarse de diferentes formas para
producir cadenas de bits con tres prefiles diferentes.
El perfil principal necesita el codificador más complejo y utiliza todas las herramientas de codifi-
cación. El perfil de baja complejidad (LC) omite algunas herramientas y restringe la potencia de
otras para reducir los requerimientos de capacidad de procesamiento y memoria. Las herramien-
tas restantes en el perfil LC son iguales a las del perfil principal de modo que un decodificador de
nivel principal puede decodificar una cadena de bits de perfil LC.
El perfil de velocidad de muestreo variable (SSR, scaleable sampling rate) divide la entrada de
audio en cuatro bandas de frecuencia iguales, y cada una se traduce en una cadena de bits auto-
contenida. Un decodificador sencillo puede decodificar sólo una, dos o tres de ellas para producir
una salida de ancho de banda reducido. No todas las herramientas de AAC están disponibles en
el perfil SSR.
La figura 5.30 muestra el diagrama de bloques del perfil principal del AAC. El camino de la
señal de audio es recto a través del centro. El formateador ensambla cualquier cadena de datos
con los datos de audio codificados para producir una cadena de bits adecuada. La señal de
entrada pasa al banco de filtros y al modelo perceptual en paralelo. El banco de filtros consiste en
una MDCT muestreada críticamente al 50% que puede ser conmutada entre longitudes de blo-
ques de 2048 y 256 muestras. A 48 kHz el filtro permite una resolución de 23 Hz y 21 mseg o
187 Hz y 2.6 mseg. La señal se dirige de izquierda a derecha y la cadena de datos en vertical.
8 bloques
cortos
Bloque de Transición Bloque de Transición
Los bloques cortos en ACC deben utilizarse en múltiplos de 8 con el fin de que la fase del bloque
grande no se distorsione. Esto permite mantener el sincronismo de bloque en sistemas multica-
nal.
La forma de la función de ventana interfiere con la frecuencia del MDCT. En el AAC es posible
seleccionar una ventana sinusiodal o una ventana Kaiser-Bessel derivada (KBD), como función
del espectro de la entrada de audio. Estas ventanas permiten diferentes compromisos entre ancho
de banda y velocidad. La ventana KBD actúa más tarde pero es más abrupto y por tanto presenta
un mejor rechazo a frecuencias mayores de aproximadamente 200 Hz, mientras que la ventana
sinusoidal actúa antes pero es menos abrupta y por ello presenta un mejor rechazo a frecuencias
menores de 70 Hz.
(a) (c)
T T
Tiempo Tiempo
D red
ifí e
ec e
p
e d il d
ci c
ir
l d ir
p r ác
e
Frecuencia Frecuencia
(b) F (d) F
Tras el banco de filtros se encuentra el módulo de predicción intra bloques. Cuando está habili-
tado este módulo encuentra redundancias entre los coeficientes de un bloque transformado.
Recuérdese la dualidad de los dominios temporal y frecuencial. La figura 5.32 muestra que en el
dominio temporal la codificación predictiva opera bien sobre señales estacionarias pero falla con
Del mismo modo un codificador predictivo operando en el dominio temporal produce un espec-
tro de error relacionado con el espectro de entrada. La dualidad de esta característica implica que
un codificador predictivo en el dominio de la frecuencia produce un error de predicción que está
relacionado con la entrada en el dominio temporal. Esto explica el uso de los términos modelado
temporal del ruido TNS (temporal noise shaping) utilizada en la documentación AAC. Cuando se
utiliza durante los transitorios, el modulo TNS produce distorsión que es alineada temporalmente
con la entrada tal que se evita el pre-eco. La utilización de TNS también permite que el codifica-
dor utilice bloques más grandes la mayoría del tiempo. Este módulo es en gran medida responsa-
ble del aumento de las prestaciones del AAC.
La figura 5.33 muestra que los coeficientes en los bloques transformados son dispuestos en serie
por un conmutador. Esto puede realizarse desde la frecuencia más baja a la más alta o al revés.
Este método de predicción es un predictor hacia delante convencional en el que se utiliza el resul-
tado de filtrar un número dado de coeficientes (20 en el perfil principal) para predecir el coefi-
ciente actual. El valor predicho se resta del valor real para producir un error de predicción, o
residuo, que es transmitido. Un predictor igual produce en el decodificador la misma predicción
a partir de los coeficientes iniciales y el error en este caso es cancelado sumando el residuo.
Predictor
-
+ Error de predicción
Figura 5.33 Conmutador de los coeficientes en los bloques transformados para disponnerlos en serie.
La figura 5.33 muestra cómo la predicción a lo largo del eje frecuencial se realiza utilizando los
coeficientes a lo largo de un bloque e intentando predecir el valor del coeficiente actual a partir
de los valores de algunos anteriores. El error de predicción se transmite.
Los coeficientes de audio están asociados en conjuntos, denominados bandas de factor de escala,
para posterior compresión. Dentro de cada banda de factores de escala la predicción inter-bloque
puede activarse o desactivarse dependiendo de si se da una codificación de ganancia.
El uso prolongado de la predicción hace que el decodificador reparta los errores de bits y elimi-
nen puntos de la cadena de bits. Por ello el proceso de predicción es inicializado cíclicamente.
Los predictores se ensamblan en grupos de 30 y después se inicializa cierto número de estructu-
ras de un grupo diferente hasta que todas hayan sido inicializados. Los códigos de inicialización
de los predictores se transmiten en los datos. También se inicializará si se seleccionan estructuras
cortas.
En formato estéreo y envolvente 3/2 hay menos redundancia porque las señales también trans-
portan información espacial. El efecto del enmascaramiento puede ser hasta 20 dB menor cuando
los productos de distorsión están en diferentes localizaciones en la imagen estéreo. Por ello las
señales estéreo necesitan una velocidad de bit mucho mayor que dos canales mono, particular-
mente sobre los transitorios que son muy ricos en indicaciones espaciales.
En algunos casos pueden obtenerse mejores resultados convirtiendo la señal a un formato medio-
lateral (MS mid/side) o suma-diferencia antes de la cuantificación. En sonido envolvente la codi-
ficación MS puede aplicarse a los pares frontal L/R (izquierdo/derecho) y trasero L/R.
100
60
40
20
0
1 10 20 30 40 49
Número de bandas de factores de escala
Los coeficientes que hayan sido multiplicados por un factor de escala grande sufrirá menos de
distorsión mediante la recuantificación mientras que los que hayan sido multiplicados por un fac-
tor de escala pequeño tendrán más distorsión. Los factores de escala permiten control de ganan-
cia en pasos de 1.5 dB sobre un rango dinámico equivalente a un PCM de 24 bits, y son
transmitidos como parte de los datos de manera que el decodificador puede reconstruir las mag-
nitudes correctas. Los factores de escala son codificados de manera diferente al primero del blo-
que y las diferencias son codificadas mediante un código de Huffman.
La recuantificación utiliza pasos no uniformes que dan una menor codificación de ganancia y
tiene un rango de 8191. El tamaño de paso global, es decir el que se aplica a todas las bandas de
factores de escala, puede ajustarse a 1.5 dB pasos Tras la recuantificación los coeficientes son
codificados mediante un código de Huffman.
Hay muchas maneras en las que puede controlarse el codificador y cualquiera que produzca una
cadena de bits adecuada es válida aunque no se alcancen las especificaciones más exigentes. Es
necesario controlar las etapas de recuantificación y de factor de escala para hacer un mejor uso
de las velocidades de bit y del almacenamiento disponibles. Esto no es trivial porque la utiliza-
ción de la codificación de Huffman después de recuantificar hace imposible predecir la cantidad
de datos que resultará de un tamaño de etapa dado. Esto significa que deben iterarse los procesos.
Cuando se selecciona una velocidad de bit un buen codificador producirá calidad consistente con
ella seleccionando los tamaños de ventana, la predicción intra e intersistemas y la utilización del
almacenamiento para tratar los picos de entropía. Esto sugiere una conexión entre la ocupación
del búfer y el sistema de control. El modelo analizará la entropía del audio entrante y durante los
periodos de entropía promedio vaciará el búfer mediante un leve aumento del tamaño de paso de
cuantificación de manera que disminuya la velocidad de bit entrante. Al descargar el búfer el
codificador puede soportar temporalmente una velocidad de bit mayor para manejar transitorios
o material difícil.
El proceso de factor de escala se controla tal que el espectro de la distorsión tenga la misma
forma que el umbral de enmascaramiento y el tamaño del paso de cuantificación es controlado
para hacer que el nivel del espectro de distorsión sea tan bajo como sea posible dentro de la velo-
cidad de bit permitida. Si la velocidad de bit permitida es suficientemente alta los productos de
distorsión se enmascararán.
De hecho, el sistema Dolby AC-3 es una familia de codificadores basados en la cancelación del
aliasign en el dominio temporal, TDAC. Permite varios compromisos entre retardo de codifica-
ción y velocidad de bit. En la MDCT se utilizan ventanas con el 50% de superposición. Por ello
se utiliza un gran número de coeficientes, que son submuestreados por un factor de dos para pro-
ducir una transformada críticamente muestreada, que producirá un potencial aliasing en el domi-
nio de la frecuencia. Sin embargo, realizando un pequeño cambio en la transformada, los alias de
la segunda mitad de una ventana determinada serán iguales en tamaño pero de polaridad opuesta
a los alias de la primera mitad de la siguiente ventana, y por tanto será cancelada en la recons-
trucción. Este es el principio del TDAC.
La figura 5.35 muestra el diagrama de bloques del codificador AC-3. La entrada de audio se
divide en bloques de 512 muestras superpuestos al 50%. Estas muestras se someten a una trans-
formación TDAC que utiliza alternativamente transformadas seno y coseno. Las transformadas
producen 512 coeficientes por bloque pero hay redundancia, y cuando se eliminan las redundan-
cias quedan 256 coeficientes por bloque. La forma de onda de entrada se analiza constantemente
para determinar la presencia de transitorios, y si se dan entonces la longitud de bloque se divide
para prevenir el pre-ruido. Esto divide la resolución en frecuencia pero duplica la resolución tem-
poral.
Entrada de
Audio
PCM Ventanas de
superposición Coeficientes de Coeficientes de
la transformada la transformada
comprimidos cuantizados
Cuantizador
Adaptativo
Compresor
Salida Audio
punto
Codificada
MDCT/ flotante Multiplexor
MDST de bloque
subbanda Envolvente
espectral Localización Codificación
Dinámica de de
bit Exponentes
Por otro lado, también se utiliza la redundancia temporal. El esquema de sincronismo en el AC-3
utiliza seis bloques. El primero contiene datos absolutos de exponente pero cuando se encuentran
estacionarios de audio los bloques sucesivos pueden utilizar los mismos exponentes.
El receptor utiliza la envolvente espectral para desserializar la mantisa de los coeficientes en lon-
gitudes de palabras correctas. Los exponentes altamente redundantes se decodifican comenzando
con los coeficientes de menor frecuencia en el primer bloque y sumando las diferencias para
crear los restantes. Seguidamente se utilizan los exponentes para convertir los coeficientes a la
notación de punto fijo. Por último se calculan las transformadas inversas seguidas por una super-
posición de las ventanas con el fin de obtener los datos PCM.
el decodificador, colocando esta técnica en la esfera de los sistemas interactivos y de realidad vir-
tual. En este sentido los formatos previos deben entenderse como de sonido natural, es decir,
aquellos que pueden ser obtenidos con un micrófono. MPEG-4 soporta bien este tipo de sonido
mediante el desarrollo de AAC que se describe seguidamente.
De la misma manera que en la codificación de vídeo, la de audio MPEG-4 puede basarse en obje-
tos. Por ejemplo, en lugar de codificar las formas de onda de un mezclador estéreo, cada fuente
de sonido del mezclador puede considerarse un objeto de sonido que se codifica individualmente.
En el decodificador, se suministra cada objeto de sonido a la etapa de composición en la que
repartirá y mezclará con otros objetos. Cuando la fuente de audio es sintética o se dispone de una
mezcla de pistas naturales puede utilizarse directamente la codificación de objetos. También es
posible definir instrumentos virtuales en el decodificador y hacer que cada uno reproduzca trans-
mitiendo una indicación apropiada.
También soporta bien la codificación de voz. La voz natural puede codificarse a velocidades de
bits muy bajas y el fin es la inteligibilidad del mensaje, más bien que la fidelidad. Esto puede rea-
lizarse con varias herramientas, como por ejemplo HVXC (Harminic Vector eXcitation Coding)
o CELP (Code Excited Linear Prediction). MPEG-4 ha estandarizado la transmisión de la infor-
mación de voz en el denominado IPA (International Phonetic Alphabet).
MPEG-4 extiende las herramientas de codificación MPEG-2 AAC. Las mejoras fundamentales
son la sustitución de ruido perceptual, PNS (Perceptual noise substitution) y la cuantización vec-
torial. Todos los esquemas de codificación tienen dificultades con el tratamiento del ruido porque
no contiene redundancias. El audio real puede incorporar cierta cantidad de ruido de decodifica-
ción en decodificación, con lo que tradicionalmente se ha requerido una velocidad de bit alta para
evitar efectos no deseados.
En los sistemas que utilizan codificación de Huffman los símbolos que describen los coeficientes
para cada frecuencia se sustituirán por un indicador (flag) PNS. Los coeficientes desaparecidos
se obtendrán en el decodificador de forma aleatoria. La amplitud del ruido se codifica en pasos
de 1.5 db.
En las aplicaciones estéreo, en las que se utiliza PNS al mismo tiempo y para la misma frecuen-
cia en ambos canales, el proceso aleatorio en cada canal será diferente con el fin de evitar la crea-
ción de objeto de ruido.
En MPEG-2 AAC los coeficientes o sus residuos se cuantifican de acuerdo con el sistema de
localización de bits, y entonces se codifican con el código de Huffman. A velocidades de bits
bajas la fuerte cuantificación tendrá como consecuencia que aparezcan errores en algunos coefi-
cientes. A velocidades de bits por debajo de los 16 kbits/seg por canal se utiliza un esquema de
codificación alternativo conocido como TwinVQ (Transform Domain Weigthed Interleaved
Vector Quantization). La cuantificación vectorial, también conocida como cuantificación de blo-
ques, utiliza bloques en lugar de coeficientes individuales, de manera que cada símbolo transmi-
tido representa el estado de cierto número de coeficientes. En un sistema sin pérdidas un símbolo
necesitaría tantos bits como el resultado de la suma de los coeficientes que deben codificarse. En
la práctica el símbolo tiene muchos menos bits por la cuantificación, con los errores propios a la
misma. El codificador seleccionará un símbolo tal que minimice el error.
En un sistema monofónico todos los sistemas se emiten a partir de un único punto y el se produce
enmascaramiento psicoacústico de forma muy extendida. La clase de técnicas de compresión de
audio como las analizadas anteriormente funcionan bien en sistemas mono. Sin embargo, las
aplicaciones estereofónicas, incluyendo en este contexto los sistemas de sonido envolvente, utili-
zan un criterio diferente. Además de la información timbral que describe la naturaleza de la
fuente de sonido los estereofónicos también contienen información espacial para describir su
localización. El problema fundamental es que en los sistemas estereofónicos el enmascaramiento
no es tan eficaz. Cuando dos fuentes de sonido se encuentran en localizaciones físicamente dife-
rentes el grado de enmascaramiento no es tan grande como cuando están en el mismo sitio.
Lamentablemente todos los modelos de enmascaramiento utilizados en los compresores clásicos
asumen que las fuentes están en el mismo lugar. Este hecho fue puesto de manifiesto por Michael
Gerzon que introdujo el término "unmasking" para describir este hecho.
Los sistemas mono evitan estos efectos completamente porque la primera versión de todos los
sonidos alcanzados por el oyente provienen del mismo altavoz. Los sistemas estereofónicos per-
miten selectividad atencional de forma que el oyente puede concentrar sobre diferentes fuentes
de sonido determinadas. Cuando dos fuentes de sonido están separadas espacialmente, si se uti-
liza este mecanismo para concentrar el sonido en una de ellas las contribuciones de ambos oídos
estarán correlacionadas. Esto implica que las contribuciones de los otros altavoces no están
correlacionadas, reduciendo la capacidad de enmascaramiento considerablemente. Experimental-
mente se observa claramente que el sistema estéreo más pobre es mejor que el mejor sistema
mono. Esto es debido a que estamos acostumbrados a sonidos y reverberaciones que provienen
de diferentes direcciones, y todos ellos sobrepuestos en un sistema mono no son convincentes,
aunque la forma de onda sea muy aproximada.
En la realidad el entorno del sistema auditivo está lleno de reflexiones de sonido. Si los oídos
pudieran separar cada una de las reflexiones en una sala reverberante entonces sólo se escucharía
una confusa cacofonía. En la práctica se escucha muy bien en entornos reverberantes envolven-
tes, mucho mejor de lo que un micrófono puede captar. Esto se debe a la transformada natural del
oído y a la manera en la que el cerebro procesa las señales nerviosas. El oído tiene una capacidad
limitada para la discriminación de frecuencias en forma de bandas críticas, y también en la discri-
minación temporal. Cuando dos o más versiones de un sonido llegan al oído en un intervalo de
unos 30 milisegundos, no serán tratados separadamente pero se unirán en un único sonido. Sólo
cuando la separación temporal es de 50 o 60 milisegundos los sonidos aparecen como ecos pro-
Una fuente de sonido virtual prodecente de un punto de emisión tiene anchura cero, es un punto
ideal, y sobre un altavoz también ideal aparecería como una fuente puntual virtual. La figura
5.36.a muestra cómo un punto de emisión puro sin mezcla (mezcla “seca”) aparecería de forma
igualmente espaciada sobre unos altavoces ideales, mientras que la figura 5.36.b muestra lo que
sucede cuando se añade una reverberación estéreo artificial. Esta figura 5.36 también es la que se
obtiene con fuentes reales utilizando un par coincidente de mezcladores de alta calidad.
Cuando se escucha el sonido emitido por unos altavoces de alta calidad la compresión de audio
cambia las características de la figura 5.36.b a la que se muestra en la figura 5.36.c. Incluso para
velocidades de bit altas, es decir, con la compresión más pequeña, se observa una diferencia
audible entre el resultado original y la comprimida. Las fuentes de sonido dominantes se repro-
ducen con bastante exactitud, pero lo que más llamativo es que el ambiente y la reverberación se
reduce dramáticamente, o incluso está ausente, haciendo que el sonido decodificado sea mucho
más seco, menos cálido, que el original. También se observa que la velocidad de decaimiento de
la reverberación se acelera, tal y como muestra la figura 5.36.d.
Estos efectos se perciben porque la reverberación existe unos niveles relativamente bajos. El
codificador supondrá que es inaudible debido al enmascaramiento y lo elimina o atenúa. El
efecto es aparentemente el mismo en los codificadores MPEG Layer II y Dolby AC-3 incluso
aunque su funcionamiento interno es bastante diferente. Esto no debe sorprender porque ambos
se basarán en el mismo modelo psicoacústico de enmascaramiento.
El MPEG Layer III funciona bastante mal en estéreo porque la velocidad de bit es menor. Los
transitorios tienen un efecto peculiar por el que el sonido ambiente vendría e iría de acuerdo con
la entropía de una fuente dominante. Una nota de percusión estrecharía la etapa de sonido y apa-
recería poco cálida, pero seguidamente de la reverberación lo volvería.
Altavoz Altavoz
Izquierdo derecho
a)
Mezcla seca
de fuentes puntuales
Altavoz Altavoz
Izquierdo derecho
b)
Altavoz Altavoz
Izquierdo derecho
c)
Caída natural
de la reverberación
d)
Tiempo
Caída prematura
de la reverberación
Figura 5.36 Disminución de la eficacia de la compresión en sistemas estéreo. (a) Resultado espacial de una mezcla sin
reverberación de un punto de emisión. (b) Resultado después de reverberaciones artificiales que también
se obtienen en una grabación acústica con mezcladores coincidentes. (c) Reducción o ausencia del sonido
ambiente y de las reverberaciones. (d) Las reverberaciones también pueden disminuor prematuramente.
Estos efectos no son sutiles y no requieren una capacidad auditiva especial para observarlos. Pero
todos ellos desaparecen cuando las señales que van a los altavoces se suman para formar mono,
ya que este evita la sensibilidad atencional y el no enmascaramiento no puede suceder. La obser-
vación de los anteriores efectos no deseados es mucho más difícil si los altavoces son de baja
calidad. Los altavoces son parte de la cadena de comunicación y disponen de unas capacidades
tanto timbrales es como espaciales. Si la calidad de los altavoces es baja pueden eliminar gran
parte de la información a partir de la señal que el compresor y la codificación precedentes no
hayan eliminado.
Los efectos anteriores permiten que el oyente localice la fuente de un sonido mediante la concen-
tración en la primera versión del sonido y el rechazo a las siguientes. Las versiones que puedan
llegar de cualquier lugar simplemente se suman a la intensidad percibida pero no cambian la per-
cepción de la localización de la fuente. Los efectos descritos anteriormente sólo permiten el
rechazo de sonidos reverberantes que llegan después del retardo entre oídos. Cuando las reflexio-
nes llegan dentro del intervalo de tiempo de retardo, que es de alrededor de 700 microsegundos,
los efectos anteriores dejan de funcionar y la dirección percibida puede disiparse a partir de que
llega la primera fuente debido a un incremento en el nivel. La figura 5.37muestra esta región,
conocida como región de traspaso (trading region). En ella el traspaso de intensidad temporal
sucede dentro del retardo entre oídos.
12
10
8 Hacia sonidos
más fuertes
6
2
Hacia sonidos
anteriores
Una vez que se supera el retardo máximo entre los oídos el mecanismo de audición sabe que la
diferencia de tiempo tiene que deberse a la reverberación. Desgraciadamente los altavoces rec-
tangulares clásicos con caras planas y esquinas abruptas provocan reflexiones con retardos del
orden de 700 microsegundos. Las discontinuidades entre los paneles provocan cambios de impe-
dancia que actúan como reflectores acústicos. Los altavoces se convierten en fuentes múltiples
produciendo una secuencia de señales dentro de la intensidad temporal y en lugar de actuar como
una fuente puntual los altavoces actúan como una fuente distribuida.
La figura 5.38 muestra que cuando los altavoces actúan como una fuente distribuida, no pueden
crear una imagen puntual. Se produce un efecto denominado smear (emborronamiento). Obsér-
vese que las fuentes puntuales han aumentado tal que prácticamente no hay gaps entre ellos,
enmascarando el ambiente de forma efectiva. Si un compresor lo elimina, el efecto no puede
escucharse. Puede suponerse erróneamente que el compresor es transparente cuando de hecho no
lo es.
Fuente Distribuida
Figura 5.38 Altavoz que actúa como una fuente distribuida. No puede producir una imagen estéreo puntual, sólo una
extensión espacial o una imagen borrosa.