Compresion de Audio PDF

TEMA 5
Compresión de Audio
5.1 COMPRESIÓN
Enn este capítulo se presentan los conceptos básicos fundamentales relacionados con la compre-
sión de audio, describiendo superficialmente el estándar MPEG-1. Algunos conceptos son exac-
tamente iguales a los descritos para la compresión de vídeo, y se retoman aquí en el contexto de
la compresión de audio. Posteriormente se analizan con más detalle, y por tanto con más nivel de
complejidad, los estándares MPEG.
La técnica mas simple para reducir el volumen de datos en una señal digital es la reducción de la
frecuencia de muestreo o de la cantidad de bits de cuantización. Si bien es un método bastante
rudimentario y poco eficiente, todavía puede ser utilizado en
algunas aplicaciones. Solamente hay que tener en cuenta que reduciendo la frecuencia de mues-
treo se reduce el ancho de banda que es posible procesar, y reduciendo los bits de cuantización
disminuye el SQNR introduciéndose ruido en la señal.
Existen otras técnicas mas elaboradas para comprimir audio digital. En este punto es necesario
distinguir entre compresión con pérdida (lossy) o compresión sin pérdida de datos (lossless).
Lossless: La compresión lossless consiste en eliminar aquellos datos que son redundantes en la
señal de audio. Por ejemplo, si se observa que una determinada cadena de bits se repite con bas-
tante frecuencia en la señal no es necesario transmitirla todas las veces que aparezca. Se trans-
mite una sola vez y luego se insertan bits de control que indican en que lugares se deben
reinsertar estas cadenas.
Otro método de compresión sin pérdidas es el denominado DPCM (Diferential Pulse Code
Modulation); es parecido al PCM que se analizó anteriormente, pero en este caso, no se procesan
las muestras en su totalidad, sino que se trabaja con las diferencias entre una muestra y la ante-
TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2009-2010
rior. Debido a que las señales de audio son bastante continuas, una muestra y su precedente son
muy similares, por lo que no es necesario almacenar el valor absoluto de cada muestra, sino sola-
mente la diferencia entre muestras contiguas. Estas diferencias son, por lo general, bastante
pequeñas, por lo que son necesarios pocos bits para transmitirlas; logrando de esta forma una
compresión de los datos.
Estas técnicas de compresión y otras del mismo tipo son por lo general muy poco eficientes;
logran relaciones de compresión máximas de 4:1 aproximadamente.
Lossy: La compresión lossy, es decir, con pérdida de datos, es mas bien una reducción en la can-
tidad de información y no una compresión de la misma (eliminación de datos irrelevantes). Esto
significa que en el proceso de compresión-reducción, parte de la información se pierde irreme-
diablemente. Se trata entonces de un proceso irreversible; no es posible recuperar la señal origi-
nal en su totalidad efectuando el proceso inverso porque parte de la misma se perdió para
siempre. Un método lossy es, por ejemplo, el proceso de compresión denominado ADPCM.
Si bien las técnicas de compresión de señales digitales de audio progresaron de manera notable
durante los 70; especializándose según la aplicación final y abarcando casi todas las áreas del
audio digital; las eficiencias (niveles o relaciones de compresión) alcanzadas por la mayoría de
las técnicas todavía eran muy bajas. Por este motivo, durante la década de los 80, numerosos
laboratorios y equipos de investigación de todo el mundo se dedicaron a la búsqueda y desarrollo
de un algoritmo de compresión de audio mas eficiente, con una mayor relación de compresión e
independiente de la fuente original del sonido.
Así es como surge una de las técnicas lossy mas complejas y eficientes: la denominada P.A.C.,
Perceptual Audio Coding desarrollada por Bell Laboratories. Con esta técnica se alcanzan radios
de compresión realmente notables (desde 3:1 a 24:1 según el algoritmo) y es parte esencial de
numerosos productos de consumo masivo o de uso profesional.
Los métodos de compresión de audio más eficientes se basan en la eliminación de datos
considerados irrelevantes, por ejemplo, datos que representan sonidos considerados inaudibles en
presencia de otros elementos de una señal compleja.
Este tipo de codificación es denominada PAC, Perceptual Audio Coding (Codificación del Audio
Percibido) y está basada en los dos principios básicos del comportamiento del oído humano ya
descritos, el enmascarado temporal y el enmascarado frecuencial. La técnica es del tipo lossy, es
decir, con pérdida de datos.
El método implica contar con un modelo matemático del sistema de audición humano y es ente-
ramente dependiente de la precisión del mismo, además del manejo preciso de técnicas de fil-
trado y del análisis del audio.
Fundamentalmente, la técnica consiste en eliminar aquella parte de la señal de audio que el oído
humano no será capaz de percibir debido a la presencia de otras señales que la enmascaran. Para
5.2 Tecnología de los Contenidos Multimedia

poder entender como funciona el PAC, es necesario conocer algunos principios psicoacústicos
fundamentales.
En la actualidad existen diversos algoritmos de compresión que utilizan este tipo de codificación,
tal es el caso del ATRAC, (Adaptive Transform Acoustic Coding)), de compresión 5:1, utilizado
en los MiniDisk de Sony y en el formato de audio Surround SDDS (Sony Dynamics Digital
Sound) para reproducciones cinematográficas, AC3 (Audio Code number 3) de los Laboratorios
Dolby, usado en las transmisiones de televisión digital y en los DVD), PASC (utilizado en el
DCC, Digital Compact Cassette de Philips); y MPEG, utilizado en los DVD (Digital Versatile
Disc), CD-I (Compact Disc Interactive, de Philips), transmisiones satelitales, RDSI, Internet y en
reproductores de audio portátiles. Para comprender el funcionamiento de las técnicas PAC, es
necesario manejar algunos conceptos de psicoacústica.
La mayor parte del tiempo el mundo se presenta con gran variedad de sonidos simultáneos; el ser
humano automáticamente lleva a cabo la tarea de distinguir cada uno de ellos y atender a los de
mayor importancia. Es muy difícil percibir un sonido cuando existe otro de mayor intensidad
presente al mismo tiempo. Este proceso, al parecer intuitivo, a niveles psicoacústicos y cognosci-
tivos es muy complejo. El término para este fenómeno es enmascaramiento (masking), y es pro-
bablemente la cualidad auditiva mas investigada.
El enmascaramiento está definido por la Asociación Americana de Normalización (ASA) como:

"...el proceso por el cual el umbral de audición para un sonido (enmascarado) es elevado en la
presencia de otro sonido (enmascarador)...". Por ejemplo: el potente sonido de la radio de un
automóvil puede enmascarar el sonido del motor.
El término fue acuñado en estudios de la visión humana, significando el defecto o imposibilidad

para reconocer un estímulo en presencia de otro a niveles normalmente adecuados para percibir
el primero. Como se mencionó anteriormente, existen dos tipos de enmascaramiento: el frecuen-
cial y el temporal.
40
30
dB 20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Frecuencia (KHz)
Figura 5.1 Umbral de audición en el silencio.
Tecnología de los Contenidos Multimedia 5.3

Enmascaramiento frecuencial. Para explicar el fenómeno de enmascaramiento en frecuencia (o

frequency masking), supóngase el siguiente experimento: se coloca
una persona en una habitación en silencio; luego se va incrementando la intensidad de un tono de

audio de 1 KHz desde los 0dB hasta que sea apenas audible, se registra dicho nivel de intensidad.
Si se repite la prueba para varias frecuencias distintas y se grafican los diversos niveles de inten-
sidad se obtiene una curva como la representada en la figura 5.1.
Todos los puntos debajo de la curva corresponden a diferentes combinaciones de frecuencias e

intensidades que son inaudibles para el oído humano. Es importante notar que esta curva cambia
significativamente con la edad.
Si ahora se produce un tono de 4 KHz a una intensidad fija, por ejemplo 60 dB (tono enmascara-
dor) y al mismo tiempo se va incrementando la intensidad de un tono de audio de 1 KHz (tono de
prueba) desde los 0dB hasta que sea apenas audible, se registra dicho punto y se repite para
varias frecuencias del tono de prueba se obtiene la curva mostrada en la figura 5.2.
Puede observarse como el tono enmascarador (de 4 KHz) eleva el umbral de audición y convierte
una multitud de "puntos audibles" en "puntos inaudibles". Ahora el nuevo umbral de audición es
el definido por la curva superior. Todos los puntos debajo de dicha curva corresponden a sonidos
inaudibles y todos los puntos encerrados entre la curva inferior y la superior corresponden a soni-
dos enmascarados por el tono de 4 KHz, sonidos que antes (en el silencio) podían oírse.
80
60
dB 40
20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Frecuencia (KHz)
Figura 5.2 Enmascarado por un tono de 4 Khz
Enmascarado temporal. El enmascarado temporal (o temporal masking) está vinculado con la

imposibilidad del oído humano de percibir un sonido débil si antes de éste se estaba escuchando
un sonido mas potente. Es decir, si se está escuchando un sonido fuerte y luego se detiene, al oído

humano le lleva un determinado tiempo hasta poder percibir algún sonido próximo mas débil.
Para explicar mejor el fenómeno supóngase el siguiente experimento. Se ejecuta un tono enmas-
carador de 1 KHz a 60 dB junto con un tono de prueba de 1,1 KHz a 40 dB, el tono de prueba no
puede oírse, está enmascarado.
Se detiene el tono enmascarador y, luego de un pequeño retardo, se detiene el tono de prueba. Se

ajusta el retardo al mínimo tal que el tono de prueba todavía pueda ser oído (por ejemplo 5 ms) y
se registra dicho valor de tiempo. Si se repite la prueba para distintas intensidades del tono de
prueba y se registran los diferentes tiempos se obtiene una curva como la de la figura 5.3.
60
40
dB
20
0 5 10 20 50 100 200 500
Retardo (ms)
Figura 5.3 Enmascaramiento Temporal
En una señal de audio mas compleja, con multitud de frecuencias de distintas intensidades
sonando al mismo tiempo, ambos fenómenos interactúan (enmascaramiento frecuencial y tempo-
ral), produciendo una curva como se muestra en la figura 5.4.
Además de los dos principios psicoacústicos de enmascarado frecuencial y temporal vistos hasta
ahora, existe otro concepto de psicoacústica que es también fundamental para poder comprender
el funcionamiento de las técnicas PAC de reducción de datos. Es el concepto de bandas críticas.
El sistema auditivo del ser humano tiene una respuesta en frecuencia limitada en cuanto a resolu-
ción. Es decir, existen bandas de frecuencias que el oído humano percibe como una sola, siendo
incapaz de identificar diferencias entre dos frecuencias distintas dentro de una misma banda.
Estas bandas de frecuencia son las denominadas bandas críticas y sus respectivos anchos no son
constantes a lo largo de todo el espectro audible. A frecuencias bajas miden menos de 100 Hz,
mientras que a frecuencias mas altas miden mas de 4 KHz. De esto se desprende que en la parte
baja del espectro de audición humano hay mas cantidad de bandas críticas que en el extremo mas
alto. En total, todo el rango de frecuencias de audio puede ser particionado en 25 bandas críticas.

dB
Tiempo
Tono enmascarador
Sonidos inaudibles
(debajo de la curva)
Frecuencia
Figura 5.4 Efecto total del enmascarado frecuencial y temporal.
El concepto de bandas críticas está muy relacionado con los fenómenos de enmascaramiento
antes vistos, esto se debe a que: un sonido de mucha intensidad dentro de una banda crítica ten-
derá a enmascarar cualquier otro sonido mas débil dentro de la misma banda. Estos tres princi-
pios psicoacústicos que se acaban de explicar son los elementos fundamentales necesarios para
comprender el funcionamiento de un codificador PAC, es decir, las técnicas PAC de reducción
de datos basan su funcionamiento en estos dos fenómenos de enmascaramiento, frecuencial y
temporal, y en el concepto de bandas críticas para alcanzar relaciones de compresión varias veces
superiores a los alcanzados por otras técnicas menos complejas.
Como se mencionó anteriormente, existen en la actualidad numerosas implementaciones distin-

tas de las técnicas PAC (PASC, ATRAC, AC3, MPEG, etc.), cada una de ellas con sus caracte-
rísticas particulares de acuerdo a la aplicación para la cual fueron desarrolladas. Como todas
estas implementaciones se basan en la codificación del audio perceptual (PAC, Perceptual Audio
Coding), todas utilizan en definitiva los principios psicoacústicos desarrollados anteriormente en
esta sección.
De todas las implementaciones mencionadas antes existe una en particular que ha cobrado nota-
ble relevancia en los últimos tiempos. Es el caso de la norma MPEG (Moving Pictures Experts
Group).
• La norma ISO/IEC-11172
En 1987, un grupo de investigadores del Instituto Fraunhofer IIS, con sede en Alemania, traba-
jando bajo los auspicios de la ISO (International Organization for Standardization) y el IEC
(International Electrotechnical Commission) comenzó a desarrollar un algoritmo para comprimir
señales digitales de audio y video mediante técnicas de codificación basadas en la percepción

(PAC). Este grupo de trabajo se denominó MPEG (Motion Pictures Experts Group). A mediados
de la década del '80 los recién presentados Discos Compactos (Compact Discs o CD's) se perfila-
ban como el soporte de almacenamiento masivo de datos del futuro. No tardaron en aparecer los
CD's para almacenar archivos de computadora (CDROM), fotografías (Photo-CD de Kodak) e
incluso discos multimedia interactivos (CD-i de Philips). En vista de todo esto, el objetivo funda-
mental del MPEG era desarrollar un algoritmo de compresión de datos que permitiera almacenar
una hora de audio y video de alta calidad dentro de un CD. Trabajando con esta premisa durante
3 años, el Grupo desarrolló un algoritmo que luego fue publicado como Norma Internacional por
el ISO/IEC bajo el nombre de ISO/IEC-11172, mas conocido como MPEG-1.
El título completo de la Norma es: "ISO/IEC-11172: Coding Of Moving Pictures And Associa-
ted Audio For Digital Storage Media At Up To About 1.5 Mbit/s" (Codificación de imágenes
animadas y audio asociado para medios de almacenamiento digitales de hasta aproximadamente
1,5 Mbit/s). La mención de la tranferencia del medio (1,5 Mbit/s) en el título de la norma hace
referencia a la capacidad de transferencia máxima de un Disco Compacto; de esta capacidad total
la norma utiliza aproximadamente 1,2 Mbps para el video y 0,3 Mbps para el audio.
A pesar de que la compresión MPEG se ajusta perfectamente a aplicaciones de audio solamente,

la Norma MPEG-1 es en realidad un conjunto mas amplio de especificaciones independientes
pero relacionadas entre si. El estándar puede dividirse en 3 partes:
• "ISO/IEC-11172-1: referida a como se integran las informaciones de audio y video junto con
otros datos adicionales que quiera agregar el usuario y de como debe "formatearse" la cadena de
bits (o bitstream) resultante para su almacenamiento y recuperación.
• "ISO/IEC-11172-2: referida a la codificación del Video.
• "ISO/IEC-11172-3: referida a la codificación del Audio.
MPEG-1 es un estándar para la compresión de audio genérico, es decir, el algoritmo alcanza sus
altos niveles de compresión sin asumir nada sobre la naturaleza de la fuente del sonido. En otras
palabras: no está pensado para comprimir, por ejemplo, señales de voz solamente (como es el
caso del algoritmo CELP), en lugar de esto, MPEG-1 puede comprimir cualquier señal de audio
pensada para ser escuchada por el oído humano; esto es debido a los principios psicoacústicos en
los que se basa.
El estándar MPEG es rígido solamente cuando es necesario asegurar la interoperabilidad entre

sistemas. Por ejemplo, la norma define la sintaxis del bitstream codificado y el proceso de deco-
dificación, entre otros aspectos. Esto garantiza que, sin importar el origen, un decodificador ente-
ramente compatible con MPEG-1 podrá decodificar cualquier bitstream MPEG con resultados
predecibles.
En otros determinados aspectos la norma es mas flexible para futuras mejoras e innovaciones.
Por ejemplo, los diseñadores que utilicen la norma quedan libres para probar nuevas y diferentes
implementaciones del codificador y el decodificador MPEG sin traspasar los límites impuestos
por la norma. Existe mas potencial de diversidad en cuanto al codificador debido a que el están-

dar no define uno en particular. No así con el decodificador, que, además del formato del bits-
tream de datos, es lo único que define específicamente la norma.
A continuación se detallan algunos aspectos generales de la norma, mas adelante en esta sección
se profundizará el estudio sobre el codificador y el decodificador MPEG.
• La frecuencia de muestreo del audio digital que le sirve de entrada al codificador puede ser: 32,
44.1 o 48 KHz.
• El bitstream de datos comprimidos puede contar con uno o dos canales de audio en alguno de los
siguientes modos:
1.- Modo monofónico: un solo canal de audio.
2.- Modo doble monofónico: para dos canales de audio independientes (esta funcio-
nalidad es idéntica al modo estéreo tradicional).
3.- Modo estéreo: para canales estéreo que poseen bits en común.
4.- Modo Joint-Stereo: que toma ventaja de las correlaciones entre canales estéreo y
de la irrelevancia de la diferencia de fase entre canales.
• La cadena de bits comprimida (bitstream) puede tener una de varias cadencias (bit rates) predefi-
nidas: de 32 Kbps a 224 Kbps por canal. Dependiendo de la frecuencia de muestreo de la señal
esto se traduce en radios de compresión que van de 2,7 a 24. Además, el estándar provee un
modo de velocidad de bits libre para soportar otras cadencias distintas a las preestablecidas.
• MPEG-1 ofrece la posibilidad de elegir entre tres niveles o layers (capas o estratos) de compre-
sión. Esto provee un amplio rango de soluciones de compromiso entre complejidad del algoritmo
y calidad del audio comprimido. Los niveles son:
• Layer 1: es la mas simple de todas; esta pensada para bitrates superiores a los 128 Kbps.
Por ejemplo, el DCC (Digital Compact Cassette) de Philips utiliza una variante del Layer 1
denominada PASC alcanzando un bitrate de 192 Kbps por canal.
• Layer 2: ofrece un nivel de complejidad intermedio y está pensada para bitrates cercanos a
los 128 Kbps por canal. Las posibles aplicaciones para esta capa incluyen la codificación
de audio para la Emisión de Audio Digital que es la base de la radio digital, DAB (Digital
Audio Broadcasting), CD-i y Video CD.
• Layer 3: es la mas compleja de todas, pero ofrece la mejor calidad de audio a los bitrates
mas bajos (alrededor de los 64 Kbps por canal). Esta capa se adapta muy bien para la trans-
misión de audio sobre RDSI y reproductores de audio portátiles.
Las tres capas están diseñadas de manera tal que un decodificdor de layer 2 pueda entender tam-
bién un bitstream de layer 1; y un decodificador de layer 3 haga lo propio con uno de layer 1 y 2.
Las tres capas son los suficientemente simples como para permitir la implementación de un deco-
dificador en un solo chip de circuito integrado.
• El bitstream de audio comprimido soporta (como una opción) la detección de errores a través de
un código de CRC (Cyclic Redundancy Check).

• MPEG-1 ofrece la posibilidad de incluir datos auxiliares en la cadena de bits comprimida (anci-
llary data).
• Además la organización o formato del bitstream de datos comprimidos permite la existencia de
algunas prestaciones adicionales tales como el acceso aleatorio a cualquier porción de la cadena,
avance y retroceso rápido del audio, etc..
5.2 CODIFICADOR MPEG
Un codificador MPEG, es un codificador del tipo perceptual; es decir, su principio de funciona-

miento se basa en determinados fenómenos psicoacústicos (enmascarado frecuencial, temporal y
bandas críticas) que ocurren en el oído humano. Básicamente, los codificadores perceptuales
mantienen la frecuencia de muestreo pero disminuyen la longitud de la información generada
para representarla.
En general, los codificadores de este tipo operan descomponiendo la señal en bloques o unidades,
correspondiendo cada uno a un cierto rango de frecuencia y tiempo determinados. Utilizando
esta distribución tiempo-frecuencia, la señal es analizada de acuerdo con principios psicoacústi-
cos. Este análisis indica qué bloques o unidades son críticos y precisan ser codificados con la
máxima precisión, y cuales son menos "delicados" y pueden tolerar cierto nivel de ruido de cuan-
tización sin degradar la calidad final del sonido percibido. Basándose en esta información, los
bits disponibles (según el bitrate elegido) son distribuidos en estas unidades de tiempo-frecuen-
cia. Los coeficientes espectrales en cada unidad son, entonces, cuantizados utilizando los bits
asignados.
El codificador MPEG-1 recibe como entrada las muestras de audio digital (PCM samples) y pro-
duce el bitstream comprimido para su almacenamiento o transporte. El algoritmo codificador no
está estandarizado por la Norma ISO/IEC 11172-3, pero su bitstream de salida debe ser tal que
un decodificador MPEG-1 (normalizado) pueda reproducir el audio original a partir de allí. Para
estudiar el funcionamiento de un codificador MPEG-1 tómese en consideración el diagrama en
bloques de la figura 5.5.
Entrada de audio Banco de Cuantización Formateo del Bitsream

PCM Filtros Bitsream codificado
Modelo
Psicoacústico Información
auxiliar
(opcional)
Figura 5.5 Diagrama en bloques de un codificador MPEG-1.

• Banco de filtros (filterbank):
El banco de filtros (filterbank) es un componente fundamental del codificador MPEG-1 y común

a todas las capas (layers) que define la norma. Este banco de filtros divide la señal de audio en 32
bandas de frecuencia de igual ancho (excepto en Layer 3 que son variables).
La implementación de los filtros puede variar entre codificadores y entre las distintas capas
(layers) de la norma. Conceptualmente el banco de filtros puede considerarse como un conjunto
de 32 filtros pasabanda trabajando en paralelo, todos reciben la misma señal de entrada y todos
entregan una porción del espectro a la salida.
• Modelo psicoacústico:
Cuando se analizaron los principios básicos del audio digital se introdujo el concepto de Relación
señal/ruido de cuantización (SQNR), que en conclusión indicaba que cuando se agrega un bit
más para cuantizar una muestra de audio se agregan 6 dB de resolución y el ruido de cuantiza-
ción disminuye en la misma magnitud.
El modelo psicoacústico de un codificador MPEG-1 es un modelo matemático del comporta-

miento del oído humano y, como su nombre indica, tiene en cuenta los principios psicoacústicos
de enmascaramiento frecuencial y temporal. Su función es analizar la entrada de audio PCM y la
salida de los filtros para determinar qué bandas de frecuencia deben conservarse en el bitstream
comprimido y en que medida deben ser conservadas. Es decir, algunas bandas de frecuencia van
a ser enmascaradas por otras bandas vecinas y no será necesario tenerlas en cuenta a la salida,
pero otras bandas que no estarán enmascaradas necesitan ser procesadas. Ahora bien, el bitstream
comprimido a la salida debe tener un bitrate específico, por este motivo las bandas de frecuencia
que sí deben tenerse en cuenta no pueden cuantizarse con un número excesivo de bits, deben
cuantizarse con el número justo de bits de manera tal que el ruido de cuantización que se genera
en el proceso caiga por debajo del umbral de audición humano.
En definitiva, el bloque analiza el audio original en base a principios psicoacústicos y determina

el número de bits necesarios para cuantificar cada una de las bandas de frecuencia que entrega el
banco de filtros, de manera tal que el ruido de cuantificación siempre quede enmascarado por
otras componentes de la señal de audio y que el bitrate resultante a la salida no supere un deter-
minado límite. La salida definitiva del bloque (la cantidad de bits de cuantificación por banda) se
expresa en términos de una relación denominada Mask to Noise Ratio (relación enmascara-
miento/ruido) calculada de la siguiente forma:
MNRdB = SNRdB - SMRdB
donde
MNRdB: es la Relación Enmascaramiento-Ruido, Mask to Noise Ratio

SNRdB: es la Relación Señal-Ruido, Signal to Noise Ratio
SMRdB: es la Relación Señal-Enmascaramiento, Signal to Mask Ratio, (del modelo psicoacús-
tico)

Aunque la norma no define ninguna implementación específica del modelo psicoacústico, ofrece
dos posibilidades de acuerdo a la cantidad de bits disponibles para cada una de las bandas; infor-
mación suministrada por el modelo psicoacústico. Este bloque también es denominado Noise/
Bits Allocation o "Asignación de Ruido/Bits". Finalmente, la cadena de bits resultante es enviada
al bloque de formateo para su acondicionamiento final. La figura 5.6 es otro esquema de un codi-
ficador en donde puede visualizarse cómo la salida de cada uno de los filtros es cuantizada por
separado de acuerdo al análisis del modelo psicoacústico.
Cuantización
Entrada
Salida
Cuantización
Banco de Multiplexor
Filtros
Cuantización
Modelo
Psicoacústico
Figura 5.6 Esquema alternativo de un codificador MPEG-1.
• Codificador MPEG-1, Layer 1, 2 y 3:
Aunque el principio básico de funcionamiento de un codificador MPEG-1 es siempre el mismo;

existen algunas diferencias de implementación según el Layer que se esté utilizando, a continua-
ción se detallan algunas de ellas:
Layer 1: En este nivel el banco de filtros divide la señal de audio en 32 sub-bandas de frecuencia,
todas del mismo ancho (frecuencia de muestreo / 64), . Los filtros están basados en transforma-
das rápidas de Fourier (FFT - Fast Fourier Transform) de 512 puntos (sobre un solo frame) y pro-
veen una aceptable resolución en frecuencia. El hecho de dividir la señal en 32 bandas de igual
ancho no se corresponde completamente con el concepto de bandas críticas explicado con ante-
rioridad. Aún mas, Layer 1 no tiene en cuenta el fenómeno de enmascaramiento temporal, solo el
enmascaramiento en frecuencia (por ello el análisis con FFT se realiza sobre un solo frame). En
el proceso de cuantificación, la asignación puede ir de 0 a 15 bits por sub-banda.
Layer 2: El algoritmo utilizado en esta capa representa una pequeña mejora respecto del Layer 1.
Los filtros también dividen el espectro audible en 32 bandas de igual ancho, pero están basados
en FFT's de 1024 puntos. Layer 2 contempla un poco de enmascarado temporal.
Layer 3: El algoritmo del Layer 3 es una aproximación mucho mas refinada a los conceptos psi-
coacústicos que ya se han explicado. El banco de filtros divide el espectro en 32 sub-bandas pero
el ancho de cada una de ellas depende de un análisis previo sobre la señal original, de esta forma
se aproxima mucho mas al concepto de bandas críticas. La implementación matemática de estos

filtros está basada en la denominada Modified Discrete Cosine Transform, MDCT (Transfor-
mada Discreta del Coseno Modificada), que provee mejor definición en frecuencia. El efecto del
enmascarado temporal está plenamente contemplado en este algoritmo.
Además de todas estas mejoras, Layer 3 implementa a la salida del bloque cuantificador, una
etapa más de compresión. El proceso es del tipo lossless y se basa en la eliminación de informa-
ciones redundantes dentro del bitstream. El algoritmo se denomina "Compresión Huffman" y
añade un nivel mas de compresión a todo el conjunto.
• Decodificador MPEG
El algoritmo decodificador MPEG-1 es uno de los pocos aspectos normativos del estándar ISO/
IEC-11172-3. El proceso es mucho mas simple que el codificador, pero aún así ofrece un grado
importante de complicación matemática.
Los aspectos cualitativos mas importantes de este algoritmo son los siguientes. En un decodifica-
dor PAC, el espectro cuantizado es reconstruido de acuerdo a los bits asignados y luego, sinteti-
zado en una señal de audio compleja. Para comprender mejor el proceso, considérese el diagrama
en bloques de la figura 5.7.
Cadena de bits
(Bitsream) Salida de
codificada audio PCM
Descomposicón Reconstrucción de las Conversión
del Bitstream muestras frecuencialess frecuencia-tiempo
Información auxilar
(opcional)
Figura 5.7 Diagrama en bloques de un decodificador MPEG-1.
El primer bloque detecta los frames dentro del bitstream y decodifica la información auxiliar que
pudieran contener. El bloque siguiente reconstruye el espectro cuantizado según los bits asigna-
dos y el último bloque devuelve toda la información al dominio del tiempo para obtener las
muestras PCM definitivas. La figura 5.8 muestra un esquema alternativo de un decodificador
MPEG-1:
Cuantización
Entrada inversa
Cuantización Salida
inversa
Demultiplexor Banco de
Filtros
Cuantización
inversa
Figura 5.8 Diagrama alternativo de un decodificador MPEG-1.

• Extensiones de la norma
Poco tiempo después de la introducción de la Norma ISO/IEC-11172-3, el comité MPEG publicó

otra serie de documentos extendiendo las capacidades y los alcances del primero. Estos nuevos
documentos también fueron normalizados internacionalmente por el ISO y el IEC. El nombre del
estándar es "Generic Coding of Moving Pictures and Associated Audio: Audio ISO/IEC-13818-
3". Mas conocido como MPEG-2.
Los cambios respecto de MPEG-1 son en realidad ampliaciones. En MPEG-2 se agregan 3 nue-
vas frecuencias se muestreo (16, 22,05 y 24 KHz); se reduce el bitrate del bitstream hasta un
mínimo de 8 Kbps y se suman 3 nuevos canales de audio (totalizando 5). Durante el desarrollo de
esta norma se puso especial énfasis en la compatibilidad con MPEG-1. Un decodificador MPEG-
2 puede entender perfectamente un bitstream comprimido con MPEG-1.
Existe a su vez otra extensión a MPEG-2, conocida como MPEG-2.5. Este documento es un
desarrollo de la empresa Alemana FhG Erlangen y solo modifica algunos aspectos del Layer 3;
agregando mas frecuencias de muestreo para lograr bitrates aún mas bajos.
5.3 FORMATOS DE ARCHIVO DE SONIDO DIGITAL:
Existe una variedad enorme de formatos de sonido digital. Los principales aparecen en la tabla
5.1:
Aplicación Tamaño de archivo

El más utilizado en Windows.
WAV Muy grande
Datos en PCM, sin compresión.
Hace servir patrones que ya están activos en la tarjeta
MID Muy pequeño
de sonido. Partituras y notas musicales.
MUS Parecido al mid. Muy pequeño
Formato estándar en las plataformas MAC (también
AIF se puede escuchar en Windows). Es el paralelo con el Muy grande
wav
Trabaja en formato wav pero comprimiendo aquellas
MP3 partes que pueden resultar inaudibles. Rebaja mucho Pequeña
el tamaño de los archivos.
Formato de audio utilizado en Internet por el estándar
de la empresa Real. Posee la característica Streaming,
RM Muy pequeño
que permite no necesitar todo el archivo en el disco
duro para comenzar a escucharlo.
Tabla 5.1 Principales formatos de sonido digital
Los parámetros que definen la calidad de un sonido digital así como el tamaño que finalmente
ocupe el archivo son los siguientes:

a) Frecuencia de muestreo: Es la cantidad de muestras de sonido capturadas en cada segundo. Su

valor puede oscilar entre 8 Khz (8.000 muestras en cada segundo) y 48 Khz.
b) Precisión de las muestras: Indica la escala de bits que se ha utilizado para guardar el sonido.
Pueden ser 8 bits (256 valores posibles) o 16 bits (más de 65.000 valores posibles).
c) Mono / estéreo: El sonido pude grabarse en un solo canal (mono). en dos (estéreo), o en múlti-
ples canales, 5, 6 o más. Debemos combinar estos tres parámetros de forma coherente a los resul-
tados que queramos obtener, pues tanto la calidad del sonido como el espacio que ocupe el
fichero dependerá de ellos. Así, por ejemplo, si queremos conseguir una calidad estándar de CD
deberemos seleccionar una frecuencia de 44,1 Khz, una precisión de 16 bits y dos canales (esté-
reo). En cambio, si simplemente lo que queremos es grabar una voz, con 11 Khz, 8 bits y calidad
mono será suficiente. Es importante saber escoger los parámetros adecuados en cada caso pues la
calidad CD ocupa unas 12 veces más espacio en el disco duro que el segundo caso.
En general son dos los tipos fundamentales de archivos digitales de audio:

• PCM, Pulse Code Modulation. Contienen datos en los que cada valor del archivo representa
exactamente una muestra de la forma de onda. Se ha realizado la digitalización pero no se realiza
compresión alguna. Ejemplos de archivos PCM son los WAV y AIFF.
• El otro tipo son los ficheros comprimidos. Los formatos iniciales utilizaban codificación logarít-
mica pero en la actualidad se basan en los métodos de compresión con modelos psicoacústicos..
Los ejemplos característicos son los MP3 (MPEG I, layer 3), Ogg Vorbis, y WMA (Windows
Media Audio). La tabla 5.2 muestra los principales archivos comprimidos con sus extensiones y
los estándares a los que pertenecen.
Formato del fichero de Extensión del

Estándar Aplicación
audio fichero
Digital Theater Systems DTS ETSI TS 102 114 DVD, Audio CD
Dolby Digital AC-3 ATSC Standard A/52A DVD
MPEG-1 Layer I MPA ISO/IEC-11172-3
MPEG-1 Layer II MP2 ISO/IEC-11172-3 VCD, SVCD
MPEG-1 Layer III MP3 ISO/IEC-11172-3
MPEG-2 Layer I MPA ISO/IEC-13818-3
MPEG-2 Layer II MP2 ISO/IEC-13818-3 5.1 SVCD
MPEG-2 Layer III MP3 ISO/IEC-13818-3
Tabla 5.2 Archivos de audio comprimido y sus estándares.
Capa (Layer) Compresión Transferencia

1 4:1 384 Kbits/s
2 6:1 a 8:1 256 a 192 Kbits/s
3 10:1 a 12:1 128 a 112 Kbits/s
Tabla 5.3 Datos de las capas del estándar MPEG de audio

Los datos fundamentales de las capas del estándar MPEG de audio se muestran en la tabla 5.3.
Por último, debe tenerse en cuenta la diferencia entre sonido digitalizado y el sintetizado. El
sonido MIDI no se obtiene de una señal de sonido natural. El formato MIDI no es un sonido
almacenado como tal sino en forma de datos y para que para que pueda ser reproducido es nece-
sario un sintetizador, presente en la tarjeta de sonido. De hecho es como si se tratase de una par-
titura que contiene la nota que se toca en cada momento, su intensidad y su duración.
Los archivos de este tipo son pequeños y en muy pocos Kb podemos almacenar gran cantidad de
música, aunque, eso sí, con una sonoridad un tanto artificial. Existen dos extensiones que Win-
dows reconoce perfectamente: .mid (la más habitual) y .rmi. Programas como Music Time crean
y reproducen estos tipos de ficheros.
5.3.1 FORMATEO DEL BITSTREAM (FRAMING):

El formato de la cadena de bits que debe entregar el codificador MPEG está normalizado; este
bloque se encarga de cumplir con dicho requerimiento, además de añadir cualquier información
adicional que el usuario desee (ancillary data).
El bitstream resultante esta divido en pequeños paquetes de datos denominados frames (cuadros
o marcos). Cada frame es totalmente independiente de cualquier otro y, según el layer, el bitrate
elegido y la frecuencia de muestreo, puede contener entre 20 y 70 ms de audio digital compri-
mido. Un frame MPEG-1 está dividido en cuatro partes:
- Encabezamiento (header): contiene información de sincronización y datos sobre las caracterís-

ticas del frame.
- Control de error (CRC): para detectar posibles errores en bitstream.
- Datos de audio: parte del bitstream que contiene las muestras de audio comprimido.
- Datos auxiliares (ancillary data): parte del bitstream en donde pueden incluirse datos auxilia-
res.
El tamaño en bytes de cada frame puede ser calculado utilizando la siguiente expresión (sólo para
Layer 3):
144 × BitRate
FrameSize = [bytes ]
SampleRate
en donde:
FrameSize: es el tamaño del frame en bytes.
BitRate: es la cadencia de bits elegida a la salida del compresor.
SampleRate: es la frecuencia de muestreo de la señal de audio digital original.

• Ejemplo: supóngase una frecuencia de muestreo típica de 44,1 KHz y un Bitrate de 128 Kbps,
con estos datos el tamaño del paquete sería:
Frame Size = 144 x 128000 / 44100 = 417 bytes
y representa aproximadamente 26,12 ms de audio.
5.3.2 ENCABEZAMIENTO DEL FRAME (HEADER):

Los primeros 4 bytes (32 bits) del frame contienen importante información sobre los datos conte-
nidos en el paquete. Esta información es lo que le permite al frame ser autosuficiente y completa-
mente independiente del resto de los frames de un programa de audio completo. La norma indica
con precisión el significado que deben tener cada uno de los 32 bits del encabezamiento (o hea-
der) del frame.
Supóngase el siguiente esquema de un frame, en donde cada letra representa un bit:
AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM
La figura 5.9 muestra un modelo de sistema de codificación de audio MPEG, desde el punto de
vista de la creación de las tramas.
CODIFICADOR
Entrada de Tram a de datos

audio digital codificados
Análisis en Cuantificador y Empaquetador
subbandas Codificador de tram as
Datos auxiliares
M odelo
psicoacústico
DECODIFICADOR
Salida de
audio digital
Desempaquetador Reconstrucción Síntesis en
de tramas sub-bandas
Datos auxiliares
Figura 5.9 Sistema de codificación de audio MPEG, desde el punto de vista de la creación de las tramas.
La tabla 5.4 resume el significado de los 32 primeros bits del encabezado de un frame:

Letra Tamaño Posición Descripción

(bits) (bits)
Bits de sincronización del frame, todos en 1
A 11 31-21 (indican el
comienzo de un frame).
Versión MPEG:
00 : Versión 2.5
B 2 20-19 01 : reservado
10 : Versión 2 –MPEG2- (ISO/IEC-13818-3)
11 : Versión 1 –MPEG1- (ISO/IEC-11172-3)
Descripción del Layer:
00 : reservado
C 2 18-17 01 : Layer 3
10 : Layer 2
11 : Layer 1
Bit de protección CRC:
0 : Protegido con CRC (16 bits de CRC le siguen
D 1 16 al encabezado)
1 : No protegido con CRC
Indicación del Bitrate:
Bits V1-L1 V1-L2 V1-L3 V2-L1 V2-L2 V2-L3
0000 Libre Libre Libre Libre Libre Libre
0001 32 32 32 32 32 8
0010 64 48 40 64 48 16
0011 96 56 48 96 56 24
0100 128 64 56 128 64 32
0101 160 80 64 160 80 64
0110 192 96 80 192 96 80
0111 224 112 96 224 112 56
1000 256 128 112 256 128 64
E 4 15-12 1001 288 160 128 288 160 128
1010 320 192 160 320 192 160
1011 352 224 192 352 224 112
1100 384 256 224 384 256 128
1101 416 320 256 416 320 256
1110 448 384 320 448 384 320
1111 - - - - - -
Notas: Todos los valores están en kbps.
V1 : MPEG Versión 1 (ISO/IEC-11172-3)
V2 : MPEG Versión 2 y 2.5
L1 : Layer 1
L2 : Layer 2
L3 : Layer 3
F 2 11-10 Indicación de la frecuencia de muestro del audio
original (valores en Hz.):
bits MPEG-1 MPEG-2 MPEG-2.5
00 44100 22050 11025
01 48000 24000 12000
10 32000 16000 8000
11 Reservado Reservado Reservado
Bit de relleno:
G 1 9 0 : el frame no está rellenado
1 : el frame está rellenado con un bit extra
H 1 8 Bit reservado (función desconocida)
Indicación de los canales:
00 : stereo
I 2 7-6 01 : joint stereo
10 : dos canales (stereo)
11 : un canal (mono)
Extensión de los modos de los canales (solo para
J 2 5-4 Joint stereo):
Tabla 5.4 Encabezado de un frame MPEG-1

En el diagrama de bloques del modelo de sistema de codificación de audio MPEG-1 se puede ver
el proceso básico de codificación/decodificación de la señal de audio digital. Esta señal se divide
en 32 subbandas de frecuencia con un banco de filtros. Simultáneamente se calcula para cada
subbanda, en el modelo psicoacústico, los coeficientes entre los niveles de señal y el umbral de
enmascaramiento (los sonidos no se distinguen por debajo de este umbral). A cada banda se le
asigna un número de bits para reducir el ruido total de cuantificación, esto se realiza en el bloque
de asignación de bits y cuantificación. El último bloque empaqueta la información anterior y
añade los datos auxiliares en la trama.
La trama MPEG-2 se construye en torno a los dos canales principales (izquierdo y derecho), para
que sea compatible con la trama MPEG-1, el resto de información necesaria para los canales de
sonido envolvente (surround) o los canales multilingües se incluye en la zona de datos auxiliares.
Así un decodificador que siga la norma MPEG-1 obtendrá los canales izquierdo y derecho, mien-
tras que un decodificador MPEG-2 puede obtener todos los canales.
Cabecera Muestras de Datos Datos

CRC BAL SCFSI las subbandas anteriores 1 anteriores 2
SCF
Estéreo Básico L/R Extensión multicanal
ISO/IEC 11172-3 Layer II frame
Cabecera MC
MC-Muestras de
MC-CRC
las subbandas
MC-BAL
MC-SCFSI Multilenguaje Datos
MC-SCF anteriores 2
Predicción-MC
Multi-
Datos de audio multicanal lenguaje
Estéreo
Básico
Extensión multicanal
L/R
Figura 5.10 Estructura de la trama multicanal MPEG-2.
• El archivo "MP3"
El bitstream (cadena de bits) a la salida del codificador MPEG-1 está formado por frames (cua-
dros). Como ya se explicó, estos frames cuentan con un encabezamiento; un control de errores
por medio del método de redundancia cíclica (CRC), los datos
correspondientes al audio codificado e información auxiliar. Los mencionados frames o cuadros,

se almacenan en un archivo de computadora de manera secuencial.

La extensión del nombre de este archivo es ".MP3", identificando de esta manera a un bitstream
codificado en MPEG1 Layer 3. De la misma manera, la extensión ".MP2" está relacionada con
archivos codificados en MPEG1 Layer 2.
Estos archivos no contienen ningún tipo de encabezamiento general, simplemente son grandes
"paquetes" de frames. No obstante esto, es posible encontrar al final del archivo, información
sobre el origen del audio comprimido a manera de etiqueta (tag -en inglés-); de esta manera el
dispositivo o programa que comprime una grabación musical puede añadir el nombre del autor,
de la obra, del álbum al que corresponde (con 30 caracteres asignados a cada uno), año de reali-
zación (en 4 bytes), comentarios (30 caracteres), y un índice numérico correspondiente al género
musical (1 byte). El campo (si es especificado y es correcto) tiene como identificación inicial la
palabra 'TAG'. Con estos tres caracteres totaliza 128 bytes.
5.4 COMPRESIÓN MPEG A FONDO
En esta sección se presentan los métodos de compresión de audio fundamentales con mayor deta-
lle. La complejidad de los mismos requiere ciertos conocimientos de tratamiento digital de seña-
les. Para el lector no instruido en estos temas es suficiente con entender lo descrito anteriormente,
pero no debe renunciar a la lectura de esta sección, aunque sólo sea para observar los conoci-
mientos necesarios para abordarlo.
A continuación se van a detallar los mecanismos de los algoritmos de compresión MPEG bási-
cos. Para ello se presentan inicialmente algunas herramientas fundamentales.
5.4.1 RUN LENGTH ENCODING (RLE)

Es una de las técnicas de compresión orientadas al carácter, que se basan en el uso de un carácter
especial que indica que se ha realizado la compresión. Estas técnicas pueden utilizarse de forma
aislada o combinadas entre sí.
Es una generalización del método de eliminación de blancos. Con esta técnica se puede reducir
cualquier secuencia de caracteres cuando el nivel de la ocurrencia es de tres o más caracteres
iguales consecutivos.
Cuando se encuentran 3 o más caracteres iguales consecutivos lo que se hace es sustituir esta
secuencia por:
- un carácter especial indicador de compresión
- el carácter que se comprime
- número que indica la cantidad de caracteres que se comprimen.

• Ejemplo de compresión en el emisor:
La cadena de entrada es:
fghhhhjjerØØØØØØØØØtttrrrrrywqad

Una vez realizada la compresión, la cadena resultante será:
fgSch4jjerScØ9Sct3Scr5ywqad
donde Ø representa un carácter blanco y Sc es el carácter especial indicador de compresión.
En el proceso de descompresión, el receptor recorre la cadena de datos. Cuando encuentra un

carácter especial que indique compresión sabrá que en esa posición se ha realizado una compre-
sión y que el siguiente carácter indica el carácter que ha sido comprimido y a continuación apa-
rece el número que indica cuantos caracteres fueron comprimidos y de esta forma podrá
reconstruir la cadena original.
• Ejemplo de descompresión en el receptor
La cadena recibida a través del canal es la siguiente:
gtScr5juliScØ4jklScp3hj
Una vez realizada la descompresión obtenemos que la cadena original era:
gtrrrrrjuliØØØØjklppphj
5.4.2 CÓDIGO DE HUFFMAN

Es un código estadístico. La construcción de este tipo de códigos se basa en la propiedad del pre-
fijo, según la cual, ninguna secuencia de bits que represente a un carácter del código podrá apare-
cer como subsecuencia inicial de otra secuencia de longitud mayor que represente a otro carácter
del código. Este código es un código óptimo dentro de los códigos de codificación estadística, ya
que es el código de menor longitud media.
La construcción de este código se fundamenta en asignar a cada símbolo del alfabeto fuente una
secuencia de bits cuya longitud esté relacionada de forma directa con la probabilidad de apari-
ción de ese símbolo. De esta forma, a los símbolos con mayor frecuencia de aparición se les asig-
narán las palabras de código de menor longitud.
En el proceso de construcción de este código, lo primero que se hace es ordenar el conjunto de

símbolos del alfabeto fuente en orden decreciente de probabilidades de aparición. A continuación
se juntan los dos símbolos con menor probabilidad de aparición en un único símbolo cuya proba-
bilidad será la suma de las probabilidades de los símbolos que dieron origen a este nuevo sím-
bolo.
Se repite este proceso hasta que sólo tengamos dos símbolos. A continuación se realiza el pro-
ceso de codificación. Primeramente asignamos un 1 a uno de los dos símbolos que tenemos y un
0 al otro. Posteriormente recorreremos la estructura que hemos construido hacia atrás de forma
que cuando dos símbolos hayan dado origen a un nuevo símbolo, estos dos símbolos "heredarán"
la codificación asignada a este nuevo símbolo y a continuación se le añadirá un 1 a la codifica-
ción de uno de los símbolos y un 0 a la del otro símbolo.

5.4.3 COMPRESIÓN DE AUDIO

Existen numerosas técnicas para la compresión de audio. Los compresores reales pueden utilizar
varias de ellas, teniendo en cuenta las ventajas e inconvenientes de cada una, con el fin de obte-
ner diferentes posibilidades en función del coste y la complejidad. En esta sección se analizan las
técnicas fundamentales por separado, y posteriormente se exponen las combinaciones básicas.
El método de codificación más elemental es la compensación. Este método es el equivalente

digital a los mecanismos de reducción de ruido en los grabadores analógicos de cintas. Esta téc-
nica se ilustra en la figura 5.11. La señal de entrada se monitoriza y cuando su nivel disminuye
por debajo de un máximo, se amplifica en el codificador. La ganancia aplicada para aumentar la
señal se añade a los datos transmitidos de manera que en el decodificador puede aplicarse una
atenuación del mismo valor. En los grabadores analógicos de cintas esta técnica se utiliza para
maximizar la relación señal/ruido mientras que en la compresión digital se utiliza para mantener
el nivel de la señal todo lo alejado posible, según las ganancias disponibles, de la distorsión intro-
ducida por sucesivas etapas de codificación.
co m preso r de de scom p resor de

nivel nivel
En tra da Sa lida
M edida de
Inverso r
nivel
có digo
de n ive l
(a)
Max Max Nivel de Señal
Nivel de Señal
SNR
Nivel de Ruido
Nivel de Ruido SNR
Antes de la compensación Después de la compensación
(b) (c)
Figura 5.11 Compensación digital. (a) El codificador amplifica la entrada al nivel máximo y el decodificador atenúa en la
misma cantidad. (b) Señal antes de la compresión. (c) En el sistema compensado la señal se manitiene tan
lejos como es posible del ruido que se produce por la longitud de palabra de la muestra.

Una forma habitual de obtener la codificación de la ganancia es reducir el tamaño de palabra de

las muestras de manera que se necesite transmitir un número menor de bits. Al realizar esta
reducción la distorsión crecerá alrededor de 6 dB por cada bit eliminado, ya que al eliminar un bit
se divide por la mitad el número de intervalos cuantificados con lo que deben ser el doble de
grandes, duplicando por tanto el error en amplitud.
Una alternativa a la reducción de la longitud de palabra consiste en convertir la señal PCM uni-
forme en un formato no uniforme. En este caso el tamaño del paso de cuantificación crece con la
magnitud de la muestra tal que el nivel de distorsión es mayor que cuando se dan los niveles más
altos.
La compensación está relacionada con la codificación en punto flotante. Esta técnica se muestra
en la figura 5.12. El valor de la muestra se expresa como una mantisa y un exponente binario que
determina el desplazamiento que debe realizarse sobre la mantisa para obtener el valor absoluto
correcto sobre una escala PCM. El exponente es el equivalente a la ganancia o al factor de escala
en un sistema compensado.
M M E
0 0 1 1 0 0 1 0 = 1 0 0 1 01
7 6 5 4 3 2 1 0
0 0 0 0 1 0 1 1 = 0 1 1 0 1 1
Figura 5.12 Codificación en punto flotante
En punto flotante la relación señal-ruido viene determinada por el número de bits en la mantisa.
La figura 5.13 ilustra cómo la relación señal-ruido varía como una función diente de sierra. El
mejor valor, que se obtiene cuando la mantisa es cercana al desbordamiento, es remplazado por
el peor valor cuando la mantisa se desborda y el exponente se incrementa.
Como puede observarse, en el ejemplo mostrado en la figura 5.13, la máxima relación SNR es de
6db×8=48 decibelios con una entrada m·xima de 0db. Como el nivel de entrada disminuye y el
nivel de ruido permmanece igual entonces la SNR disminuye a 42 db.Una mayor reducción en el
nivel de señal tendría como consecuencia que el conversor desplazase el rango (punto A de la
figura 5.13) aumentando la ganacia de la entrada analógica en 6 db. La SNR volvería al valor ini-
cial y el el exponenete cambiaría de 7 a 6 para obtener el mismo cambio en el receptor. En este
sistema tan simple, el ruido modulado se escucharía y por ello en la práctica es necesria una pala-
bra mayor para la mantisa.

SNR (db)
48
48
48
48
48
Nivel de entrada (db bajo el máximo) 42 36 30 24 18 12 6 0
Conversor de exponente 0 1 2 3 4 5 6 7
Figura 5.13 Ejemplo de sistema con Mantisa de 8 bits y 3 bits de exponente.
La notación en punto flotante se utiliza en los DSPs ya que facilita los problemas computaciona-
les debidos a longitudes de palabras grandes. Así por ejemplo, al multiplicar números en punto
flotante basta con multiplicar las mantisas, mientras que los exponentes sólo se suman, redu-
ciendo el coste computacional.
Un sistema en punto flotante necesita un exponente con cada mantisa, lo que es innecesario y
demasiado costoso ya que en los sistemas de audio reales el nivel no cambia tan rápidamente
como para necesitar una información tan precisa, por lo que puede considerarse que existe redun-
dancia en los exponentes. Una alternativa más adecuada es la codificación en punto flotante en
bloque, también conocida como compensación cuasi-instantánea. En ella la magnitud de la
muestra mayor de un bloque se utiliza para determinar el valor de un exponente que será válido
para el bloque completo. Enviar un exponente por bloque requiere una velocidad de datos menor
que en la codificación en punto flotante.
En la codificación por bloques la recuantificación en el codificador aumenta el error de cuantifo-

cación, pero lo hace a lo largo de la duración de todo el bloque. La figura 5.14 muestra que si se
da un transitorio hacia el final del bloque, el decodificador reproducirá la forma de onda correcta-
mente, pero el ruido de cuantificación comenzará al principio del bloque y puede producir un
aumento considerable en la distorsión, también llamada pre-ruido o pre-eco que es audible antes
del transitorio. Para hacerlo inaudible puede utilizarse un enmascaramiento temporal. Con un
bloque de un milisegundo el efecto es suficientemente breve como para no ser oído.
Otra solución consiste en utilizar una ventana temporal variable en función del contenido del
transitorio de la forma de onda de audio. Cuando ocurren los transitorios musicales se necesitan
bloques cortos y la ganancia de codificación será baja. En otro caso los bloques se vuelven mayo-

res permitiendo una ganancia de codificación mayor. Mientras que este sistema se utilice sólo se
permite codificación de ganancia, el factor de compresión tiene que limitarse porque se obtiene
poco beneficio del enmascaramiento. Esto se debe a que estas técnicas producen distorsión que
puede encontrarse en cualquier lugar de toda la banda de audio. Si el espectro de la entrada de
audio es estrecho este ruido no se enmascarará.
Transitorio
Ruido que puede

percibirse si el bloque es
demasiado largo
Nivel de ruido constante

Ruido en bloque
enmascarado
Tiempo
Bloque de transformada
Figura 5.14 Transitorio en el final de un bloque de una transformada
La codificación sub-banda separa el espectro de audio en diferentes bandas de frecuencia, con lo

que posteriormente cada banda puede procesarse individualmente. En las señales de audio reales
muchas bandas contendrán señales de menor nivel que la de tono más alto. La compensación
individual de cada banda será más eficaz que la de la banda completa. La codificación sub-banda
también permite que el nivel de los productos de distorsión aumente selectivamente de manera
que la distorsión sólo se crea a frecuencias en las que el enmascaramiento espectral sea eficaz.
Debe tenerse en cuenta que el resultado de reducir la longitud de palabra de las muestras en un
codificador sub-banda es considerado a menudo como ruido. Estrictamente, el ruido es una señal
no deseada que no está correlacionada con la señal deseada. Esto no sucede generalmente en la
compresión de audio. El elemento aleatorio en la linealización en los bits de bajo orden estará de
alguna manera debajo de el final de la palabra reducida. Si la palabra es simplemente redondeada
al entero más cercano el efecto de la linealización se perderá produciendo distorsión por la cuan-
tificación. Como la distorsión se produce en un sistema de banda limitada los armónicos genera-
dos aparecerán con alias en la banda. Cuando la recuantificación se realiza en una sub-banda la
distorsión se confinará a esa sub-banda, tal y como se ilustra en la figura 5.15. Esta distorsión es
anarmónica.
Figura 5.15 Codificación por transformación en bloques cortos.

La señal de audio se considera usualmente una forma de onda en el dominio temporal ya que esto
es los que produce un micrófono. Sin embargo, el análisis espectral permite que cualquier forma
de onda se represente por un conjunto de elementos armónicamente relacionados de amplitud y
fase dadas. En teoría es perfectamente posible descomponer una forma de onda periódica en sus
frecuencias y fases, y grabar o transmitir la transformada. Esta puede invertirse y reconstruir la
forma de onda temporal original.
La transformada de una forma de onda típica de audio cambia con relativa lentitud la mayoría de
las veces. La lenta decaída de la mayoría de los sonidos musicales permite reducir la velocidad
de muestreo de la transformada, con lo que se obtiene una codificación de ganancia. En algunas
frecuencias el nivel estará por debajo del máximo y puede utilizarse una longitud de palabra
menor. Además podrá obtenerse codificación de ganancia si los coeficientes que describen las
frecuencias que se enmascararán se cuantificarán menos finamente.
En la práctica aparecen algunas dificultades. Los sonidos reales no son periódicos, contienen
transitorios para los que la transformación no puede realizarse de forma precisa. Una posible
solución consiste en separar la forma de onda en dos segmentos cortos y transformar cada uno
individualmente. El retardo se reduce pero existe la posibilidad de que aparezcan efectos no
deseados debido a que la forma de onda ha sido truncada en ventanas temporales rectangulares.
Una solución es utilizar funciones de ventana, y superponer los segmentos, tal y como se ilustra
en la figura 5.15. Entonces, cada muestra de entrada aparece en sólo dos transformadas, pero con
pero variable dependiendo de su posición a lo largo del eje temporal.
La DFT no produce un espectro continuo sino coeficientes a frecuencias discretas. La resolución

en frecuencia, es decir, el número de coeficientes a diferentes frecuencias, es igual al número de
muestras en la ventana. Si se utilizan ventanas superpuestas, se produce el doble de coeficientes
ya que son necesarios teóricamente. Además la DFT necesita cálculos intensivos y además es
necesario utilizar la aritmética de los números complejos para determinar tanto la fase como la
amplitud. Una alternativa es utilizar la DCT (Discrete Cosine Transform) o la MDCT (Modified
Discrete Cosine Transform), que tiene la capacidad de eliminar la sobrecarga debida a la super-
posición de las ventanas y volver al dominio críticamente muestreado. El término muestreo crí-
tico se utiliza para indicar que el número de coeficientes no excede el número que se obtendría
sin superposición de ventanas.
5.4.4 CODIFICACIÓN SUB-BANDA

La codificación sub-banda tiene la ventaja de que los sonidos reales no tienen un energía espec-
tral uniforme. La longitud de palabra del PCM de audio se basa en el rango dinámico requerido y
este es generalmente constante e independiente de la frecuencia, aunque cualquier pre-énfasis
puede afectar. Cuando una señal con un espectro no par es expresada como PCM, el rango diná-
mico completo se ocupa sólo por el componente espectral menos alto, y todos los demás compo-
nentes se codifican con espacio excesivo.

En su forma más simple la codificación binaria consiste en separar la señal de audio en un

número de bandas de frecuencia y compensar cada una de acuerdo con su propio nivel. Las ban-
das en las que hay poca energía producen menores amplitudes que pueden transmitirse con longi-
tudes de palabra cortas. Por tanto, cada banda produce muestras de longitud variable, pero la
suma de todas las longitudes de palabra de las muestras es menor que la del PCM y así puede rea-
lizarse la codificación de ganancia. Debe tenerse en cuenta que la codificación sub-banda no se
utiliza sólo en el contexto digital, los sistemas de reducción de ruido Dolby son un ejemplo de
dispositivo analógico que lo utilizan ampliamente.
El número de sub-bandas que deben utilizarse depende de las herramientas de conversión que se
combinen con la codificación sub-banda. Si se intenta optimizar la compresión basada en enmas-
caramiento las bandas deberán ser preferiblemente más estrechas que las bandas críticas del oído,
y entonces se necesitará un gran número. Sin embargo, esta característica a menudo no se
alcanza. Por ejemplo los ISO/MPEG Layers I y II usan únicamente 32 sub-bandas. La figura 5.16
muestra la condición crítica donde el enmascaramiento está en la arista superior de la sub-banda.
La utilización de un número excesivo de sub-bandas aumenta la complejidad y el retardo de la
codificación, así como el riego de pre-rizado en los transitorios, los cuales pueden exceder el
enmascaramiento temporal. Por último debe tenerse en cuenta que el proceso de separación de
bandas es complejo y necesita gran cantidad de cálculo.
Nivel de
enmanscaramiento Tono de
enmanscaramiento
Ruido que puede

enmascararse
La banda estrecha
permite enmascarar
más ruido
Frecuencia Frecuencia
Figura 5.16 Condición crítica en la que el tono del enmascaramiento se encuentra en el límite superior de la sub-banda
5.4.5 FORMATOS DE COMPRESIÓN DE AUDIO

Existen numerosos formatos para la compresión de audio y en general pueden dividirse en for-
matos estándar internacionales y formatos de propietario.
Dos estándares internacionales, ISO (International Standards Organization) e IEC (International

Electrotechnical Commission), reconocieron rápidamente la importancia de la compresión, y en
1988 establecieron el ISO/IEC/MPEG (Moving Picture Experts Group) para comparar diferentes
técnicas de compresión con el fin de desarrollar un estándar internacional para la compresión de
video. Los objetivos se extendieron ese mismo año para incluir el audio, y el grupo MPEG/audio
se constituyó con este fin.

La codificación MPEG/audio se utiliza para DAB (digital audio broadcasting) y para el audio de
la emisión de televisión digital.
En Estados Unidos se ha propuesto utilizar una compresión alternativa para el contenido de audio
de las emisiones de televión digital ATSC (Advanced Television Systems Commitee). Este es el
sistema AC-3 desarrollado por los laboratorios Dolby. La estructura de transporte MPEG ha sido
también estandarizada para permitir transportar audio codoficado AC-3. El DVD (Digital Video
Disk) puede también transportar codificación de audio AC-3 o MPEG.
Otro codificador popular, que es de propietario, es el ATRAC, que es el que se utiliza en los
MiniDisc
5.5 COMPRESIÓN DE AUDIO MPEG
El objetivo de la compresión de audio quedó bien establecido cuando se formó el grupo MPEG/
Audio. En un principio no era necesario para el grupo producir codificadores (codecs) porque el
trabajo existente y los desarrollos hasta ese momentos eran adecuados. Como parte del proyecto
Eureka 147, se desarrolló el sistema conocido como MUSICAM (Masking pattern adapted Uni-
versal Sub-band Integrated Coding And Multiplexing). Fue desarrollado por la CCETT en Fran-
cia, IRT en Alemania y Philips en Holanda. Este sistema fue diseñado para que fuese apropiado
para la emisión DAB (Digital Audio Broadcasting). En paralelo se desarrolló el sistema ASPEC
(Adaptive Spectral Perceptual Entropy Coding), a partir de numerosos sistemas anteriores, por
los laboratorios AT&T Bell Labs, Thomson, la Fraunhofer Society y el CNET. El sistema
ASPEC fue diseñado para utilizar altos factores de compresión para permitir la transmisión de
audio sobre RDSI.
Los dos sistemas anteriores fueron implementados completamente en Julio de 1990, cuando la
Corporación Sueca de Emisiones realizó un test exhaustivo. Como resultado de estas pruebas, el
grupo MPEG/Audio combinó las características de los sistemas ASPEC y MUSICAM en un
único estándar manteniendo tres niveles de complejidad y de especificaciones.
Los tres niveles, conocidos como layers (capas), son necesarios ya que existen numerosas aplica-
ciones, con diferentes exigencias. Los codificadores de audio pueden trabajar con diferentes
niveles de calidad en las especificaciones y con distintos factores de compresión. Por ejemplo,
los equipos clásicos estereofónicos requieren unas especificaciones de calidad diferentes a los
mono. La complejidad del codificador será menor cuando el factor de compresión sea menor.
Cuando se necesite una compresión moderada un codificador sencillo será más eficaz. Por otro
lado, cuando el factor de compresión aumenta será necesario emplear un codificador más com-
plejo para mantener la calidad.
El codificador MPEG Layer I es una versión simplificada del MUSICAM, que es muy apropiado
para aplicaciones de compresión media y bajo coste. El Layer II es idéntico al MUSICAM y se
utiliza para DAB y para el contenido audio de la televisión digital DVB. El Layer III es una com-

binación de las mejores características del ASPEC y el MUSICAM y se utiliza principalmente

para las telecomunicaciones, en las que se suelen necesitar altos factores de compresión.
En cada capa, la codificación MPEG Audio permite velocidades de muestreo de entrada de 32,
44.1 y 48 KHz y velocidades de salida de 32, 48, 56, 64, 96, 112, 128, 192, 256 y 384 kbits/seg.
La transmisión puede ser mono, canal dual (por ejemplo bilingüe) o estéreo. Otra posibilidad es
utilizar el modo estéreo de manera que el audio se vuelve mono sobre un cierto rango de frecuen-
cias. Esto permite una velocidad de bits menor con la desventaja evidente de que se reduce la
fidelidad estéreo.
Las capas del codificador MPEG Audio, (I, II y III), no deben confundirse con los estándar de
codificación para televisión MPEG-1 y MPEG-2. Estos definen un rango de sistemas para la
codificación de video y audio mientras que los layers definen tipos de codificación de audio. El
primer estándar de MPEG-1 comprime audio y video con cerca de 1.5 Mbits/SEG. La codifica-
ción de audio del MPEG-1 puede utilizarse para codificar uno o dos canales a velocidades supe-
riores a 448 kbits/seg. MPEG-2 permite que el número de canales crezca hasta cinco: izquierdo,
derecho, centro, izquierdo surround y derecho surround. Con el fin de mantener la compatibili-
dad con MPEG-1, el MPEG-2 convierte los cinco canales de entrada en una señal compatible de
dos canales, Lo, Ro, tal y como se muestra en la figura 5.17.
Envolvente Izquierdo
(Left Surround)
Ls Σ Lo=L+αC+βLs
Izquierdo (Left) L
α
Centro C Par compatible estéreo
Derecho (Right) R
Envolvente derecho Rs Σ Ro=R+αC+βRs

(Right Surround)
β
Figura 5.17 Obtención de una señal estéreo a partir de cinco señales envolventes para permitir la compatibilidad con
un sistema de dos canales.
Los datos de estos dos canales se codifican en un estándar MPEG-1 de audio, siguiendo MPEG-
2 con un sistema de datos subordinado que el decodificador MPEG-1 ignorará. El sistema subor-
dinado contiene datos de otros tres canales de audio. La figura 5.18 muestra como hay ocho
modos en los que estos tres canales pueden obtenerse. El codificador seleccionará el modo que
tendrá la menor velocidad de datos para la distribución de energía dominante en los canales de
entrada. Un decodificador MPEG-2 extraerá esos tres canales además del sistema MPEG-1 de

manera que se recuperan los cinco canales originales mediante una matriz inversa que es dirigida
por los bits de selección de modo de la cadena de bits.
L R C
L Rs C
Ls R C
Ls Rs C
L R Ls
L R R
Ls R R
L Rs Ls
Figura 5.18 Combinaciones posibles de señales que deben enviarse, además del par compatible estéreo.
En todos los casos mostrados en la figura 5.18 pueden repuerearse los cinco canales originales a
partir de una matriz inversa adecuada.
Las especificaciones para el MPEG-2 de audio para que se mantenga la compatibilidad con
MPEG-1 era fundamental para algunas aplicaciones pero comprometía las prestaciones ya que
algunas herramientas de codificación muy útiles no se utilizaban. Por ello el grupo MPEG Audio
desarrolló un estándar multicanal que no era compatible ya que incorporaba herramientas de
codificación adicionales con el fin de obtener mayores prestaciones. Este estándar fue denomi-
nado MPEG-2 AAC (Advanced Audio Coding).
5.6 CODIFICACIÓN DE AUDIO MPEG LAYER I
La figura 5.19 muestra el diagrama de bloques del codificador Layer I, que es una versión simpli-
ficada del sistema MUSICAM. Un filtro polifásico divide el espectro de audio en 32 sub-bandas
iguales. La salida del banco de filtros es muestreada críticamente. Es decir, la velocidad de salida
de los datos no es mayor que la velocidad de entrada. La compresión de sub-bandas tiene la ven-
taja de que los sonidos reales no tienen espectro de energía uniforme. La longitud de palabra del
PCM audio se basa en el rango dinámico necesario que generalmente es, como se dijo, constante
para todas las frecuencias. Cuando una señal con un espectro no par se convierte en PCM, el
rango dinámico completo se ocupa únicamente por la componente espectral menos alta, y todas
las demás componentes se codifican con espacio excesivo. En su forma más simple la codifica-
ción sub-banda divide la señal de audio en un número determinado de bandas de frecuencia y
cada banda se compensada de acuerdo con su propio nivel. Las bandas en las que hay poca ener-
gía producen amplitudes pequeñas que pueden transmitirse con longitudes de palabra pequeñas.
Por tanto, cada banda produce muestras de longitud variable, pero la suma de todas las longitudes
de palabra de las muestras es menor que la del PCM y así puede realizarse la codificación de
ganancia. La figura 5.20 muestra el decodificador.

del factor de escala

Audio
Subbandas comprimido
Banco de Multiplexor
Recuantificación
Filtros
Compresión
Modelo de
enmascaramiento
Tamaño de
FFT escalón
Figura 5.19 Diagrama de bloques de un codificador de sub-bandas.
Factor de
escala
Cuantificación
Entrada de inversa Salida Audio
audio comprimido Muestras Banco de PCM
Demultiplexor
filtros
inverso
Expansión
Tamaño de
escalón
Figura 5.20 Diagrama de bloques de un decodificador de sub-bandas
Un codificador supeditado al Layer I, es decir, aquel cuya salida puede ser entendida por cual-
quier decodificador estándar, puede realizarse simplemente de esta manera. Una vez garantizado
que la sintaxis de la cadena de bits es correcta el decodificador no tiene que considerar cómo se
realizaron las decisiones en la codificación. Sin embargo, los factores de distorsión elevados
necesitan que el nivel de distorsión aumente y esto debe hacerse sólo si se sabe que los productos
de distorsión serán enmascarados. En el caso ideal las sub-bandas serán más estrechas que las
bandas críticas del oído.
La figura 5.16 mostró que la condición crítica en la que el tono enmascarado está en el lado supe-
rior de la sub-banda. Sin embargo, la utilización de un número excesivo de sub-bandas aumen-
tará la complejidad y el retardo del codificador. El uso de 32 sub-bandas iguales en los MPEG
Layers I y II es una solución de compromiso entre ambos factores.
Filtros separadores de banda polifásicos eficientes pueden sólo operar con achura de sub-bandas
iguales y por ello en un modelo de audición basado en la octava las sub-bandas son demasiado
anchas para bajas frecuencias y demasiado estrechas para las altas.
Con el fin de soslayar el problema de la precisión en el filtro sub-banda se utiliza un una transfor-
mada rápida de Fourier para dirigir el modelo de enmascaramiento. El estándar sugiere algunos
de estos modelos de enmascaramientos pero se pueden obtener cadenas de bits adecuadas a partir
de otros modelos. En el Layer-I se utiliza una FFT de 512 puntos. La salida de la FFT se utiliza

para determinar el umbral de enmascaramiento que es la suma de todas las fuentes de enmascara-
miento. Estas fuentes incluyen al menos el umbral de audición que puede aumentar localmente
por el contenido en frecuencia de la entrada de audio. El grado con el que el umbral crece
depende de si la entrada de audio es sinusoidal o atona (cuasi-ruido). En el caso de una onda sin-
usoidal la magnitud y la fase de la FFT para cada frecuencia será similar en una ventana y en la
siguiente, mientras que si la señal es átona la información de la magnitud y la fase sería caótica.
El umbral de enmascaramiento es en efecto una medida del ruido como función de la frecuencia,
tal y como ilustra la figura 5.21. El umbral de enmascaramiento se calcula convolucionando el
espectro de la FFT con la función ampliada con correcciones por tonalidad. El nivel del umbral
de enmascaramiento no puede caer por debajo de umbral absoluto, que es el umbral de audición.
Por tanto el umbral de enmascaramiento se sobrepone sobre las frecuencias reales de cada sub-
banda tal que puede establecerse el nivel permitido de distorsión en cada una.
(a) Nivel de Ruido

observable
(b) Nivel de Ruido

en cada subbanda
Frecuencia
Subbanda
Figura 5.21 (a) Curva que muestra el nivel de ruido observable calculada mediante el modelo de enmascaramiento. (b)
Niveles de ruido en cada subbanda.
Los niveles de ruido en cada subbanda mostrados en la figura 5.21 deben establecerse de forma
que no excedan el nivel de la curva.
Se utilizan bloques de entrada de tamaño constante con 384 muestras. A 48 KHz las 384 mues-
tras corresponden a un periodo de 8 mseg. Después del filtro de sub-banda cada banda contiene
12 muestras por bloque. El tamaño del bloque es suficientemente grande para evitar el fenómeno
del pre-enmascaramiento, que se observaba en la figura 5.16. Por tanto el modelo de enmascara-
miento debe garantizar que no se utiliza una recuantificación masiva en un bloque que contiene
un gran transitorio seguido de un periodo estacionario. Esto puede realizarse comparando los
parámetros del bloque con los de los bloques anteriores, ya que una diferencia significativa indi-
cará una actividad transitoria.

Las muestras de cada bloque de sub-banda, denominadas bin, se compensan de acuerdo con el
valor de pico en los bin. Se utiliza un factor de escala de seis bits para cada sub-banda que se
aplica a las 12 muestras. La ganancia de etapa es de 2 dB y por tanto es posible un código de seis
bits sobre un rango dinámico de 120 dB.
Se utiliza una velocidad de bits de salida fija, y el tamaño del bloque se salida codificado será
fijo. La longitud de palabra en cada bin será tal que la suma de los bits de todas las sub-bandas es
igual al tamaño del bloque codificado. Por tanto, algunas sub-bandas pueden tener longitudes de
palabra grandes si otras las tienen pequeñas. El proceso para determinar el tamaño del paso de
recuantificación, y pro tanto la longitud de palabra en cada sub-banda, se denomina localizador
de bit. En el Layer I todas las sub-bandas se tratan de la misma manera y se utilizan 14 clases
diferentes de recuantificaciones. Cada una tiene un número impar de intervalos cuantificados.
Cuando se realiza el enmascaramiento la señal se cuantifica con menos presisión hasta que el
nivel de distorsión aumenta hasta el nivel de enmascaramiento. Esta cuantificación menos pre-
cisa necesita longitudes de palabra más pequeñas y permite una codificación en ganancia. La
localización de bit puede ser iterativa ya que se van realizando ajustes a lo largo de todas las sub-
bandas con el fin de obtener la misma relación ruido-enmascaramiento, NMR (Noise to masking
ratio). Si la velocidad de datos permitible es adecuada se producirá una NMR positiva y entonces
la calidad de la decodificación será óptima. Sin embargo, a velocidades de bit más bajas y en
ausencia de almacenamiento no es posible un aumento en la velocidad de bit. La distorsión de la
codificación no puede enmascararse y lo mejor que puede hacer el codificador es igualar la NMR
negativa a lo largo del espectro de manera que la distorsión no se enfatice en ninguna sub-banda.
Es posible que en algunas sub-bandas no haya dato alguno, debido a que sus frecuencias no estu-
vieran presentes originalmente o porque el codificador las descarte para obtener una velocidad de
bit menor.
Las muestras de diferentes longitud de palabra en cada bin se ensamblan en el bloque codificado
de salida. A diferencia de un bloque PCM, que contiene muestras de longitud de palabra fija, un
bloque codificado contiene numerosas longitudes de palabra diferentes que pueden variar de una
sub-banda a la siguiente. Con el fin de descomponer el bloque en muestras de distintas longitudes
de palabra y demultiplexar estas muestras en los bins de frecuencias apropiadas, es necesario que
se comunique al decodificador cuáles fueron las localizaciones de bits utilizadas cuando se
empaquetaron, con lo que es imprescindible algún tipo de sincronismo para permitir que se iden-
tifique el principio del bloque.
El factor de compresión se determina por un sistema de localización de bit. Cambiar el tamaño

del bloque de salida para obtener un factor de compresión diferente es sencillo. Si se especifica
un bloque mayor el localizador de bit simplemente itera hasta que se ajuste el nuevo tamaño de
bloque. Análogamente el decodificador sólo necesita descomponer correctamente el bloque
mayor en muestras codificadas y entonces el proceso de expansión es idéntico excepto por el
hecho de que las palabras expandidas contienen menor ruido. Por tanto puede disponerse de

codificadores con grados de compresión variable que pueden incorporar diferentes prestaciones
de ancho de banda/especificaciones con el mismo hardware.
La figura 5.22.a muestra el formato de la cadena elemental del Layer I. El sistema comienza con
un patrón síncrono para inicializar la fase de descomposición, y una cabecera que describe la
velocidad de muestreo y cualquier uso de preénfasis. A continuación sigue un bloque de 32 gru-
pos de cuatro bits que son códigos de localización, que especifican la longitud de palabra utili-
zada en cada una de las sub-bandas y permiten que el descodificador descomponga el bloque de
muestras de las sub-bandas. Seguidamente se encuentra un bloque de 32 grupos de seis bits que
indican los factores de escala, que especifican las ganancias dadas a cada banda durante la com-
presión. El último bloque contiene 32 conjuntos de 12 muestras, que tienen longitudes de palabra
distintas de un bloque al siguiente, y pueden tener una longitud entre 0 y 15 bits. La descomposi-
ción tiene que utilizar la información de los códigos de las 32 localizaciones para analizar cómo
se descomponen los bloques de muestras en muestras individuales de longitud variable. La figura
5.22.b muestra el formato de la cadena elemental del Layer II.
Localización Factores de Datos

Cabecera CRC de bt escala Subbanda muestras auxiliares
(a)
Localización Código Factores de muestras/ Datos

Cabecera CRC SCFSI Subbanda granulos
de bt escala auxiliares
(b)
Figura 5.22 (a).Formato de la cadena elemental del Layer I. (b) Formato de la cadena elemental del Layer I.
La figura 5.23 muestra el decodificador Layer I MPEG. La cadena elemental se descompone uti-
lizando el patrón de sincronismo y las muestras de longitud variable se ensamblan utilizando los
códigos de localización. Las muestras de longitud variable se convierten en muestras con longi-
tud de palabra de 15 bits añadiendo ceros. Los índices del factor de escala se utilizan entonces
para determinar los factores de multiplicación utilizados para reconstruir la amplitud original las
formas de onda de cada sub-banda. Entonces se mezclan las 32 señales de las sub-bandas en un
espectro mediante filtrado de síntesis, que consiste en un banco de filtros pasa-banda que rea-
signa cada sub-banda a su localización correcta en el espectro de audio y seguidamente los suma
para producir la salida de audio.

Información de codificación
array de
índices de Tabla de
Control de
factores de factores de
escala decodificador
escala
Señal de Información de
entrada localización
Layer I Demux array de
de índices de Factores de
Bitstream factores de escala
escala
Tamaño de
paso Subbanda Salida
de de audio
muestras audio PCM
Filtro
inverso
Cuantizador Expansor
inverso
Figura 5.23 Decodificador Layer I
5.7 CODIFICACIÓN DE AUDIO MPEG LAYER II
Este codificador es idéntico al MUSICAM. Se utiliza en mismo banco de filtros de 32 bandas y

el mismo esquema de compresión que en el Layer I. Con el fin de proporcionar una mejor resolu-
ción espectral al modelo de enmascaramiento la FFT tiene 1024 puntos. La FFT dirige el modelo
de enmascaramiento que puede ser la misma que la utilizada en el Layer I. La longitud del bloque
aumenta a 1152 muestras. Esta es tres veces la longitud del bloque del Layer I, correspondiendo
a 24 mseg a 48 kHz.
La figura 5.22.b muestra la estructura de la cadena elemental del Layer II. Tras el patrón de sin-
cronismo se envía los datos de localización de bit. El proceso de recuantificación del Layer II es
más complicado que el del Layer I. Las sub-bandas se clasifican en tres rangos de frecuencia,
baja, media y alta, y la recuantificación en cada rango es diferente. Las muestras a baja frecuen-
cia pueden cuantificarse en 15 longitudes de palabra diferentes, las frecuencias medias en 7 lon-
gitudes de palabra y las altas en tres. Los datos de localización de bits utilizan palabras de cuatro,
tres y dos bits dependiendo del sub-canal al que se refieran. Esto reduce la cantidad de datos de
localización de bits que deben ser enviados. En cada caso existe una combinación extra en el
código de localización, que se utiliza para indicar que no se envían datos para esa sub-banda.
El bloque de 1152 muestras del Layer II se divide en tres bloques de 384 muestras de manera que
puede utilizarse la misma estructura de compresión que en el Layer I. Se mantiene el tamaño de
paso de 2 dB en los factores de escala pero no se transmiten todos los factores de escala porque

contienen redundancia. En la realidad la diferencia entre factores de escala de bloques sucesivos

en la misma banda supera los 2 dB en menos de un 10% del tiempo. El codificador Layer II ana-
liza el conjunto de tres factores de escala sucesivos en cada sub-banda. En un caso estacionario
serían iguales y sólo uno sería transmitido. A medida que un transitorio crece en una sub-banda
será necesario enviar dos o tres factores de escala, Es necesario enviar un código de dos bits,
denominado SCFSI (scale factor select information), para que el decodificador pueda determinar
cuáles de los tres factores de escala han sido enviados en cada sub-banda. Esta técnica divide efi-
cazmente la velocidad de bit del factor de escala.
Del mismo modo que en el Layer I, el proceso de recuantificación siempre utiliza un número
impar de pasos para permitir que uno sea un cero real. Con códigos de longitud de palabras gran-
des esto no es un problema pero cuando se utilizan tres, cinco o nueve intervalos de cuantifica-
ción es ineficiente poruqe no se usan algunas combinaciones. Por ejemplo, cinco intervalos
necesitan un código de tres bits que permiten ocho posibilidades, con lo que tres no se utilizan.
La solución es que cuando se usan tres, cinco o nueve niveles se codifican juntos conjuntos de
tres muestras en un "gránulo". La figura 5.24 muestra el proceso de granulado. Con cinco inter-
valos de cuantificación cada muestra tendría cinco valores diferentes con lo que todas las combi-
naciones posibles de las tres muestras tendrían 125 valores diferentes. Dado que se pueden
codificar 128 valores con un código de 7 bits esta agrupación es más eficaz que codificar las
muestras de forma separada ya que tres códigos de cinco niveles necesitarían nueve bits. Las tres
muestras recuantificadas se utilizan para direccionar una tabla que indica el código de gránulo. El
decodificador puede establecer que se ha utilizado la codificación de gránulo examinando los
datos de localización de bit.
En el codificador En el decodificador
Código 1 Código 1
-2, -1, 0, 1, 2
Código de 8 bits
Tabla de Tabla de
Código 2 consulta consulta Código 2
-2, -1, 0, 1, 2 (Look up) (Look up)
Código 3 Código 3
-2, -1, 0, 1, 2
Total de El Código de 8 bits

5x5x5=125 valores puede tener 128 valores
Figura 5.24 Proceso de granulado.
Las muestras-gránulos recusntificados en cada sub-banda, los datos de localización de bit, los
factores de escala y los códigos de selección de los factores de escala se multiplexan en la cadena
de bits de salida.

La figura 5.25 muestra el decodificador Layer II, que no es mucho más complejo que el Layer I.
La demultiplexación separa las muestras de la información adicional. Los datos de localización
de bit especificarán la longitud de palabra o el tamaño de gránulo utilizado, de manera que el blo-
que de muestras puede desagruparse y los gránulos decodifocados. El selector del factor de
escala se utilizan para decodofocar los factores de escala comprimidos obteniendo un factor de
escala por bloque de 384 muestras. La cuantificación inversa y el filtrado inverso de las sub-ban-
das se realiza igual que en el Layer I.
Datos de
muestras
Decodificador de Cuantización Compensación
gránulo inversa inversa
Entrada
Demux Banco de
Localización filtros
de bit inverso
Factores de escala
Decodificador
Datos de
cadena Salida
Figura 5.25 Decodificador Layer II, algo más complejo que el Layer I debido a la decodificación de los gránulos y de los
factores de escala.
5.8 CODIFICADOR DE AUDIO MPEG LAYER III
El Layer III es el más complejo, y sólo es realmente necesario cuando deben conseguirse las res-
tricciones más severas en la velocidad de datos. Es bien conoida la aplicación del MP3 en la dis-
tribución de música por Internet. Consiste en un código transformado basado en el sistema
ASPEC con algunas modificaciones para obtener cierto grado de compatibilidad con el Layer II.
El codificador ASPEC original utilizaba una MDCT (modified discrete cosine transform) directo
sobre las muestras de entrada. En el Layer III esto se modificó para utilizar una transformada
híbrida que incorpore los 32 filtros polifásicos de los Layer I y II y mantener el tamaño de bloque
de 1152 muestras. En el Layer III las 32 sub-bandas son procesadas por una MDCT críticamente
muestreada.
Las ventanas se superponen de dos a una, y se utilizan dos tamaños de ventana para reducir el
pre-echo en el transitorio. La ventana mayor trabaja con 36 muestras de sub-banda a 24 mseg
sólo a 48 kHz y resuelve para 18 frecuencias diferentes, manejando 576 frecuencias (32 filtros
por 18 frecuencias). Los productos de codificación se extienden a lo largo de este periodo, que es
aceptable en el estacionario, pero no en las cercanías de los transitorios. En este caso la longitud
de la ventana se reduce a 8 mseg. Doce muestras de sub-banda se resuelven en 6 frecuencias dife-
rentes con un total de 192 frecuencias (32 filtros por 6 frecuencias). Esta es la desigualdad de
Heisenberg: al aumentar la resolución temporal en un factor de tres, la resolución en frecuencia
disminuye en el mismo factor.

La figura 5.26 muestras los tipos de ventana posibles. Además de las ventanas simétricas grandes
y cortas, hay un par de ventanas de transición, conocidas como ventanas de inicio y parada, que
permiten transiciones suaves entre las ventanas de tamaños grande y pequeño. Con el fin de utili-
zar un muestreo crítico las MDCTs deben resolver en un conjunto de frecuencias que sea múlti-
plo de cuatro. La conmutación entre 576 y 192 frecuencias permite satisfacer este criterio.
Obsérvese que una ventana de 8 mseg es todavía demasiado grande como para eliminar el pre-
echo, que se eliminará mediante almacenamiento. La utilización de una ventana pequeña mini-
miza el tamaño del búfer necesario.
(a) (c)
(b) (d)
L T S T L
(e)
Figura 5.26 Funciones de ventana del codificador Layer III. (a) Ventana de longitud normal. (b) Ventana corta para el
tratamiento de transitorios. (c) y (d) Utilización de (a) y (b) conmutando entre ellas. (e) Ejemplo de conmu-
tación de ventanas utilizando ventanas de transición.
El codificador Layer III es más complejo que el II y el I principalmente debido a la conmutación

entre las ventanas. En las señales de audio el pre-echo se asocia con la entropía creciendo sobre
el valor medio, hecho que puede utilizarse para conmutar el tamaño de ventana. Se utiliza un
modelo perceptivo ya que tiene la ventaja de la resolución a altas frecuencias que permite dar
forma al nivel de ruido con mayor precisión que con las 32 sub-bandas de los Layers I y II. Aun-
que la MDCT tiene resolución a alta frecuencia, no transporta la fase de la forma de onda de una
forma identificable y por tanto no es útil para discriminar entre entradas tonales y atonales. Por
ello es todavía necesaria una FFT para dirigir el modelo de enmascaramiento, ya que proporciona
datos convencionales sobre la amplitud y la fase.
Se utiliza la cuantificación no uniforme en la que el tamaño del paso de cuantificación es mayor

cuando la magnitud de los coeficientes crece. Los coeficientes cuantificados son seguidamente
sometidos a una codificación de Huffman, que es una técnica en la que los valores de código más
comunes se localizan en las longitudes de palabras más cortas. El Layer III también mantiene
alguna cantidad de memoria de almacenamiento de manera que el pre.echo pueda ser eliminado
durante los picos de entropía a pesar de que la velocidad de salida de los bits sea constante.

La figura 5.27 muestra el codificador Layer III. La salida del filtro de sub-bandas son 32 cadenas
de muestras continuas de banda limitada, que son sometidas a 32 MDCTs paralelos. El tamaño
de la ventana puede conmutarse individualmente en cada sub-banda. La FFT paralela dirige el
modelo de enmascaramiento que decide el tamaño de la ventana y produce el umbral de enmas-
caramiento para los coeficientes cuantificados. El bucle de control de la distorsión itera hasta que
se alcanza la capacidad de datos de salida con la NMR más uniforme.
Entrada 32 576
Banco de Filtros MDCT Cuantizador no Código de Búfer
32 bandas uniforme Huffman
Ocupación del búfer
Conmutador de
ventanas
Salida
Modelo
FFT de 1024 psico- Control de Código de Formato
puntos acu´stico Cuantizador Huffman
Figura 5.27 Codificador Layer III.
En la figura 5.27 puede observarse la conexión entre el búfer y el cuantizador, que permite que
diferentes frames contengan distintas cantidades de datos.
La figura 5.28 muestra como la ocupación del búfer es realimentada hacia el cuantificador.
Durante el estacionario los contenidos del búfer disminuyen intencionadamente. El búfer se
vacía ya que la velocidad de salida es fija pero la de entrada ha sido reducida. Cuando llega un
transitorio los coeficientes grandes pueden manejarse llenando el búfer, evitando que la veloci-
dad de los bits de salida aumente, mientras que también se evita el pre-echo que se produciría si
los coeficientes fuesen fuertemente cuantificados.
Coeficientes
Cuantizador no
uniforme
Tamaño del
paso
Búfer
Entropía
perceptual
Control de
Cuantizador
Ocupación del búfer
Figura 5.28 Codificación de velocidad variable del Layer III.
Para mantener el sincronismo entre el codificador y el decodificador cuando se realiza almacena-

miento, las cabeceras se envían síncronamente. Sin embargo, la posición de la frontera entre los
bloques de datos principales que llevan los coeficientes pueden variar respecto la posición de las

cabeceras para permitir un tamaño de estructura variable. La figura 5.29 muestra cómo el sistema
comienza con un único patrón de sincronismo que es seguido de la información. La información
contiene un parámetro denominado "comienzo del los datos principales" que especifica dónde
empiezan los datos principales de la actual estructura. Este parámetro permite que el decodifica-
dor encuentre el bloque de coeficientes en el búfer del decodificador. Como las cabeceras de la
estructura se mantienen en localizaciones fijas, los bloques de datos principales pueden ser inter-
pretados por las cabeceras.
Reloj del frame
Síncronismo Síncronismo Síncronismo Síncronismo
1 Info 1 2 Info 2 3 Info 3 4 Info 4

lado lado lado lado
1 2 3 4
Figura 5.29 Patrón de sincronismo e información en el Layer III.
Como puede observarse en la figura 5.29, en el Layer III la velocidad de frame es constante y se
transmite con patrones de sincronismo igualmente espaciados. Los bloques de datos no necesitan
coincidir con el sincronismo. Un puntero después de cada patrón de sincronismo especifica
dónde comienzan los bloques de datos. En el ejemplo de la figura 5.29 el bloque 2 es el menor y
el 1 y el 3 son más grandes.
5.9 MPEG-2 AAC- ADVANCED AUDIO CODING
El siguiente sistema estándar MPEG desarrolló un sistema realzado conocido como AAC. Se
intentó que fuera un estándar que desarrollase las especificaciones más altas posibles utilizando
nuevas herramientas desarrolladas que no podrían ser compatibles con los anteriores codificado-
res. El codificador AAC es el base fundamental del codificador de audio del MPEG-4.
El codificador AAC soporta hasta 48 canales de audio con soporte por defecto monofónico, esté-
reo y canales 5.1 (3/2). El concepto de AAC se basa en un número de herramientas de codifica-
ción conocidas, estructuradas como módulos que pueden combinarse de diferentes formas para
producir cadenas de bits con tres prefiles diferentes.
El perfil principal necesita el codificador más complejo y utiliza todas las herramientas de codifi-
cación. El perfil de baja complejidad (LC) omite algunas herramientas y restringe la potencia de
otras para reducir los requerimientos de capacidad de procesamiento y memoria. Las herramien-

tas restantes en el perfil LC son iguales a las del perfil principal de modo que un decodificador de
nivel principal puede decodificar una cadena de bits de perfil LC.
El perfil de velocidad de muestreo variable (SSR, scaleable sampling rate) divide la entrada de
audio en cuatro bandas de frecuencia iguales, y cada una se traduce en una cadena de bits auto-
contenida. Un decodificador sencillo puede decodificar sólo una, dos o tres de ellas para producir
una salida de ancho de banda reducido. No todas las herramientas de AAC están disponibles en
el perfil SSR.
La mayor complejidad de AAC permite la introducción de herramientas de codificación que per-

miten una velocidad de bit menor con una calidad igual o calidad superior para una velocidad de
bits dada. Se presta una mayor atención a la relación entre la precisión del dominio temporal y el
frecuencial en el sistema del oído humano.
La figura 5.30 muestra el diagrama de bloques del perfil principal del AAC. El camino de la
señal de audio es recto a través del centro. El formateador ensambla cualquier cadena de datos
con los datos de audio codificados para producir una cadena de bits adecuada. La señal de
entrada pasa al banco de filtros y al modelo perceptual en paralelo. El banco de filtros consiste en
una MDCT muestreada críticamente al 50% que puede ser conmutada entre longitudes de blo-
ques de 2048 y 256 muestras. A 48 kHz el filtro permite una resolución de 23 Hz y 21 mseg o
187 Hz y 2.6 mseg. La señal se dirige de izquierda a derecha y la cadena de datos en vertical.
Figura 5.30 Diagrama de bloques del perfil principal del AAC
Como el AAC es un sistema de codificación multicanal la conmutación en la longitud de los blo-

ques no puede realizarse de forma indiscriminada ya que produciría una pérdida de la fase entre
canales. Por ello, si se selecciona bloques cortos el codificador permanecerá en el modo de blo-
que corto para múltiplos enteros de ocho bloques. Este hecho se ilustra en la figura 5.31 que tam-
bién muestra el uso de las ventanas de transición entre los tamaños de los bloques de la misma
forma que en el Layer III.

8 bloques
cortos
Bloque de Transición Bloque de Transición
Longitud igual a 3 bloques largos
Figura 5.31 Bloques cortos en ACC
Los bloques cortos en ACC deben utilizarse en múltiplos de 8 con el fin de que la fase del bloque
grande no se distorsione. Esto permite mantener el sincronismo de bloque en sistemas multica-
nal.
La forma de la función de ventana interfiere con la frecuencia del MDCT. En el AAC es posible
seleccionar una ventana sinusiodal o una ventana Kaiser-Bessel derivada (KBD), como función
del espectro de la entrada de audio. Estas ventanas permiten diferentes compromisos entre ancho
de banda y velocidad. La ventana KBD actúa más tarde pero es más abrupto y por tanto presenta
un mejor rechazo a frecuencias mayores de aproximadamente 200 Hz, mientras que la ventana
sinusoidal actúa antes pero es menos abrupta y por ello presenta un mejor rechazo a frecuencias
menores de 70 Hz.
(a) (c)
T T
Tiempo Tiempo
D red
ifí e
ec e
p
e d il d
ci c
ir
l d ir
p r ác
e
Frecuencia Frecuencia
(b) F (d) F
Figura 5.32 Dualidad de la transformada.
Tras el banco de filtros se encuentra el módulo de predicción intra bloques. Cuando está habili-
tado este módulo encuentra redundancias entre los coeficientes de un bloque transformado.
Recuérdese la dualidad de los dominios temporal y frecuencial. La figura 5.32 muestra que en el
dominio temporal la codificación predictiva opera bien sobre señales estacionarias pero falla con

los transitorios. La dualidad en el dominio de la frecuencia consiste en que en este dominio la

codificación predictiva opera bien sobre señales transitorias pero falla con los estacionarios.
La dualidad de la transformada sugiere que la predicibilidad también tendrá una característica

dual. Un predictor en eldominio temporal no anticipará el transitorios de la señal mostrada en la
figura 5.32.a mientras que el amplio espectro de esta señal, mostrado en la figura 5.32.b sería de
tratamiento sencillo para un predicitor en el dominio de la frecuencia, avanzando hacia los valo-
res menores del eje frecuencial. En el caso contrario, la señal estacionaria mostrada en la figura
5.32.c es fácilmente tratable en el dominio temporal, mientras que su espectro, mostrado en la
figura 5.32.d no sería fácil en absoluto. De hecho, el pico del espectro no sería predicho. Para
aquellos lectores formados en el tratamiento digital de señales, es importante reseñar que esto no
es más que una consecuencia directa del teorema de convolución.
Del mismo modo un codificador predictivo operando en el dominio temporal produce un espec-
tro de error relacionado con el espectro de entrada. La dualidad de esta característica implica que
un codificador predictivo en el dominio de la frecuencia produce un error de predicción que está
relacionado con la entrada en el dominio temporal. Esto explica el uso de los términos modelado
temporal del ruido TNS (temporal noise shaping) utilizada en la documentación AAC. Cuando se
utiliza durante los transitorios, el modulo TNS produce distorsión que es alineada temporalmente
con la entrada tal que se evita el pre-eco. La utilización de TNS también permite que el codifica-
dor utilice bloques más grandes la mayoría del tiempo. Este módulo es en gran medida responsa-
ble del aumento de las prestaciones del AAC.
La figura 5.33 muestra que los coeficientes en los bloques transformados son dispuestos en serie
por un conmutador. Esto puede realizarse desde la frecuencia más baja a la más alta o al revés.
Este método de predicción es un predictor hacia delante convencional en el que se utiliza el resul-
tado de filtrar un número dado de coeficientes (20 en el perfil principal) para predecir el coefi-
ciente actual. El valor predicho se resta del valor real para producir un error de predicción, o
residuo, que es transmitido. Un predictor igual produce en el decodificador la misma predicción
a partir de los coeficientes iniciales y el error en este caso es cancelado sumando el residuo.
Predictor
-
+ Error de predicción
Coeficientes de un bloque Bloque de errores de predicción
Figura 5.33 Conmutador de los coeficientes en los bloques transformados para disponnerlos en serie.

La figura 5.33 muestra cómo la predicción a lo largo del eje frecuencial se realiza utilizando los
coeficientes a lo largo de un bloque e intentando predecir el valor del coeficiente actual a partir
de los valores de algunos anteriores. El error de predicción se transmite.
Seguido al bloque de predicción se encuentra un modulo opcional denominado etapa de intensi-

dad-acoplo. Se utiliza para velocidades de bit muy bajas en las que la información espacial en los
formatos estéreo y sonido envolvente se descarta para mantener bajo el nivel de distorsión. Al
menos sobre parte del espectro una señal mono se transmite con códigos de amplitud que permi-
ten que la señal sea repartida en el dominio espacial en el decodificador.
La siguiente etapa es el modulo de predicción inter-bloques. Mientras que el predictor intra-blo-

ques es muy útil sobre los transitorios el predictor inter bloques explora las redundancias entre
bloques sucesivos en las señales en estacionario. Esta predicción sólo opera sobre coeficientes
por debajo de los 16 kHz. Para cada coeficiente DCT en un bloque dado el predictor utiliza los
coeficientes cuantificados a partir de las mismas localizaciones en dos bloques previos para esti-
mar el valor actual. Como antes la predicción se resta para producir un residuo que se transmite.
Obsérvese que es necesario el uso de los coeficientes cuantificados para dirigir al predictor, por-
que esto será lo que el decodificador tendrá que hacer. El predictivo es adaptativo y calcula sus
propios coeficientes a partir de la historia de la señal. El decodificador utiliza el mismo algoritmo
tal que los dos predictores siempre ajusten.
Los coeficientes de audio están asociados en conjuntos, denominados bandas de factor de escala,
para posterior compresión. Dentro de cada banda de factores de escala la predicción inter-bloque
puede activarse o desactivarse dependiendo de si se da una codificación de ganancia.
El uso prolongado de la predicción hace que el decodificador reparta los errores de bits y elimi-
nen puntos de la cadena de bits. Por ello el proceso de predicción es inicializado cíclicamente.
Los predictores se ensamblan en grupos de 30 y después se inicializa cierto número de estructu-
ras de un grupo diferente hasta que todas hayan sido inicializados. Los códigos de inicialización
de los predictores se transmiten en los datos. También se inicializará si se seleccionan estructuras
cortas.
En formato estéreo y envolvente 3/2 hay menos redundancia porque las señales también trans-
portan información espacial. El efecto del enmascaramiento puede ser hasta 20 dB menor cuando
los productos de distorsión están en diferentes localizaciones en la imagen estéreo. Por ello las
señales estéreo necesitan una velocidad de bit mucho mayor que dos canales mono, particular-
mente sobre los transitorios que son muy ricos en indicaciones espaciales.
En algunos casos pueden obtenerse mejores resultados convirtiendo la señal a un formato medio-
lateral (MS mid/side) o suma-diferencia antes de la cuantificación. En sonido envolvente la codi-
ficación MS puede aplicarse a los pares frontal L/R (izquierdo/derecho) y trasero L/R.
Seguidamente aparece la etapa en la que la distorsión es introducida selectivamente como fun-

ción de la frecuencia tal como se determinó por el umbral de enmascaramiento. Esto se realiza

mediante de una combinación de amplificación y recuantificación. Los coeficientes o residuos se

agrupan en bandas de factores de escala. La figura 5.34 muestra como el número de coeficientes
varía con el fin de dividir los coeficientes en bandas críticas aproximadas. Dentro de la banda de
factores de escala todos los coeficientes se multiplicarán por el mismo factor de escala antes de
recuantificar. Por tanto, en ACC los coeficientes de resolución fina se agrupan para formar ban-
das de factores de escala. El tamaño de estas bandas varía.
100
Anchura de las bandas de factores de escala

80
60
40
20
0
1 10 20 30 40 49
Número de bandas de factores de escala
Figura 5.34 Variación del número de coeficientes
Los coeficientes que hayan sido multiplicados por un factor de escala grande sufrirá menos de
distorsión mediante la recuantificación mientras que los que hayan sido multiplicados por un fac-
tor de escala pequeño tendrán más distorsión. Los factores de escala permiten control de ganan-
cia en pasos de 1.5 dB sobre un rango dinámico equivalente a un PCM de 24 bits, y son
transmitidos como parte de los datos de manera que el decodificador puede reconstruir las mag-
nitudes correctas. Los factores de escala son codificados de manera diferente al primero del blo-
que y las diferencias son codificadas mediante un código de Huffman.
La recuantificación utiliza pasos no uniformes que dan una menor codificación de ganancia y
tiene un rango de 8191. El tamaño de paso global, es decir el que se aplica a todas las bandas de
factores de escala, puede ajustarse a 1.5 dB pasos Tras la recuantificación los coeficientes son
codificados mediante un código de Huffman.
Hay muchas maneras en las que puede controlarse el codificador y cualquiera que produzca una
cadena de bits adecuada es válida aunque no se alcancen las especificaciones más exigentes. Es
necesario controlar las etapas de recuantificación y de factor de escala para hacer un mejor uso
de las velocidades de bit y del almacenamiento disponibles. Esto no es trivial porque la utiliza-
ción de la codificación de Huffman después de recuantificar hace imposible predecir la cantidad
de datos que resultará de un tamaño de etapa dado. Esto significa que deben iterarse los procesos.

Cuando se selecciona una velocidad de bit un buen codificador producirá calidad consistente con
ella seleccionando los tamaños de ventana, la predicción intra e intersistemas y la utilización del
almacenamiento para tratar los picos de entropía. Esto sugiere una conexión entre la ocupación
del búfer y el sistema de control. El modelo analizará la entropía del audio entrante y durante los
periodos de entropía promedio vaciará el búfer mediante un leve aumento del tamaño de paso de
cuantificación de manera que disminuya la velocidad de bit entrante. Al descargar el búfer el
codificador puede soportar temporalmente una velocidad de bit mayor para manejar transitorios
o material difícil.
El proceso de factor de escala se controla tal que el espectro de la distorsión tenga la misma
forma que el umbral de enmascaramiento y el tamaño del paso de cuantificación es controlado
para hacer que el nivel del espectro de distorsión sea tan bajo como sea posible dentro de la velo-
cidad de bit permitida. Si la velocidad de bit permitida es suficientemente alta los productos de
distorsión se enmascararán.
5.10 DOLBY AC-3
De hecho, el sistema Dolby AC-3 es una familia de codificadores basados en la cancelación del
aliasign en el dominio temporal, TDAC. Permite varios compromisos entre retardo de codifica-
ción y velocidad de bit. En la MDCT se utilizan ventanas con el 50% de superposición. Por ello
se utiliza un gran número de coeficientes, que son submuestreados por un factor de dos para pro-
ducir una transformada críticamente muestreada, que producirá un potencial aliasing en el domi-
nio de la frecuencia. Sin embargo, realizando un pequeño cambio en la transformada, los alias de
la segunda mitad de una ventana determinada serán iguales en tamaño pero de polaridad opuesta
a los alias de la primera mitad de la siguiente ventana, y por tanto será cancelada en la recons-
trucción. Este es el principio del TDAC.
La figura 5.35 muestra el diagrama de bloques del codificador AC-3. La entrada de audio se
divide en bloques de 512 muestras superpuestos al 50%. Estas muestras se someten a una trans-
formación TDAC que utiliza alternativamente transformadas seno y coseno. Las transformadas
producen 512 coeficientes por bloque pero hay redundancia, y cuando se eliminan las redundan-
cias quedan 256 coeficientes por bloque. La forma de onda de entrada se analiza constantemente
para determinar la presencia de transitorios, y si se dan entonces la longitud de bloque se divide
para prevenir el pre-ruido. Esto divide la resolución en frecuencia pero duplica la resolución tem-
poral.

Entrada de
Audio
PCM Ventanas de
superposición Coeficientes de Coeficientes de
la transformada la transformada
comprimidos cuantizados
Cuantizador
Adaptativo
Compresor
Salida Audio
punto
Codificada
MDCT/ flotante Multiplexor
MDST de bloque
subbanda Envolvente
espectral Localización Codificación
Dinámica de de
bit Exponentes
Figura 5.35 Diagrama de bloques del codificador Dolby AC-3.
Los coeficientes tienen resolución a alta frecuencia y se combinan selectivamente en subbandas

que aproximan las bandas críticas. Los coeficientes de cada sub-banda se normalizan y se expre-
san en notación de punto flotante con exponente común. De hecho los coeficientes representan la
envolvente espectral logarítmica de la señal y puede utilizarse para obtener los modelos que rea-
lizan la localización de bit. Entonces se recuantifica la mantisa de los coeficientes de acuerdo con
el bit localizado.
La cadena de bits de salida consta de los coeficientes recuantificados y de la envolvente espectral

en la forma de los exponentes, en los que se produce gran cantidad de redundancia. En cualquier
bloque sólo se transmite completamente el primer exponente, que corresponde al de la menor fre-
cuencia. Los demás coeficientes se transmiten de forma diferencia. Cuando la entrada tiene un
espectro suave los coeficientes de varias bandas serán los mismos y las diferencias cero. En este
caso los exponentes se pueden agrupar utilizando banderas.
Por otro lado, también se utiliza la redundancia temporal. El esquema de sincronismo en el AC-3
utiliza seis bloques. El primero contiene datos absolutos de exponente pero cuando se encuentran
estacionarios de audio los bloques sucesivos pueden utilizar los mismos exponentes.
El receptor utiliza la envolvente espectral para desserializar la mantisa de los coeficientes en lon-
gitudes de palabras correctas. Los exponentes altamente redundantes se decodifican comenzando
con los coeficientes de menor frecuencia en el primer bloque y sumando las diferencias para
crear los restantes. Seguidamente se utilizan los exponentes para convertir los coeficientes a la
notación de punto fijo. Por último se calculan las transformadas inversas seguidas por una super-
posición de las ventanas con el fin de obtener los datos PCM.
5.11 AUDIO MPEG-4
La codificación de audio MPEG-4 aumenta en complejidad de manera análoga a la de codifica-

ción de vídeo. De la misma forma que la codificación de vídeo MPEG-4 se ha dirigido hacia los
objetos, el MPEG-4 introduce el audio estructurado, en el que la síntesis de audio tiene lugar en

el decodificador, colocando esta técnica en la esfera de los sistemas interactivos y de realidad vir-
tual. En este sentido los formatos previos deben entenderse como de sonido natural, es decir,
aquellos que pueden ser obtenidos con un micrófono. MPEG-4 soporta bien este tipo de sonido
mediante el desarrollo de AAC que se describe seguidamente.
De la misma manera que en la codificación de vídeo, la de audio MPEG-4 puede basarse en obje-
tos. Por ejemplo, en lugar de codificar las formas de onda de un mezclador estéreo, cada fuente
de sonido del mezclador puede considerarse un objeto de sonido que se codifica individualmente.
En el decodificador, se suministra cada objeto de sonido a la etapa de composición en la que
repartirá y mezclará con otros objetos. Cuando la fuente de audio es sintética o se dispone de una
mezcla de pistas naturales puede utilizarse directamente la codificación de objetos. También es
posible definir instrumentos virtuales en el decodificador y hacer que cada uno reproduzca trans-
mitiendo una indicación apropiada.
También soporta bien la codificación de voz. La voz natural puede codificarse a velocidades de
bits muy bajas y el fin es la inteligibilidad del mensaje, más bien que la fidelidad. Esto puede rea-
lizarse con varias herramientas, como por ejemplo HVXC (Harminic Vector eXcitation Coding)
o CELP (Code Excited Linear Prediction). MPEG-4 ha estandarizado la transmisión de la infor-
mación de voz en el denominado IPA (International Phonetic Alphabet).
5.12 MPEG-4 AAC
MPEG-4 extiende las herramientas de codificación MPEG-2 AAC. Las mejoras fundamentales
son la sustitución de ruido perceptual, PNS (Perceptual noise substitution) y la cuantización vec-
torial. Todos los esquemas de codificación tienen dificultades con el tratamiento del ruido porque
no contiene redundancias. El audio real puede incorporar cierta cantidad de ruido de decodifica-
ción en decodificación, con lo que tradicionalmente se ha requerido una velocidad de bit alta para
evitar efectos no deseados.
Sin embargo, se ha observado experimentalmente que bajo ciertas circunstancias el oyente no es

capaz de distinguir entre la forma de onda original parecida al ruido típico y la generada en el
decodificador. Esta es la idea básica que explota la PNS. En lugar de intentar codificar una
secuencia de ruido difícil, la PNS transmitirá la amplitud del ruido y el decodificador lo creará.
El sistema PNS se selecciona en el decodificador si sobre cierto rango no hay un tono dominante
y las formas de onda en el dominio temporal permanecen estables, es decir, no hay transitorios.
En los sistemas que utilizan codificación de Huffman los símbolos que describen los coeficientes
para cada frecuencia se sustituirán por un indicador (flag) PNS. Los coeficientes desaparecidos
se obtendrán en el decodificador de forma aleatoria. La amplitud del ruido se codifica en pasos
de 1.5 db.

En las aplicaciones estéreo, en las que se utiliza PNS al mismo tiempo y para la misma frecuen-
cia en ambos canales, el proceso aleatorio en cada canal será diferente con el fin de evitar la crea-
ción de objeto de ruido.
En MPEG-2 AAC los coeficientes o sus residuos se cuantifican de acuerdo con el sistema de
localización de bits, y entonces se codifican con el código de Huffman. A velocidades de bits
bajas la fuerte cuantificación tendrá como consecuencia que aparezcan errores en algunos coefi-
cientes. A velocidades de bits por debajo de los 16 kbits/seg por canal se utiliza un esquema de
codificación alternativo conocido como TwinVQ (Transform Domain Weigthed Interleaved
Vector Quantization). La cuantificación vectorial, también conocida como cuantificación de blo-
ques, utiliza bloques en lugar de coeficientes individuales, de manera que cada símbolo transmi-
tido representa el estado de cierto número de coeficientes. En un sistema sin pérdidas un símbolo
necesitaría tantos bits como el resultado de la suma de los coeficientes que deben codificarse. En
la práctica el símbolo tiene muchos menos bits por la cuantificación, con los errores propios a la
misma. El codificador seleccionará un símbolo tal que minimice el error.
La minimización del error se refuerza mediante el entrelazado que se realiza en el decodificador,

tras el cual los coeficientes adyacentes en el espacio de la frecuencia se encuentran en diferentes
bloques. Después de desentrelazar en el decodificador es necesario reasignar los coeficientes a
sus frecuencias correctas. En la técnica TwinVQ los símbolos transmitidos tienen longitud de
palabra constante debido a que la tabla de vectores tiene un tamaño fijo para una velocidad de bit
dada. Los símbolos de tamaño constante tienen la ventaja en presencia de errores en los bits ya
que es más fácil mantener la sincronización.
5.13 COMPRESIÓN EN ESTÉREO Y SONIDO ENVOLVENTE
Es evidente que los dispositivos de reproducción de audio actuales son mayoritariamente de

audio digital, incluso en la electrónica de consumo, debido a que el hardware tiene bajo coste.
Además, cuando el sonido PCM está correctamente digitalizado produce un deterioro en la cali-
dad del sonido tan pequeño que son despreciables frente a los debidos a las partes analógicas que
permanecen en los sistemas. La única excepción seria a este hecho es la compresión con pérdidas
en la que no se mantiene la forma de onda original y debe ser cuidadosamente tratada antes de
utilizarse en aplicaciones de calidad alta.
En un sistema monofónico todos los sistemas se emiten a partir de un único punto y el se produce
enmascaramiento psicoacústico de forma muy extendida. La clase de técnicas de compresión de
audio como las analizadas anteriormente funcionan bien en sistemas mono. Sin embargo, las
aplicaciones estereofónicas, incluyendo en este contexto los sistemas de sonido envolvente, utili-
zan un criterio diferente. Además de la información timbral que describe la naturaleza de la
fuente de sonido los estereofónicos también contienen información espacial para describir su
localización. El problema fundamental es que en los sistemas estereofónicos el enmascaramiento
no es tan eficaz. Cuando dos fuentes de sonido se encuentran en localizaciones físicamente dife-

rentes el grado de enmascaramiento no es tan grande como cuando están en el mismo sitio.
Lamentablemente todos los modelos de enmascaramiento utilizados en los compresores clásicos
asumen que las fuentes están en el mismo lugar. Este hecho fue puesto de manifiesto por Michael
Gerzon que introdujo el término "unmasking" para describir este hecho.
El sistema auditivo humano tiene la habilidad de concentrarse en una de muchas fuentes de

sonido simultáneas basándose en la dirección. El cerebro parece que es capaz de insertar un
retardo de tiempo controlable en las señales nerviosas de un oído con respecto al otro de forma
que cuando el sonido llega de una dirección dada las señales nerviosas de ambos oídos son cohe-
rentes, causando que el umbral auditivo estéreo sea de 3 a 6 dB, en lugar de los alrededor de 4
KHz del mono. Los sonidos que llegan de otras direcciones son incoherentes y se escuchan
menos bien. Este hecho se conoce como selectividad de la atención.
La audición humana puede localizar varias fuentes de sonido simultáneamente comparando

constantemente los patrones de excitación a partir de los dos oídos con retardos diferentes. Se
encontrará una fuerte correlación cuando el retardo corresponda al retardo entre los oídos para
una fuente dada. Este mecanismo de retardo variable requiere cierto tiempo, por lo que el oído
reacciona lentamente ante cambios en la dirección de la fuente. Las fuentes oscilantes pueden
seguirse sólo por encima de 2 o 3 Hz y la habilidad para localizar estallidos de ruidos mejora
cuando la duración del estallido está por encima de los 700 milisegundos.
Los sistemas mono evitan estos efectos completamente porque la primera versión de todos los
sonidos alcanzados por el oyente provienen del mismo altavoz. Los sistemas estereofónicos per-
miten selectividad atencional de forma que el oyente puede concentrar sobre diferentes fuentes
de sonido determinadas. Cuando dos fuentes de sonido están separadas espacialmente, si se uti-
liza este mecanismo para concentrar el sonido en una de ellas las contribuciones de ambos oídos
estarán correlacionadas. Esto implica que las contribuciones de los otros altavoces no están
correlacionadas, reduciendo la capacidad de enmascaramiento considerablemente. Experimental-
mente se observa claramente que el sistema estéreo más pobre es mejor que el mejor sistema
mono. Esto es debido a que estamos acostumbrados a sonidos y reverberaciones que provienen
de diferentes direcciones, y todos ellos sobrepuestos en un sistema mono no son convincentes,
aunque la forma de onda sea muy aproximada.
En la realidad el entorno del sistema auditivo está lleno de reflexiones de sonido. Si los oídos
pudieran separar cada una de las reflexiones en una sala reverberante entonces sólo se escucharía
una confusa cacofonía. En la práctica se escucha muy bien en entornos reverberantes envolven-
tes, mucho mejor de lo que un micrófono puede captar. Esto se debe a la transformada natural del
oído y a la manera en la que el cerebro procesa las señales nerviosas. El oído tiene una capacidad
limitada para la discriminación de frecuencias en forma de bandas críticas, y también en la discri-
minación temporal. Cuando dos o más versiones de un sonido llegan al oído en un intervalo de
unos 30 milisegundos, no serán tratados separadamente pero se unirán en un único sonido. Sólo
cuando la separación temporal es de 50 o 60 milisegundos los sonidos aparecen como ecos pro-

venientes de diferentes direcciones. En los entornos reverberantes la mayoría de las reflexiones

no afectan a la habilidad para localizar la fuente de sonido. Evidentemente la primera versión de
un sonido que llega al oído es aquella que se dirige por el camino más corto, que en general es la
que proviene directamente más que la de la reflexión.
Como consecuencia el oído se ha desarrollado para determinar la dirección de la fuente a partir

del tiempo transcurrido entre la llegada de la primera versión de un transitorio a un oído y al otro.
La intensidad estéreo el tipo de señal obtenida con micrófonos o coincidentes opera únicamente
en función de las dos amplitudes en los dos altavoces. Las dos señales estarán exactamente en
fase. Como ambos oídos escuchan los dos altavoces el espacio entre los estos y los oídos con-
vierte la diferencia de intensidades en diferencia de tiempo de llegada, dando la sensación de
fuentes de sonido virtuales.
Una fuente de sonido virtual prodecente de un punto de emisión tiene anchura cero, es un punto
ideal, y sobre un altavoz también ideal aparecería como una fuente puntual virtual. La figura
5.36.a muestra cómo un punto de emisión puro sin mezcla (mezcla “seca”) aparecería de forma
igualmente espaciada sobre unos altavoces ideales, mientras que la figura 5.36.b muestra lo que
sucede cuando se añade una reverberación estéreo artificial. Esta figura 5.36 también es la que se
obtiene con fuentes reales utilizando un par coincidente de mezcladores de alta calidad.
Cuando se escucha el sonido emitido por unos altavoces de alta calidad la compresión de audio
cambia las características de la figura 5.36.b a la que se muestra en la figura 5.36.c. Incluso para
velocidades de bit altas, es decir, con la compresión más pequeña, se observa una diferencia
audible entre el resultado original y la comprimida. Las fuentes de sonido dominantes se repro-
ducen con bastante exactitud, pero lo que más llamativo es que el ambiente y la reverberación se
reduce dramáticamente, o incluso está ausente, haciendo que el sonido decodificado sea mucho
más seco, menos cálido, que el original. También se observa que la velocidad de decaimiento de
la reverberación se acelera, tal y como muestra la figura 5.36.d.
Estos efectos se perciben porque la reverberación existe unos niveles relativamente bajos. El
codificador supondrá que es inaudible debido al enmascaramiento y lo elimina o atenúa. El
efecto es aparentemente el mismo en los codificadores MPEG Layer II y Dolby AC-3 incluso
aunque su funcionamiento interno es bastante diferente. Esto no debe sorprender porque ambos
se basarán en el mismo modelo psicoacústico de enmascaramiento.
El MPEG Layer III funciona bastante mal en estéreo porque la velocidad de bit es menor. Los
transitorios tienen un efecto peculiar por el que el sonido ambiente vendría e iría de acuerdo con
la entropía de una fuente dominante. Una nota de percusión estrecharía la etapa de sonido y apa-
recería poco cálida, pero seguidamente de la reverberación lo volvería.

Altavoz Altavoz
Izquierdo derecho
a)
Mezcla seca
de fuentes puntuales
Altavoz Altavoz
Izquierdo derecho
b)
Reverberación y sonido ambiente

entre las fuentes principales
Altavoz Altavoz
Izquierdo derecho
c)
Pérdida del sonido ambiente

después de la reducción
de la velocidad de bit
Nivel
Caída natural
de la reverberación
d)
Tiempo
Caída prematura
de la reverberación
Figura 5.36 Disminución de la eficacia de la compresión en sistemas estéreo. (a) Resultado espacial de una mezcla sin
reverberación de un punto de emisión. (b) Resultado después de reverberaciones artificiales que también
se obtienen en una grabación acústica con mezcladores coincidentes. (c) Reducción o ausencia del sonido
ambiente y de las reverberaciones. (d) Las reverberaciones también pueden disminuor prematuramente.

Estos efectos no son sutiles y no requieren una capacidad auditiva especial para observarlos. Pero
todos ellos desaparecen cuando las señales que van a los altavoces se suman para formar mono,
ya que este evita la sensibilidad atencional y el no enmascaramiento no puede suceder. La obser-
vación de los anteriores efectos no deseados es mucho más difícil si los altavoces son de baja
calidad. Los altavoces son parte de la cadena de comunicación y disponen de unas capacidades
tanto timbrales es como espaciales. Si la calidad de los altavoces es baja pueden eliminar gran
parte de la información a partir de la señal que el compresor y la codificación precedentes no
hayan eliminado.
Los efectos anteriores permiten que el oyente localice la fuente de un sonido mediante la concen-
tración en la primera versión del sonido y el rechazo a las siguientes. Las versiones que puedan
llegar de cualquier lugar simplemente se suman a la intensidad percibida pero no cambian la per-
cepción de la localización de la fuente. Los efectos descritos anteriormente sólo permiten el
rechazo de sonidos reverberantes que llegan después del retardo entre oídos. Cuando las reflexio-
nes llegan dentro del intervalo de tiempo de retardo, que es de alrededor de 700 microsegundos,
los efectos anteriores dejan de funcionar y la dirección percibida puede disiparse a partir de que
llega la primera fuente debido a un incremento en el nivel. La figura 5.37muestra esta región,
conocida como región de traspaso (trading region). En ella el traspaso de intensidad temporal
sucede dentro del retardo entre oídos.
Diferencia de 14 Siempre hacia

Nivel (db) Región de traspaso sonidos anteriores
12
10
8 Hacia sonidos
más fuertes
6
2
Hacia sonidos
anteriores
0 0.2 0.4 0.6 0.8

Retardo (ms)
Figura 5.37 Región de traspaso.
Una vez que se supera el retardo máximo entre los oídos el mecanismo de audición sabe que la
diferencia de tiempo tiene que deberse a la reverberación. Desgraciadamente los altavoces rec-
tangulares clásicos con caras planas y esquinas abruptas provocan reflexiones con retardos del
orden de 700 microsegundos. Las discontinuidades entre los paneles provocan cambios de impe-
dancia que actúan como reflectores acústicos. Los altavoces se convierten en fuentes múltiples
produciendo una secuencia de señales dentro de la intensidad temporal y en lugar de actuar como
una fuente puntual los altavoces actúan como una fuente distribuida.

La figura 5.38 muestra que cuando los altavoces actúan como una fuente distribuida, no pueden
crear una imagen puntual. Se produce un efecto denominado smear (emborronamiento). Obsér-
vese que las fuentes puntuales han aumentado tal que prácticamente no hay gaps entre ellos,
enmascarando el ambiente de forma efectiva. Si un compresor lo elimina, el efecto no puede
escucharse. Puede suponerse erróneamente que el compresor es transparente cuando de hecho no
lo es.
Altavoz Izquierdo Altavoz Derecho

Imagen borrosa
Fuente Distribuida
Figura 5.38 Altavoz que actúa como una fuente distribuida. No puede producir una imagen estéreo puntual, sólo una
extensión espacial o una imagen borrosa.


Compresion de Audio PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Compresion de Audio PDF

Cargado por

Copyright:

Formatos disponibles

TEMA 5

Los métodos de compresión de audio más eficientes se basan en la eliminación de datos

5.2 Tecnología de los Contenidos Multimedia

El enmascaramiento está definido por la Asociación Americana de Normalización (ASA) como:

El término fue acuñado en estudios de la visión humana, significando el defecto o imposibilidad

Figura 5.1 Umbral de audición en el silencio.

Tecnología de los Contenidos Multimedia 5.3

Enmascaramiento frecuencial. Para explicar el fenómeno de enmascaramiento en frecuencia (o

una persona en una habitación en silencio; luego se va incrementando la intensidad de un tono de

Todos los puntos debajo de la curva corresponden a diferentes combinaciones de frecuencias e

Figura 5.2 Enmascarado por un tono de 4 Khz

Enmascarado temporal. El enmascarado temporal (o temporal masking) está vinculado con la

5.4 Tecnología de los Contenidos Multimedia

Se detiene el tono enmascarador y, luego de un pequeño retardo, se detiene el tono de prueba. Se

0 5 10 20 50 100 200 500

Figura 5.3 Enmascaramiento Temporal

Tecnología de los Contenidos Multimedia 5.5

Figura 5.4 Efecto total del enmascarado frecuencial y temporal.

Como se mencionó anteriormente, existen en la actualidad numerosas implementaciones distin-

5.6 Tecnología de los Contenidos Multimedia

A pesar de que la compresión MPEG se ajusta perfectamente a aplicaciones de audio solamente,

El estándar MPEG es rígido solamente cuando es necesario asegurar la interoperabilidad entre

Tecnología de los Contenidos Multimedia 5.7

1.- Modo monofónico: un solo canal de audio.

5.8 Tecnología de los Contenidos Multimedia

5.2 CODIFICADOR MPEG

Un codificador MPEG, es un codificador del tipo perceptual; es decir, su principio de funciona-

Entrada de audio Banco de Cuantización Formateo del Bitsream

Figura 5.5 Diagrama en bloques de un codificador MPEG-1.

Tecnología de los Contenidos Multimedia 5.9

• Banco de filtros (filterbank):

El banco de filtros (filterbank) es un componente fundamental del codificador MPEG-1 y común

El modelo psicoacústico de un codificador MPEG-1 es un modelo matemático del comporta-

En definitiva, el bloque analiza el audio original en base a principios psicoacústicos y determina

MNRdB = SNRdB - SMRdB

MNRdB: es la Relación Enmascaramiento-Ruido, Mask to Noise Ratio

5.10 Tecnología de los Contenidos Multimedia

Figura 5.6 Esquema alternativo de un codificador MPEG-1.

• Codificador MPEG-1, Layer 1, 2 y 3:

Aunque el principio básico de funcionamiento de un codificador MPEG-1 es siempre el mismo;

Tecnología de los Contenidos Multimedia 5.11

Figura 5.7 Diagrama en bloques de un decodificador MPEG-1.

Figura 5.8 Diagrama alternativo de un decodificador MPEG-1.

5.12 Tecnología de los Contenidos Multimedia

Poco tiempo después de la introducción de la Norma ISO/IEC-11172-3, el comité MPEG publicó

5.3 FORMATOS DE ARCHIVO DE SONIDO DIGITAL:

Aplicación Tamaño de archivo

Tabla 5.1 Principales formatos de sonido digital

Tecnología de los Contenidos Multimedia 5.13

a) Frecuencia de muestreo: Es la cantidad de muestras de sonido capturadas en cada segundo. Su

En general son dos los tipos fundamentales de archivos digitales de audio:

Formato del fichero de Extensión del

Tabla 5.2 Archivos de audio comprimido y sus estándares.

Capa (Layer) Compresión Transferencia

5.14 Tecnología de los Contenidos Multimedia

5.3.1 FORMATEO DEL BITSTREAM (FRAMING):

- Encabezamiento (header): contiene información de sincronización y datos sobre las caracterís-

- Control de error (CRC): para detectar posibles errores en bitstream.

FrameSize: es el tamaño del frame en bytes.

BitRate: es la cadencia de bits elegida a la salida del compresor.

SampleRate: es la frecuencia de muestreo de la señal de audio digital original.

Tecnología de los Contenidos Multimedia 5.15

Frame Size = 144 x 128000 / 44100 = 417 bytes