Está en la página 1de 21

Javier Hidalgo Fulgencio

COMPRESIN DE
AUDIO
Recopilacin y tratado de los distintos mtodos de compresin, desde el
ms rudimentario y poco eficiente hasta el ms moderno y sofisticado.

Principios de la
codificacin
perceptual y de la
comprensin MP3

SISTEMAS ELECTRNICOS MULTIMEDIA

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
1

COMPRESIN DE AUDIO

1. INTRODUCCIN AL
PROCESAMIENTO DE AUDIO
a. Sistema auditivo humano
El sistema auditivo humano sirve para varios propsitos importantes en la vida diaria. Una
de las caractersticas ms importantes es entender las palabras habladas, lo que permite a las
personas comunicarse de una manera eficiente e interactiva.
En caso de peligro potencial, el sistema auditivo puede proporcionar medios para detectar
eventos peligrosos, tales como un coche que se acerca, en una etapa temprana y reaccionar en
consecuencia. En tales casos, la gran ventaja del sistema auditivo en comparacin con el
sistema visual es que nos permite monitorear todas las direcciones al mismo tiempo,
incluyendo posiciones detrs, arriba y abajo. De hecho, adems de una "vista" de 360 grados
tanto en trminos de elevacin y azimut, el sistema auditivo tambin proporciona una
estimacin de la distancia de las fuentes de sonido. Esta capacidad es notable, dado el hecho
de que los seres humanos tienen slo dos orejas y sin embargo son capaces de analizar una
escena auditiva en mltiples dimensiones: altura, acimut y distancia. El reconocimiento de una
fuente de sonido puede ser considerado como una cuarta dimensin.
Pero adems de ser un medio necesario para la comunicacin y para proporcionar seales
de alarma, el sistema auditivo humano tambin proporciona una gran cantidad de emocin y
diversin.
Escuchar msica es una actividad muy comn para la relajacin y el entretenimiento. Las
pelculas se basan en una pista de sonido dedicada a ser emocionante y excitante. Los juegos
de ordenador se vuelven ms reales con la inclusin de pistas de sonido dedicado para efectos
de sonido.
Con el fin de disfrutar de la msica o material sonoro, una escena de sonido tiene que ser
registrada, procesada, almacenada, transmitida, y reproducida por el equipo de adquisicin y
los algoritmos. Durante la ltima dcada, el campo del procesamiento, almacenamiento y
transmisin de audio se ha desplazado desde el dominio analgico tradicional al dominio
digital, donde toda la informacin, tales como material de audio y video, est representado
por la serie de bits. Este cambio en el mtodo de representacin tiene varias ventajas.
Proporciona nuevos mtodos y algoritmos para procesar el audio. Adems, para muchas
aplicaciones, puede proporcionar sistemas analgicos tradicionales de mayor calidad. Adems,
la calidad del material no se degrada con el tiempo, ni la realizacin de copias tiene ninguna
influencia negativa sobre la calidad. Y, por ltimo, que permite una representacin ms
compacta en trminos de cantidad de informacin, lo que hace que la transmisin y el
almacenamiento ms eficiente y ms barato, y permite que los dispositivos de
almacenamiento y recepcin sean de forma muy pequea, como CD, telfonos mviles y
reproductores de msica porttiles.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
2

SISTEMAS ELECTRNICOS MULTIMEDIA

b. Codificacin de audio espacial


La tendencia a la alta calidad de audio multicanal para aplicaciones de estados slidos y
mviles impone varios retos en los algoritmos de compresin de audio. Los nuevos desarrollos
en este campo deben tener como objetivo la eficiencia de compresin sin igual, la
compatibilidad con los sistemas existentes, tienen una baja complejidad, y preferiblemente
soportar capacidades adicionales para optimizar su reproduccin en dispositivos mviles. Para
hacer frente a estos retos, el campo de la codificacin de audio espacial se ha desarrollado
rpidamente durante los ltimos 15 aos.
Codificacin de audio espacial (SAC), tambin se refiri a la seal de codificacin de
indicacin biaural (BCC) (grabacin electrnica), rompe con la idea tradicional de que la
cantidad de informacin que tiene que ser transmitida crece linealmente con el nmero de
canales de audio. En cambio, los SAC, o codificadores de la BBC, representan dos o ms canales
de audio por una cierta mezcla descendente de estos canales de audio, acompaada de
informacin adicional (parmetros espaciales o seales biaurales) que describen la prdida de
informacin espacial causada por el descendente proceso de mezclar.
Codificadores convencionales se basan en representaciones de formas de onda que tratan
de minimizar el error inducido por el proceso con prdida utilizando una cierta (perceptual)
medida de error. Tales codificadores de audio de percepcin, por ejemplo MP3, el peso del
error es tal que se enmascara en gran medida, es decir, de forma no audible. En trminos
tcnicos, se dice que los niveles 'irrelevantes de percepcin presentes en las seales de audio
son explotados para reducir la cantidad de informacin. Los errores que se introducen
resultado de la eliminacin de aquellos componentes que son perceptivamente irrelevantes.
La codificacin de audio espacial, por el contrario, representa una seal de audio
multicanal como una mezcla descendente (que se codifica con un codificador de audio
convencional) de los parmetros espaciales antes mencionados. Para la decodificacin, la
mezcla descendente se 'expande' al nmero original de canales de audio mediante la
restauracin de las seales entre canales que son relevantes para el sistema auditivo de
percibir la imagen espacial auditiva correcta. As, en lugar de lograr el aumento de la
compresin de la eliminacin de la informacin irrelevante, codificacin de audio espacial
emplea el modelado de la informacin perceptualmente relevante solamente. Como
resultado, la tasa de bits es significativamente menor que el de los codificadores de audio
convencionales debido a que los parmetros espaciales contienen mucha menos informacin
que las (comprimidas) formas de onda de los canales de audio originales.
La representacin de una seal de audio multicanal como una mezcla descendente, ms
parmetros espaciales, no slo proporciona una ganancia de compresin significativa, sino que
tambin permite nuevas funcionalidades tales como eficiente prestacin biaural, la doble
representacin de multicanales seales en diferentes sistemas de reproduccin, avance y
retroceso formato de conversin, y pueden proporcionar medios para la interactividad, donde
los usuarios finales pueden modificar varias propiedades de los objetos individuales dentro de
un nico flujo de audio.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
3

COMPRESIN DE AUDIO

2. PERCEPCIN SENSORIAL
a. Codificacin perceptual
La mayora de los codificadores de audio son codificadores "con prdida" no destinada a la
reconstruccin de una seal de audio a la perfeccin. La principal motivacin para el uso de
codificadores de audio con prdida es lograr una mayor relacin de compresin. Un
codificador de audio perceptual es un codificador de audio que incorpora un modelo de
receptor, es decir, que considera las propiedades del sistema auditivo humano.
Especficamente, se emplea el concepto de enmascaramiento sonoro. El enmascaramiento se
refiere al hecho de que una seal que es claramente audible en el aislamiento (el maskee)
puede llegar a ser inaudible cuando se presenta simultneamente con otra seal (a menudo
ms fuerte) (el enmascarador). La cantidad de enmascaramiento depende en gran medida
del contenido temporal y espectral de ambos enmascarador y maskee.
En principio, ambas seales deben ser a la vez temporal y espectral cerca de
enmascaramiento efectivo. En los codificadores de audio, el audio de la seal en s es el
enmascarador, mientras que el ruido de cuantificacin que se introduce, debido a la reduccin
de datos es la maskee que debe mantenerse inaudible. Por lo tanto los codificadores de audio
emplean un modelo para calcular el umbral de enmascaramiento. El umbral de
enmascaramiento especifica como una funcin de tiempo y frecuencia un nivel de seal por
debajo del cual una maskee no es perceptible, es decir, el nivel mximo el ruido de
cuantificacin puede tener tal que est enmascarada por la seal de audio a codificar.
Mediante el control del ruido de cuantificacin en funcin de tiempo y frecuencia tal que est
por debajo del umbral de enmascaramiento, la tasa de bits se puede reducir sin clasificacin
de la calidad percibida de la seal audio.

Codificador: la seal de entrada se descompone en una serie de sub-bandas. La mayora de


los codificadores de audio utilizan una transformada de coseno discreta modificada
(MDCT) como la representacin tiempo-frecuencia. Un modelo perceptual calcula el
umbral de enmascaramiento como una funcin del tiempo y la frecuencia. Cada seal subbanda cuantificada y codificada. El error de cuantificacin de cada seal de sub-banda se
controla de tal manera que est por debajo del umbral de enmascaramiento calculado. El
flujo de bits no slo contiene los ndices de entropa codificada del cuantificador de las
seales de sub-banda, sino tambin el tamao de paso del cuantificador que determina el
umbral de enmascaramiento (factores de escala).
Decodificador: la entropa codificada se decodifica en ndices del cuantificador de subbanda y tamao de paso de cuantificacin (factores de escala). El cuantificador inverso se
aplica antes de banco de filtros inverso para la recuperacin de la seal de audio.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
4

SISTEMAS ELECTRNICOS MULTIMEDIA


Un codificador de audio perceptual genrico, que opera en una sub-banda (o transformar)
de dominio, se muestra en la figura. La codificacin y proceso de decodificacin son los
siguientes:

ILUSTRACIN 1: CODIFICADOR DE AUDIO PERCEPTIVO GENRICO Y DECODIFICADOR.

Este principio de codificacin se introdujo para la codificacin de voz por Zelinski y


Noll. Brandenburg. Aplicando esta tcnica a las seales de radio de banda ancha. Los ltimos
codificadores de audio de percepcin se pueden dividir en dos categoras: los llamados
codificadores de transformacin y los codificadores de sub-banda. La primera categora
emplea una transformacin (tal como una MDCT) en los segmentos posteriores (a menudo se
solapan) para lograr el control de componentes de frecuencia separadas. La segunda categora
es la base de don (muestreados crticamente) de filtros.
Cuando hay ms de un canal de audio a codificar, redundancia entre los canales de
audio puede ser explotada para reducir la tasa de bits. Medio/Lado (M/S) de codificacin de
mediado reduce la redundancia entre un canal correlacionado mediante su transformacin a
un par canal suma/diferencia antes de la cuantificacin y codificacin. El umbral de
enmascaramiento depende de las propiedades de la seal inter-aurales (proceso perceptivo)
de la seal (enmascarada) y el ruido de cuantificacin (maskee). Al codificar seales de audio
estreo o multicanal, el modelo perceptual debe tener en cuenta esta dependencia
interauricular del umbral de enmascaramiento. Esta dependencia se describe a menudo por
medio de la diferencia de nivel de enmascaramiento biaural (BMLD).
Hoy en da muchos codificadores de audio perceptuales propietarios, como AC-3
(Dolby), ATRAC (Sony), PAC (Laboratorios Bell, Lucent Technologies) estn disponibles y en
algunos casos (AC-3) ampliamente utilizados. Son ampliamente utilizados basados en
estndares internacionales codificadores de audio de percepcin, tales como MPEG-1 Layer 3
(MP3) y MPEG-2 AAC (utilizado para la tienda de msica iTunes de Apple) .Cuando se requiere
que la seal de audio codificada no se puede distinguir del original seal de audio, estos
codificadores de audio de percepcin son capaces de reducir la tasa de bits de seales de
audio de CD en un factor de aproximadamente 10. Cuando se requieren relaciones de
compresin ms altas, el ancho de banda de audio necesita ser reducido o distorsiones de
codificacin exceder del lmite de enmascarado.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
5

COMPRESIN DE AUDIO

b. Modelo psicoacstico
La compresin se basa en la
reduccin del margen dinmico
irrelevante, es decir, en la incapacidad
del sistema auditivo para detectar los
errores
de
cuantificacin
en
condiciones de enmascaramiento.
Este estndar divide la seal en
bandas de frecuencia que se
aproximan a las bandas crticas, y
luego cuantifica cada sub-banda en
funcin del umbral de deteccin del
ruido dentro de esa banda.
ILUSTRACIN 2: MODELO PSICOACSTICO
El modelo psicoacstico utiliza un mtodo denominado prediccin polinmica. Analiza la
seal de audio y calcula la cantidad de ruido que se puede introducir en funcin de la
frecuencia, es decir, calcula la cantidad de enmascaramiento o umbral de enmascaramiento
en funcin de la frecuencia.
El codificador usa esta informacin para decidir la mejor manera de gastar los bits
disponibles. Este estndar provee dos modelos psicoacsticos de diferente complejidad: el
modelo I es menos complejo que el modelo psicoacstico II y simplifica mucho los clculos.
Estudios demuestran que la distorsin generada es imperceptible para el odo experimentado
en un ambiente ptimo desde los 192 kbps y en condiciones normales. Para el odo no
experimentado, o comn, con 128 kbps o hasta 96 kbps basta para que se oiga "bien" (a
menos que se posea un equipo de audio de alta calidad donde se nota excesivamente la falta
de graves y se destaca el sonido de "fritura" en los agudos). Las personas que tienen
experiencia en la parte auditiva de archivos digitales de audio, especialmente msica, desde
192 hasta 256 kbps basta para or bien, pero la compresin en 320 kbps es la ptima para
cualquier escucha. La msica que circula por Internet, en su mayora, est codificada entre 128
y 192 kbps, aunque hoy debido al aumento de ancho de banda es cada vez ms frecuente
compartir archivos en calidad mxima de compresin.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
6

SISTEMAS ELECTRNICOS MULTIMEDIA

c. Codificacin en sub-bandas
i.

Bandas crticas

Las bandas crticas son rangos de frecuencia dentro de los cuales un tono bloquea la
percepcin de otro tono. Ocurren porque una onda que estimula la membrana basilar
perturba dentro de una pequea rea ms all del punto de primer contacto, excitando a los
nervios de toda el rea vecina. Por lo tanto, las frecuencias cercanas a la frecuencia original no
tienen mucho efecto sobre la sensacin de la fuerza del sonido, incluso si se dobla el volumen
del sonido.
La sensacin de volumen no es afectada de esta manera cuando se suma a la mezcla una
frecuencia fuera de la banda crtica. La explicacin fisiolgica del mecanismo de las bandas
crticas, si bien todava incierto, tiene su fundamento seguramente en la capacidad de
resolucin de la membrana basilar. Existen muchas similitudes entre la selectividad de
frecuencia medida en la membrana basilar y la medida psicofsicamente. Estas bandas tienen
un ancho de banda crtico hasta los 500 Hz.

ii.

Codificacin en sub-bandas

En la compresin de audio el primer proceso al que se somete la seal digital no


comprimida de entrada, es a una codificacin en sub-bandas que consiste en filtrar la seal
mediante un banco de filtros que parten la banda total en una serie de sub-bandas o ventanas
y, a continuacin cada sub-banda se codifica adaptativamente.
El nmero de sub-bandas que deben utilizarse depende de las herramientas de conversin
que se combinen con la codificacin sub-banda. Si se intenta optimizar la compresin basada
en enmascaramiento las bandas debern ser preferiblemente ms estrechas que las bandas
crticas del odo, y entonces se necesitar un gran nmero.
En el caso de la codificacin de audio MPEG se emplean 32 filtros, cada uno con 512
derivaciones. El nmero de bits utilizado en el proceso de codificacin, en general es diferente
para la seal de cada sub-banda, en que la cuantificacin se realiza con un criterio perceptual.
Al codificar individualmente la seal de cada sub-banda, el ruido de cuantificacin queda
confinado slo a esa sub-banda. Los flujos binarios de salida de cada codificador se multiplexan
para su transmisin o procesado posterior. En el receptor se realiza primero un
demultiplexado seguido por la decodificacin de las seales de cada sub-banda para recuperar
la seal original.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
7

COMPRESIN DE AUDIO

d. Enmascaramiento
i.

Enmascaramiento simultneo

El enmascaramiento simultneo sucede cuando el sonido de referencia y el enmascarador


llegan a nuestro odo al mismo tiempo, coincidiendo temporalmente.
1. Enmascaramiento de sonidos senoidales por ruido de banda ancha
La lnea punteada representa el
umbral de audibilidad en silencio. La
curva de los umbrales indicados para
diferentes intensidades del ruido son
planas slo hasta los 500 Hz. Por
encima de esa frecuencia las curvas se
tuercen, con una pendiente de 10 dB
por cada multiplicacin por diez de la
frecuencia.
Resulta
interesante
observar que la fuerte dependencia de la frecuencia ILUSTRACIN 3: UMBRAL DE AUDIBILIDAD
observada en el umbral de audibilidad en silencio,
PARA UN SONIDO SENOIDAL EN FUNCIN
desaparece cuando se enmascara un sonido con ruido
DE SU FRECUENCIA, ENMASCARADO POR
de banda ancha. Necesario para algunas mediciones, el
RUIDO BLANCO (RUIDO DE BANDA
ruido de enmascaramiento uniforme se obtiene
ANCHA).
aplicando un filtro que compense las curvas observadas
en la figura anterior, de manera que se obtiene una curva totalmente plana.
2. Enmascaramiento de sonidos senoidales por ruido de banda angosta

ILUSTRACIN 4: UMBRALES DE SONIDOS SENOIDALES


ENMASCARADOS POR RUIDOS CON ANCHO DE BANDA IGUAL
A LA BANDA CRTICA, CON FRECUENCIAS CENTRALES DE 250
HZ, 1 KHZ Y 4 KHZ

Cuando hablamos de ruido de


banda angosta en este caso nos estamos
refiriendo a un ruido con un ancho de
banda igual o menor al ancho de banda
crtica. La intensidad del ruido es
siempre 60 dB. Mientras que la forma
de la curva alrededor de la frecuencia
central es muy similar para 1 y 4 kHz, la
misma no lo es en el caso del ruido con
frecuencia central en 250 Hz. Tambin
puede observarse que el nivel del
umbral disminuye a medida que
aumenta la frecuencia: -2 dB para 250
Hz, - 3 dB para 1 kHz y -5 dB para 4 kHz.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
8

SISTEMAS ELECTRNICOS MULTIMEDIA

ILUSTRACIN 5: UMBRAL DE UN SONIDO SENOIDAL

Puede
observarse
una
pendiente muy pronunciada para
frecuencias por debajo de la
frecuencia central del ruido, pero que
la pendiente para frecuencias
superiores a la frecuencia central del
ruido se hace cada vez menos
pronunciada a medida que aumenta
el nivel del ruido. El umbral est
siempre 3 dB por debajo del nivel del
ruido.

ENMASCARADO POR UN RUIDO DE BANDA ANGOSTA CON


ANCHO IGUAL A LA BANDA CRTICA CON FRECUENCIA CENTRAL
IGUAL A 1 KHZ PERO CON NIVELES VARIABLES.

3. Enmascaramiento de sonidos senoidales por sonidos senoidales


Para medir exactamente el umbral se presentan dos tipos de problemas. El primero es que
cuando el sonido senoidal de referencia y el sonido senoidal enmascarador tienen frecuencias
cercanas se producen pulsaciones (o batimentos). En consecuencia, el escucha percibe la
fluctuacin en amplitud (igual a f2 - f1), lo que dificulta el establecimiento del umbral. El otro
problema es que para algunas frecuencias se hace notorio el sonido de combinacin (sonido
diferencial), por lo que a un oyente no experimentado le cuesta diferenciar entre la percepcin
del sonido senoidal de referencia o el diferencial. Esto es particularmente notorio para
frecuencias del sonido senoidal de referencia de 1.4 kHz.

ILUSTRACIN 6: UMBRAL DE SONIDOS


SENOIDALES ENMASCARADOS POR OTRO
SONIDO SENOIDAL CON UNA FRECUENCIA DE
1 KHZ, PARA DIFERENTES NIVELES DEL
SONIDO SENOIDAL ENMASCARADOR

4. Enmascaramiento de sonidos senoidales por sonidos complejos


Para este caso de sonido complejo la igualdad de fase de sus componentes llevara a que la
envolvente dinmica del sonido comenzara a adquirir la caracterstica de un impulso, lo que
podra tener consecuencias adicionales en la determinacin de los umbrales.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
9

COMPRESIN DE AUDIO

ILUSTRACIN 7: UMBRAL DE SONIDOS SENOIDALES ENMASCARADOS POR UN SONIDO ARMNICO COMPLEJO


CON UNA FRECUENCIA FUNDAMENTAL DE 200 HZ Y OTROS 9 PARCIALES, TODOS CON LA MISMA AMPLITUD Y
CON FASES ESCOGIDAS ALEATORIAMENTE. SE INDICAN UMBRALES PARA NIVELES DE 40 Y 60 DB DEL
ENMASCARADOR.

ii.

Enmascaramiento temporal

El enmascaramiento temporal sucede cuando dos estmulos sonoros llegan a nuestro odo
de forma cercana en el tiempo. El estmulo enmascarante har que el otro, el enmascarado,
resulte inaudible. En esta situacin, el tono ms intenso tiende a enmascarar al tono ms dbil.
Segn en el instante de tiempo en que se produce el estmulo enmascarante respecto el
instante en el que se produce el enmascarado, podremos distinguir entre
postenmascaramiento y preenmascaramiento.
El postenmascaramiento lo encontramos cuando es el tono de mayor amplitud el que
aparece primero en el tiempo seguido del de menor amplitud, percibiendo tan slo el primer
estmulo. Este fenmeno se produce cuando ambos sonidos llegan al odo humano separados
en el tiempo por un intervalo mnimo de entre 30 y 60 ms aproximadamente. Esto se debe a
que, percibido el tono fuerte, el odo necesita un cierto tiempo de adaptacin.
El preenmascaramiento producindose primero un estmulo suave y posteriormente un
tono intenso, este ltimo enmascarar igualmente al de menor amplitud, siempre y cuando
estn separados en el tiempo por una diferencia menor de entre 5 y 10 ms. Dado que este
fenmeno se presenta aun antes de que el tono enmascarante aparezca, implica que sea ms
problemtico que el postenmascaramiento. La explicacin de esta anticipacin se basa en
que la informacin que llega a la corteza auditiva del cerebro humano se procesa por rfagas.
Asimismo, es sabido que los sonidos intensos son procesados de forma ms rpida por el
cerebro que los sonidos suaves, facilitando de esta forma el fenmeno psicoacstico del
preenmascaramiento.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
10

SISTEMAS ELECTRNICOS MULTIMEDIA

Como ejemplo grfico tenemos la siguiente figura:

ILUSTRACIN 8: SE PUEDE OBSERVAR QUE LA EFECTIVIDAD DEL ENMASCARAMIENTO DISMINUYE DE FORMA


EXPONENCIAL PARA AMBOS CASOS DE ENMASCARAMIENTO TEMPORAL.
Su duracin, como ya se ha comentado, es de entre 5 y 10 ms para el caso del
preenmascaramiento y de entre 30 y 60 ms para el del postenmascaramiento.
Por otro lado, un ejemplo prctico es el de la continuidad de tonos, una ilusin auditiva
por la que, reproducindose un tono interrumpidamente, el oyente lo percibe como continuo.
Cabe decir tambin que no se debe confundir el enmascaramiento temporal con el reflejo
acstico del odo, una respuesta involuntaria e inherente del odo medio para auto protegerse
de los sonidos fuertes o de alto nivel de presin sonora (SPL).

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
11

COMPRESIN DE AUDIO

3. COMPRESIN MP3
Comenzamos con las tres estrategias separadas, independientes de compresin de audio
que se utilizan en MPEG-1 y MPEG-2 y conocida como la capa I, la capa II, y Layer III. El audio
de Capa III algoritmo de compresin tambin se conoce como mp3. La mayora de los
estndares normativos tienen secciones y secciones informativas. Las acciones normativas son
aquellos que son necesarios para el cumplimiento a la norma. La mayora de las normas
actuales, incluyendo los estndares MPEG, definen el flujo de bits que se ha de sealar al
decodificador, dejando el diseo del codificador al individuo vendedores. Es decir, la definicin
de flujo de bits es normativa, mientras que la mayor orientacin sobre la codificacin es
informativo. As, dos corrientes de bits MPEG-compatible que codifican el mismo material de
audio en la misma velocidad pero en diferentes codificadores puede sonar muy diferente. Por
otro lado, un dado MPEG flujo de bits decodificado en diferentes decodificadores resultar en
esencialmente la misma salida.

Un diagrama de bloques simplificado que representa la estrategia bsica usada en las tres
capas es se muestra en la Ilustracin 9. La entrada, que consiste en palabras de PCM de 16
bits, se transforma primero al dominio de la frecuencia. Los coeficientes de frecuencia son
cuantificados, codificados y empaquetados en un flujo de bits MPEG. Aunque el enfoque
general es el mismo para todas las capas, los detalles puede variar significativamente. Cada
capa es progresivamente ms complicado que la capa anterior y tambin proporciona una
mayor compresin. Las tres capas son compatibles con versiones anteriores. Es decir, un
decodificador para Layer III debe ser capaz de decodificar I- capa y audio de capa II codificada.
Un decodificador para la capa II debe ser capaz de decodificar la capa I- codificada de audio.
Ntese la existencia de un bloque etiquetado modelo psicoacstico en la Ilustracin 9.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
12

SISTEMAS ELECTRNICOS MULTIMEDIA

a. Codificacin Layer I
La capa I esquema de codificacin proporciona una mezcla 4: 1 de compresin. En la capa I de
codificacin de la frecuencia de tiempo mapeo se lleva a cabo utilizando un banco de 32 filtros
de subbanda. La salida de la sub-banda
Los filtros se muestrea crticamente. Es decir, la salida de cada filtro se muestrea hacia abajo
por 32. El las muestras se dividieron en grupos de 12 muestras cada uno. Doce muestras de
ILUSTRACIN 9: ALGORITMOS DE CODIFICACIN DE AUDIO MPEG
cada uno de los 32 filtros de sub-banda, o un total de 384 muestras, conforman un cuadro de
la capa I codificador. Una vez los componentes de frecuencia se obtienen el algoritmo examina
cada grupo de 12 muestras para determinar un factor de escala. El factor de escala se utiliza
para asegurarse de que los coeficientes hacen uso de toda la gama del cuantificador. La salida
de sub-banda se divide por el factor de escala antes de ser lineal cuantificados. Hay un total de
63 factores de escala especificado en el estndar MPEG estndar. Especificacin de cada factor
de escala requiere 6 bits.
Para determinar el nmero de bits a ser utilizados para la cuantificacin, el codificador
hace uso de la modelo psicoacstico. Las entradas al modelo figuran la Transformada Rpida
de Fourier (FFT) de los datos de audio, as como la propia seal. El modelo calcula los umbrales
de enmascaramiento en cada sub-banda, que a su vez determinar la cantidad de ruido de
cuantificacin que puede ser tolerada y por lo tanto el tamao del paso de cuantificacin. A
medida que los cuantificadores todos cubren el mismo rango, la seleccin del tamao de paso
de cuantificacin es la misma que la seleccin del nmero de bits a utilizar para cuantificar la
salida de cada sub-banda. En la capa I el codificador tiene una opcin de 14 diferentes
cuantificadores para cada banda (adems de la opcin de asignar los bits 0). Los
cuantificadores son todos midtread cuantificadores que van desde 3 niveles de 65.535 niveles.
Cada sub-banda se asigna una variable nmero de bits. Sin embargo, el nmero total de bits
disponibles para representar toda la subbanda Las muestras se fijaron. Por lo tanto, la
asignacin de bits puede ser un proceso iterativo. El objetivo es para mantener la relacin de
ruido a mscara ms o menos constante a travs de las sub-bandas.
La salida de las etapas de cuantificacin y de asignacin de bits se combinan en un
marco como se muestra en la Ilutracin 10. Debido a que el audio MPEG es un formato de
streaming, cada cuadro lleva un encabezado, en lugar de tener una nica cabecera de toda la
secuencia de audio. La cabecera est compuesta de 32 Bits. Los primeros 12 bits comprenden
un patrn de sincronizacin que consta de todos los 1s. Esto es seguido por un 1-bit
identificador de versin, un indicador de capa de 2 bits, una proteccin CRC 1 bits. El bit de
proteccin de CRC se establece en 0 si no hay proteccin CRC y se establece en un 1 si existe
una proteccin CRC. Si la capa y informacin de proteccin se sabe, todos los 16 bits se puede
utilizar para proporcionar la sincronizacin de trama. Los siguientes 4 bits forman el ndice de
tasa de bits, que especifica la velocidad de bits en kbits / seg.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
13

COMPRESIN DE AUDIO

ILUSTRACIN 10: ESTRUCTURA DE TRAMA PARA LAYER I

Ah son 14 las tasas de


TABLA 1: FRECUENCIAS DE MUESTREO ADMISIBLES EN MPEG-1 Y
MPEG-2
bits especificados para elegir.
Esto es seguido por 2 bits que
indican el muestreo frecuencia.
Las frecuencias de muestreo
para MPEG-1 y MPEG-2 son
diferentes (uno de los pocos
diferencias entre el audio
normas de codificacin de
MPEG-1 y MPEG-2) y se muestran en Tabla 1 Estos bits son seguidos por un nico bit de
relleno. Si el bit es "1", la trama necesita una bit adicional para ajustar la tasa de bits a la
frecuencia de muestreo. Los siguientes dos bits indican la modo. Los modos posibles son
"estreo", "joint stereo", "doble canal", y "un solo canal." El modo estreo consta de dos
canales que se codifican por separado, pero pretende que sean jugado juntos. El modo estreo
conjunto consta de dos canales que estn codificados juntos. Los canales izquierdo y derecho
se combinan para formar un medio y una
seal de lado como sigue:

El modo de doble canal se compone de dos canales que se codifican por separado y no
estn destinado a ser jugado juntos, tal como un canal de traduccin. Estos son seguidos por
dos los bits de extensin de modo que se utilizan en el modo estreo de conjunto. El siguiente
bit es un bit de copyright ("1" si el material se copia derechos, "0" si no lo es). El siguiente bit
se pone a "1" para la original medios de comunicacin y "0" para la copia. Los ltimos dos bits

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
14

SISTEMAS ELECTRNICOS MULTIMEDIA


indican el tipo de de-nfasis que se utilizar. Si se establece el bit CRC, la cabecera es seguida
por un CRC de 16 bits. Esto es seguido por la asignaciones de bits utilizados por cada subbanda ya su vez es seguido por el conjunto de factores de escala de 6 bits. Los datos de factor
de escala es seguido por los cuantificados 384 muestras.

b. Codificacin Layer II
El codificador de Capa II proporciona una tasa de compresin ms alta, haciendo algunas
modificaciones relativamente menores a la capa I esquema de codificacin. Estas
modificaciones incluyen cmo las muestras se agrupan, la representacin de los factores de
escala, y la estrategia de cuantificacin. Cuando la capa I codificador pone 12 muestras de cada
sub-banda en una trama, la capa II grupos codificador tres series de 12 muestras de cada subbanda en un marco. El nmero total de muestras por trama aumenta de 384 muestras a 1152
muestras. Esto reduce la cantidad de sobrecarga por muestra. En la capa I de codificacin de
un factor de escala por separado se selecciona para cada bloque de 12 muestras. En la capa II
de codificacin el codificador trata de compartir un factor de escala entre los dos o los tres
grupos de muestras de cada filtro de sub-banda. La nica vez que factores de escala
independientes se utilizan para cada grupo de 12 muestras es cuando no hacerlo dara lugar a
un aumento significativo en la distorsin. La eleccin particular usado en un bastidor se
sealiza a travs del campo de informacin de factor de escala selectio en el flujo de bits.

ILUSTRACIN 11: ESTRUCTURA DE TRAMA PARA LAYER II

La principal diferencia entre la capa I y II esquemas de codificacin de la capa est en la


etapa de cuantificacin. En la capa I esquema de codificacin la salida de cada sub-banda se
cuantifica utilizando una de las 14 posibilidades; los mismos 14 posibilidades para cada una de
las sub-bandas. En la capa II de codificacin de los cuantificadores usados para cada una de las
sub-bandas puede ser seleccionado de un conjunto diferente de cuantificadores en funcin de
la velocidad de muestreo y las velocidades de bits. Para algunas combinaciones de frecuencia
de muestreo y la velocidad de bits, muchas de las sub-bandas ms altas se asignan 0 bits. Es
decir, la informacin de esas subbandas simplemente se descarta. Cuando el cuantificador
seleccionado tiene 3, 5, o 9 niveles, el esquema de codificacin de la capa II utiliza una mejora

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
15

COMPRESIN DE AUDIO
ms. Ntese que en el caso de los 3 niveles que tenemos que utilizar 2 bits por muestra, lo que
nos han permitido representamos 4 niveles. La situacin es an peor en el caso de los 5
niveles, en los que nos vemos obligados a utilizar 3 bits, perdiendo tres palabras de cdigo, y
en el caso de 9 niveles en los que tenemos que utilizar 4 bits, por lo tanto perder 7 niveles.
Para evitar esta situacin, los grupos codificador de capa II 3 muestras en un grnulo. Si cada
simple puede tomar en 3 niveles, un grnulo puede tomar en 27 niveles. Esto se puede
acomodar usando 5 bits.

Si cada muestra haba sido codificado por separado habramos necesitado 6 bits. Del
mismo modo, si cada muestra se puede tomar en 9 valores, un grnulo puede tomar en 729
valores. Podemos representar 729 valores usando 10 bits. Si cada muestra en el grnulo haba
sido codificado por separado, habramos necesitado 12 bits. El uso de todos estos ahorros, la
relacin de compresin en la capa II de codificacin puede ser aumento de 4: 1 a 8: 1 o 6: 1. La
estructura de trama para el codificador de capa II se puede ver en la Ilustracin 11. La nica
diferencia real entre esta estructura de bastidor y la estructura de trama de la capa I
codificador es el campo de informacin de seleccin de factor de escala.

c. Codificacin Layer III MP3


Capa de codificacin III, que se ha convertido en muy popular con el nombre de mp3, es
considerablemente ms compleja que la capa I y la capa II esquemas de codificacin. Uno de
los problemas con la capa I y esquemas de codificacin fue que con la descomposicin 32 de
banda, el ancho de banda de las sub-bandas a frecuencias ms bajas es significativamente
mayor que las bandas crticas.
Esto hace que sea difcil hacer un juicio exacto de la relacin de mscara a la seal. Si se
obtiene un tono de alta amplitud dentro de un sub-banda y si la sub-banda era lo
suficientemente estrecha, podramos suponer que enmascara otros tonos en la banda. Sin
embargo, si el ancho de banda de la subbanda es significativamente mayor que la anchura de
banda crtica a esa frecuencia, se hace ms difcil determinar si se pueden enmascarar otros
tonos en la sub-banda. Una forma sencilla de aumentar la resolucin espectral sera para
descomponer la seal directamente en un mayor nmero de bandas. Sin embargo, uno de los
requisitos en el algoritmo Layer III es que sea compatible hacia atrs con la capa I y la capa II
codificadores. Para satisfacer este requisito de compatibilidad hacia atrs, la descomposicin
espectral en el algoritmo de la capa III se lleva a cabo en dos etapas. En primer lugar se emplea
la descomposicin de sub-banda de 32 bandas utilizado en la capa I y Nivel II. La salida de cada
sub-banda se transforma usando una transformada de coseno discreta modificada (MDCT) con
un solapamiento de 50%. El algoritmo Layer III especifica dos tamaos para el MDCT, 6 o 18.
Esto significa que la salida de cada sub-banda se puede descomponer en 18 coeficientes de
frecuencia o 6 coeficientes de frecuencia. La razn de tener dos tamaos para la TCMD es que
cuando transformamos una secuencia en el dominio de la frecuencia, se pierde tiempo de
resolucin, incluso a medida que ganamos resolucin de frecuencia. Cuanto mayor sea el
tamao de bloque ms perdemos en trminos de resolucin temporal. El problema con esto es
que cualquier ruido de cuantificacin introducido en los coeficientes de frecuencia conseguir
repartidos en todo el tamao de bloque de la transformada. enmascaramiento temporal hacia

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
16

SISTEMAS ELECTRNICOS MULTIMEDIA


atrs se produce por slo una corta duracin antes del sonido de enmascaramiento
(aproximadamente 20 milisegundos). Por lo tanto, el ruido de cuantificacin aparecer como
un pre-eco.

Considere la seal se muestra en la Ilustracin 12. La secuencia consta de 128 muestras, la


primera 118 de los cuales son 0, seguido por un fuerte aumento en el valor. El DCT 128 puntos
de esta secuencia se muestra en la Ilustracin 13. Ntese que muchos de estos coeficientes
son bastante grandes. Si tuviramos que enviar todos estos coeficientes, tendramos
expansin de datos en lugar de la compresin de datos. Si mantenemos slo los 10
coeficientes ms grandes, la seal reconstruida se muestra en la Ilustracin 14.

ILUSTRACIN 12

ILUSTRACIN 13

ILUSTRACIN 14

Tenga en cuenta que no slo son los valores de la seal no cero no bien representados,
tambin hay error en las muestras antes de la variacin del valor de la seal. Si esto fuera una
seal de audio y los valores grandes haba ocurrido al inicio de la secuencia, el efecto de
enmascaramiento adelante habra reducido la perceptibilidad del error de cuantificacin. En la
situacin mostrada en la Ilustracin 14, el enmascaramiento hacia atrs enmascarar algunos
de los errores de cuantificacin. Sin embargo, el enmascaramiento hacia atrs se produce por
slo una corta duracin antes del sonido de enmascaramiento. Por lo tanto, si la longitud del
bloque en cuestin es ms largo que el intervalo de enmascaramiento, la distorsin ser
evidente para el oyente. Si obtenemos un sonido agudo que est muy limitada en el tiempo
(por ejemplo, el sonido de las castauelas) nos gustara mantener el tamao de bloque lo
suficientemente pequeo que puede contener este sonido agudo. Entonces, cuando
incurrimos ruido de cuantificacin que no conseguir hacia fuera del intervalo en el que se
produjo el sonido real y por lo tanto obtener enmascarado. El algoritmo Layer III vigila la
entrada y en caso necesario sustituye tres transformaciones cortos durante un largo
transforman. Lo que realmente ocurre es que la salida de sub-banda se multiplica por una
funcin de ventana de la longitud de 36 durante los periodos estacionarios (es decir un
tamao de bloque de 18, ms 50% de solapamiento
de bloques vecinos). Esta ventana se llama la ventana
de tiempo. Si se detecta un ataque agudo, el
algoritmo cambia a una secuencia de tres ventanas

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
17
ILUSTRACIN 15: DIAGRAMA DE ESTADOS
PARA EL PROCESO DE CAMBIO DE VENTANAS

COMPRESIN DE AUDIO
cortas de longitud 12 despus de una ventana de transicin de longitud 30. Esta ventana de
transicin inicial se denomina la ventana de inicio. Si la entrada vuelve a un modo ms
estacionario, las ventanas cortas son seguidos por otra ventana de transicin llamado la
ventana de parada de la longitud 30 y luego la secuencia estndar de las ventanas largas. El
proceso de transicin entre las ventanas se muestra en la Ilustracin 15.

Un posible conjunto de transiciones de la ventana se muestra en la Ilustracin 16. Para las


largas ventanas que terminamos con 18 frecuencias por cada sub-banda, lo que resulta en un
total de 576 frecuencias. Para las ventanas cortas obtenemos 6 coeficientes por sub-banda
para un total de 192 frecuencias.

ILUSTRACIN 16: SECUENCIA DE VENTANAS

La norma permite un modo de bloque mixto en el que los dos sub-bandas ms bajas
utilizan ventanas largas, mientras que las sub-bandas restantes utilizan ventanas cortas.
Ntese que, si bien el nmero de frecuencias puede cambiar dependiendo de si estamos
utilizando ventanas largas o cortas, el nmero de muestras en una trama se mantiene en 1152.
Eso es 36 muestras, o 3 grupos de 12 personas, de cada uno de los 32 filtros de subbanda.
La codificacin y de cuantificacin de la salida de la MDCT se lleva a cabo de forma
iterativa utilizando dos bucles anidados. Hay un bucle externo denominado el bucle de control
de distorsin cuyo propsito es garantizar que el ruido de cuantificacin introducido se
encuentra por debajo del umbral de audibilidad. Los factores de escala se utilizan para
controlar el nivel de ruido de cuantificacin. En la capa III factores de escala se asignan a
grupos o "bandas" de los coeficientes en la que las bandas son de aproximadamente el tamao
de bandas crticas. Hay 21 bandas de factor de escala para los bloques largos y 12 bandas de
factor de escala para bloques cortos. El bucle interior se llama el bucle de control de la
frecuencia. El objetivo de este ciclo es para asegurarse de que no se supera una velocidad de
bits de destino. Esto se hace mediante la iteracin entre diferentes cuantificadores y cdigos
de Huffman. Los cuantificadores utilizados en mp3 se compande cuantificadores no uniformes.
Los coeficientes MDCT escala son cuantificados primera y organizada en regiones. Los
coeficientes en el extremo superior de la escala de frecuencia es probable que se cuantificado
a cero. Estas salidas consecutivas cero son tratados como una sola regin y la longitud de
gestin es codificado Huffman. Por debajo de esta regin de coeficientes cero, el codificador
identifica el conjunto de coeficientes que son cuantificados a 0 o ??} 1. Estos coeficientes se
agrupan en grupos de cuatro. Este conjunto de cuatrillizos es la segunda regin de
coeficientes. Cada cuatrillo se codifica mediante una sola palabra de cdigo Huffman. Los
coeficientes restantes se dividen en dos o tres subregiones. Cada subregin se le asigna un

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
18

SISTEMAS ELECTRNICOS MULTIMEDIA


cdigo de Huffman a partir de sus caractersticas estadsticas. Si el resultado del uso de esta
codificacin de longitud variable supera el presupuesto de bits, el cuantificador se ajusta para
aumentar el tamao de paso de cuantificacin. El proceso se repite hasta que se satisface la
tasa objetivo. Una vez que la tasa objetivo se cumple, el control pasa de nuevo al bucle
externo, control de la distorsin.

El modelo psicoacstico se utiliza para comprobar si el ruido de cuantificacin en cualquier


banda supera la distorsin permitido. Si lo hace, el factor de escala se ajusta para reducir el
ruido de cuantificacin. Una vez que todos los factores de escala se han ajustado, el control
vuelve al bucle de control de velocidad. Las iteraciones terminan ya sea cuando las condiciones
de distorsin y de velocidad son satisfechos o los factores de escala no se pueden ajustar ms
lejos. Habr marcos en los que el nmero de bits utilizados por el codificador de Huffman es
menos tan la cantidad asignada. Estos bits se guardan en un depsito poco conceptual. En la
prctica esto significa que el inicio de un bloque de datos no coincide necesariamente con el
encabezamiento de la trama. Tenga en cuenta los tres cuadros que se muestran en la
Ilustracin 17. En este ejemplo, los datos principales de la primera trama (que incluye
informacin de factor de escala y los datos codificados Huffman) no ocupa todo el fotograma.
Por lo tanto, los datos principales para la segunda trama se inicia antes de la segunda trama
comienza en realidad. Lo mismo es cierto para los datos restantes. El canbegin de datos
principal en el cuadro anterior. Sin embargo, los principales datos de una trama particular no
pueden extenderse a la siguiente frame. Toda esta complejidad permite una codificacin muy
eficiente de entradas de audio. El archivo de audio mp3 tpico tiene una relacin de
compresin de 10: 1. A pesar de este alto nivel de compresin, la mayora de la gente no
puede decir la diferencia entre el original y la representacin comprimida.

ILUSTRACIN 17: SECUENCIA DE VENTANAS

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
19

COMPRESIN DE AUDIO

Decimos ms porque los profesionales capacitados a veces puede decir la diferencia entre
las versiones original y comprimidos. Las personas que pueden identificar diferencias muy
pequeas entre las seales codificadas originales y han jugado un papel importante en el
desarrollo de codificadores de audio. Al identificar donde la distorsin puede ser audible que
han ayudado a mejorar el esfuerzo de enfoque del proceso de codificacin. Este proceso de
desarrollo ha hecho mp3 el formato de eleccin para msica comprimida.

Antoni AYZA FIBLA


Javier HIDALGO FULGENCIO
20

También podría gustarte