Documentos de Académico
Documentos de Profesional
Documentos de Cultura
COMPRESIN DE
AUDIO
Recopilacin y tratado de los distintos mtodos de compresin, desde el
ms rudimentario y poco eficiente hasta el ms moderno y sofisticado.
Principios de la
codificacin
perceptual y de la
comprensin MP3
COMPRESIN DE AUDIO
1. INTRODUCCIN AL
PROCESAMIENTO DE AUDIO
a. Sistema auditivo humano
El sistema auditivo humano sirve para varios propsitos importantes en la vida diaria. Una
de las caractersticas ms importantes es entender las palabras habladas, lo que permite a las
personas comunicarse de una manera eficiente e interactiva.
En caso de peligro potencial, el sistema auditivo puede proporcionar medios para detectar
eventos peligrosos, tales como un coche que se acerca, en una etapa temprana y reaccionar en
consecuencia. En tales casos, la gran ventaja del sistema auditivo en comparacin con el
sistema visual es que nos permite monitorear todas las direcciones al mismo tiempo,
incluyendo posiciones detrs, arriba y abajo. De hecho, adems de una "vista" de 360 grados
tanto en trminos de elevacin y azimut, el sistema auditivo tambin proporciona una
estimacin de la distancia de las fuentes de sonido. Esta capacidad es notable, dado el hecho
de que los seres humanos tienen slo dos orejas y sin embargo son capaces de analizar una
escena auditiva en mltiples dimensiones: altura, acimut y distancia. El reconocimiento de una
fuente de sonido puede ser considerado como una cuarta dimensin.
Pero adems de ser un medio necesario para la comunicacin y para proporcionar seales
de alarma, el sistema auditivo humano tambin proporciona una gran cantidad de emocin y
diversin.
Escuchar msica es una actividad muy comn para la relajacin y el entretenimiento. Las
pelculas se basan en una pista de sonido dedicada a ser emocionante y excitante. Los juegos
de ordenador se vuelven ms reales con la inclusin de pistas de sonido dedicado para efectos
de sonido.
Con el fin de disfrutar de la msica o material sonoro, una escena de sonido tiene que ser
registrada, procesada, almacenada, transmitida, y reproducida por el equipo de adquisicin y
los algoritmos. Durante la ltima dcada, el campo del procesamiento, almacenamiento y
transmisin de audio se ha desplazado desde el dominio analgico tradicional al dominio
digital, donde toda la informacin, tales como material de audio y video, est representado
por la serie de bits. Este cambio en el mtodo de representacin tiene varias ventajas.
Proporciona nuevos mtodos y algoritmos para procesar el audio. Adems, para muchas
aplicaciones, puede proporcionar sistemas analgicos tradicionales de mayor calidad. Adems,
la calidad del material no se degrada con el tiempo, ni la realizacin de copias tiene ninguna
influencia negativa sobre la calidad. Y, por ltimo, que permite una representacin ms
compacta en trminos de cantidad de informacin, lo que hace que la transmisin y el
almacenamiento ms eficiente y ms barato, y permite que los dispositivos de
almacenamiento y recepcin sean de forma muy pequea, como CD, telfonos mviles y
reproductores de msica porttiles.
COMPRESIN DE AUDIO
2. PERCEPCIN SENSORIAL
a. Codificacin perceptual
La mayora de los codificadores de audio son codificadores "con prdida" no destinada a la
reconstruccin de una seal de audio a la perfeccin. La principal motivacin para el uso de
codificadores de audio con prdida es lograr una mayor relacin de compresin. Un
codificador de audio perceptual es un codificador de audio que incorpora un modelo de
receptor, es decir, que considera las propiedades del sistema auditivo humano.
Especficamente, se emplea el concepto de enmascaramiento sonoro. El enmascaramiento se
refiere al hecho de que una seal que es claramente audible en el aislamiento (el maskee)
puede llegar a ser inaudible cuando se presenta simultneamente con otra seal (a menudo
ms fuerte) (el enmascarador). La cantidad de enmascaramiento depende en gran medida
del contenido temporal y espectral de ambos enmascarador y maskee.
En principio, ambas seales deben ser a la vez temporal y espectral cerca de
enmascaramiento efectivo. En los codificadores de audio, el audio de la seal en s es el
enmascarador, mientras que el ruido de cuantificacin que se introduce, debido a la reduccin
de datos es la maskee que debe mantenerse inaudible. Por lo tanto los codificadores de audio
emplean un modelo para calcular el umbral de enmascaramiento. El umbral de
enmascaramiento especifica como una funcin de tiempo y frecuencia un nivel de seal por
debajo del cual una maskee no es perceptible, es decir, el nivel mximo el ruido de
cuantificacin puede tener tal que est enmascarada por la seal de audio a codificar.
Mediante el control del ruido de cuantificacin en funcin de tiempo y frecuencia tal que est
por debajo del umbral de enmascaramiento, la tasa de bits se puede reducir sin clasificacin
de la calidad percibida de la seal audio.
COMPRESIN DE AUDIO
b. Modelo psicoacstico
La compresin se basa en la
reduccin del margen dinmico
irrelevante, es decir, en la incapacidad
del sistema auditivo para detectar los
errores
de
cuantificacin
en
condiciones de enmascaramiento.
Este estndar divide la seal en
bandas de frecuencia que se
aproximan a las bandas crticas, y
luego cuantifica cada sub-banda en
funcin del umbral de deteccin del
ruido dentro de esa banda.
ILUSTRACIN 2: MODELO PSICOACSTICO
El modelo psicoacstico utiliza un mtodo denominado prediccin polinmica. Analiza la
seal de audio y calcula la cantidad de ruido que se puede introducir en funcin de la
frecuencia, es decir, calcula la cantidad de enmascaramiento o umbral de enmascaramiento
en funcin de la frecuencia.
El codificador usa esta informacin para decidir la mejor manera de gastar los bits
disponibles. Este estndar provee dos modelos psicoacsticos de diferente complejidad: el
modelo I es menos complejo que el modelo psicoacstico II y simplifica mucho los clculos.
Estudios demuestran que la distorsin generada es imperceptible para el odo experimentado
en un ambiente ptimo desde los 192 kbps y en condiciones normales. Para el odo no
experimentado, o comn, con 128 kbps o hasta 96 kbps basta para que se oiga "bien" (a
menos que se posea un equipo de audio de alta calidad donde se nota excesivamente la falta
de graves y se destaca el sonido de "fritura" en los agudos). Las personas que tienen
experiencia en la parte auditiva de archivos digitales de audio, especialmente msica, desde
192 hasta 256 kbps basta para or bien, pero la compresin en 320 kbps es la ptima para
cualquier escucha. La msica que circula por Internet, en su mayora, est codificada entre 128
y 192 kbps, aunque hoy debido al aumento de ancho de banda es cada vez ms frecuente
compartir archivos en calidad mxima de compresin.
c. Codificacin en sub-bandas
i.
Bandas crticas
Las bandas crticas son rangos de frecuencia dentro de los cuales un tono bloquea la
percepcin de otro tono. Ocurren porque una onda que estimula la membrana basilar
perturba dentro de una pequea rea ms all del punto de primer contacto, excitando a los
nervios de toda el rea vecina. Por lo tanto, las frecuencias cercanas a la frecuencia original no
tienen mucho efecto sobre la sensacin de la fuerza del sonido, incluso si se dobla el volumen
del sonido.
La sensacin de volumen no es afectada de esta manera cuando se suma a la mezcla una
frecuencia fuera de la banda crtica. La explicacin fisiolgica del mecanismo de las bandas
crticas, si bien todava incierto, tiene su fundamento seguramente en la capacidad de
resolucin de la membrana basilar. Existen muchas similitudes entre la selectividad de
frecuencia medida en la membrana basilar y la medida psicofsicamente. Estas bandas tienen
un ancho de banda crtico hasta los 500 Hz.
ii.
Codificacin en sub-bandas
COMPRESIN DE AUDIO
d. Enmascaramiento
i.
Enmascaramiento simultneo
Puede
observarse
una
pendiente muy pronunciada para
frecuencias por debajo de la
frecuencia central del ruido, pero que
la pendiente para frecuencias
superiores a la frecuencia central del
ruido se hace cada vez menos
pronunciada a medida que aumenta
el nivel del ruido. El umbral est
siempre 3 dB por debajo del nivel del
ruido.
COMPRESIN DE AUDIO
ii.
Enmascaramiento temporal
El enmascaramiento temporal sucede cuando dos estmulos sonoros llegan a nuestro odo
de forma cercana en el tiempo. El estmulo enmascarante har que el otro, el enmascarado,
resulte inaudible. En esta situacin, el tono ms intenso tiende a enmascarar al tono ms dbil.
Segn en el instante de tiempo en que se produce el estmulo enmascarante respecto el
instante en el que se produce el enmascarado, podremos distinguir entre
postenmascaramiento y preenmascaramiento.
El postenmascaramiento lo encontramos cuando es el tono de mayor amplitud el que
aparece primero en el tiempo seguido del de menor amplitud, percibiendo tan slo el primer
estmulo. Este fenmeno se produce cuando ambos sonidos llegan al odo humano separados
en el tiempo por un intervalo mnimo de entre 30 y 60 ms aproximadamente. Esto se debe a
que, percibido el tono fuerte, el odo necesita un cierto tiempo de adaptacin.
El preenmascaramiento producindose primero un estmulo suave y posteriormente un
tono intenso, este ltimo enmascarar igualmente al de menor amplitud, siempre y cuando
estn separados en el tiempo por una diferencia menor de entre 5 y 10 ms. Dado que este
fenmeno se presenta aun antes de que el tono enmascarante aparezca, implica que sea ms
problemtico que el postenmascaramiento. La explicacin de esta anticipacin se basa en
que la informacin que llega a la corteza auditiva del cerebro humano se procesa por rfagas.
Asimismo, es sabido que los sonidos intensos son procesados de forma ms rpida por el
cerebro que los sonidos suaves, facilitando de esta forma el fenmeno psicoacstico del
preenmascaramiento.
COMPRESIN DE AUDIO
3. COMPRESIN MP3
Comenzamos con las tres estrategias separadas, independientes de compresin de audio
que se utilizan en MPEG-1 y MPEG-2 y conocida como la capa I, la capa II, y Layer III. El audio
de Capa III algoritmo de compresin tambin se conoce como mp3. La mayora de los
estndares normativos tienen secciones y secciones informativas. Las acciones normativas son
aquellos que son necesarios para el cumplimiento a la norma. La mayora de las normas
actuales, incluyendo los estndares MPEG, definen el flujo de bits que se ha de sealar al
decodificador, dejando el diseo del codificador al individuo vendedores. Es decir, la definicin
de flujo de bits es normativa, mientras que la mayor orientacin sobre la codificacin es
informativo. As, dos corrientes de bits MPEG-compatible que codifican el mismo material de
audio en la misma velocidad pero en diferentes codificadores puede sonar muy diferente. Por
otro lado, un dado MPEG flujo de bits decodificado en diferentes decodificadores resultar en
esencialmente la misma salida.
Un diagrama de bloques simplificado que representa la estrategia bsica usada en las tres
capas es se muestra en la Ilustracin 9. La entrada, que consiste en palabras de PCM de 16
bits, se transforma primero al dominio de la frecuencia. Los coeficientes de frecuencia son
cuantificados, codificados y empaquetados en un flujo de bits MPEG. Aunque el enfoque
general es el mismo para todas las capas, los detalles puede variar significativamente. Cada
capa es progresivamente ms complicado que la capa anterior y tambin proporciona una
mayor compresin. Las tres capas son compatibles con versiones anteriores. Es decir, un
decodificador para Layer III debe ser capaz de decodificar I- capa y audio de capa II codificada.
Un decodificador para la capa II debe ser capaz de decodificar la capa I- codificada de audio.
Ntese la existencia de un bloque etiquetado modelo psicoacstico en la Ilustracin 9.
a. Codificacin Layer I
La capa I esquema de codificacin proporciona una mezcla 4: 1 de compresin. En la capa I de
codificacin de la frecuencia de tiempo mapeo se lleva a cabo utilizando un banco de 32 filtros
de subbanda. La salida de la sub-banda
Los filtros se muestrea crticamente. Es decir, la salida de cada filtro se muestrea hacia abajo
por 32. El las muestras se dividieron en grupos de 12 muestras cada uno. Doce muestras de
ILUSTRACIN 9: ALGORITMOS DE CODIFICACIN DE AUDIO MPEG
cada uno de los 32 filtros de sub-banda, o un total de 384 muestras, conforman un cuadro de
la capa I codificador. Una vez los componentes de frecuencia se obtienen el algoritmo examina
cada grupo de 12 muestras para determinar un factor de escala. El factor de escala se utiliza
para asegurarse de que los coeficientes hacen uso de toda la gama del cuantificador. La salida
de sub-banda se divide por el factor de escala antes de ser lineal cuantificados. Hay un total de
63 factores de escala especificado en el estndar MPEG estndar. Especificacin de cada factor
de escala requiere 6 bits.
Para determinar el nmero de bits a ser utilizados para la cuantificacin, el codificador
hace uso de la modelo psicoacstico. Las entradas al modelo figuran la Transformada Rpida
de Fourier (FFT) de los datos de audio, as como la propia seal. El modelo calcula los umbrales
de enmascaramiento en cada sub-banda, que a su vez determinar la cantidad de ruido de
cuantificacin que puede ser tolerada y por lo tanto el tamao del paso de cuantificacin. A
medida que los cuantificadores todos cubren el mismo rango, la seleccin del tamao de paso
de cuantificacin es la misma que la seleccin del nmero de bits a utilizar para cuantificar la
salida de cada sub-banda. En la capa I el codificador tiene una opcin de 14 diferentes
cuantificadores para cada banda (adems de la opcin de asignar los bits 0). Los
cuantificadores son todos midtread cuantificadores que van desde 3 niveles de 65.535 niveles.
Cada sub-banda se asigna una variable nmero de bits. Sin embargo, el nmero total de bits
disponibles para representar toda la subbanda Las muestras se fijaron. Por lo tanto, la
asignacin de bits puede ser un proceso iterativo. El objetivo es para mantener la relacin de
ruido a mscara ms o menos constante a travs de las sub-bandas.
La salida de las etapas de cuantificacin y de asignacin de bits se combinan en un
marco como se muestra en la Ilutracin 10. Debido a que el audio MPEG es un formato de
streaming, cada cuadro lleva un encabezado, en lugar de tener una nica cabecera de toda la
secuencia de audio. La cabecera est compuesta de 32 Bits. Los primeros 12 bits comprenden
un patrn de sincronizacin que consta de todos los 1s. Esto es seguido por un 1-bit
identificador de versin, un indicador de capa de 2 bits, una proteccin CRC 1 bits. El bit de
proteccin de CRC se establece en 0 si no hay proteccin CRC y se establece en un 1 si existe
una proteccin CRC. Si la capa y informacin de proteccin se sabe, todos los 16 bits se puede
utilizar para proporcionar la sincronizacin de trama. Los siguientes 4 bits forman el ndice de
tasa de bits, que especifica la velocidad de bits en kbits / seg.
COMPRESIN DE AUDIO
El modo de doble canal se compone de dos canales que se codifican por separado y no
estn destinado a ser jugado juntos, tal como un canal de traduccin. Estos son seguidos por
dos los bits de extensin de modo que se utilizan en el modo estreo de conjunto. El siguiente
bit es un bit de copyright ("1" si el material se copia derechos, "0" si no lo es). El siguiente bit
se pone a "1" para la original medios de comunicacin y "0" para la copia. Los ltimos dos bits
b. Codificacin Layer II
El codificador de Capa II proporciona una tasa de compresin ms alta, haciendo algunas
modificaciones relativamente menores a la capa I esquema de codificacin. Estas
modificaciones incluyen cmo las muestras se agrupan, la representacin de los factores de
escala, y la estrategia de cuantificacin. Cuando la capa I codificador pone 12 muestras de cada
sub-banda en una trama, la capa II grupos codificador tres series de 12 muestras de cada subbanda en un marco. El nmero total de muestras por trama aumenta de 384 muestras a 1152
muestras. Esto reduce la cantidad de sobrecarga por muestra. En la capa I de codificacin de
un factor de escala por separado se selecciona para cada bloque de 12 muestras. En la capa II
de codificacin el codificador trata de compartir un factor de escala entre los dos o los tres
grupos de muestras de cada filtro de sub-banda. La nica vez que factores de escala
independientes se utilizan para cada grupo de 12 muestras es cuando no hacerlo dara lugar a
un aumento significativo en la distorsin. La eleccin particular usado en un bastidor se
sealiza a travs del campo de informacin de factor de escala selectio en el flujo de bits.
COMPRESIN DE AUDIO
ms. Ntese que en el caso de los 3 niveles que tenemos que utilizar 2 bits por muestra, lo que
nos han permitido representamos 4 niveles. La situacin es an peor en el caso de los 5
niveles, en los que nos vemos obligados a utilizar 3 bits, perdiendo tres palabras de cdigo, y
en el caso de 9 niveles en los que tenemos que utilizar 4 bits, por lo tanto perder 7 niveles.
Para evitar esta situacin, los grupos codificador de capa II 3 muestras en un grnulo. Si cada
simple puede tomar en 3 niveles, un grnulo puede tomar en 27 niveles. Esto se puede
acomodar usando 5 bits.
Si cada muestra haba sido codificado por separado habramos necesitado 6 bits. Del
mismo modo, si cada muestra se puede tomar en 9 valores, un grnulo puede tomar en 729
valores. Podemos representar 729 valores usando 10 bits. Si cada muestra en el grnulo haba
sido codificado por separado, habramos necesitado 12 bits. El uso de todos estos ahorros, la
relacin de compresin en la capa II de codificacin puede ser aumento de 4: 1 a 8: 1 o 6: 1. La
estructura de trama para el codificador de capa II se puede ver en la Ilustracin 11. La nica
diferencia real entre esta estructura de bastidor y la estructura de trama de la capa I
codificador es el campo de informacin de seleccin de factor de escala.
ILUSTRACIN 12
ILUSTRACIN 13
ILUSTRACIN 14
Tenga en cuenta que no slo son los valores de la seal no cero no bien representados,
tambin hay error en las muestras antes de la variacin del valor de la seal. Si esto fuera una
seal de audio y los valores grandes haba ocurrido al inicio de la secuencia, el efecto de
enmascaramiento adelante habra reducido la perceptibilidad del error de cuantificacin. En la
situacin mostrada en la Ilustracin 14, el enmascaramiento hacia atrs enmascarar algunos
de los errores de cuantificacin. Sin embargo, el enmascaramiento hacia atrs se produce por
slo una corta duracin antes del sonido de enmascaramiento. Por lo tanto, si la longitud del
bloque en cuestin es ms largo que el intervalo de enmascaramiento, la distorsin ser
evidente para el oyente. Si obtenemos un sonido agudo que est muy limitada en el tiempo
(por ejemplo, el sonido de las castauelas) nos gustara mantener el tamao de bloque lo
suficientemente pequeo que puede contener este sonido agudo. Entonces, cuando
incurrimos ruido de cuantificacin que no conseguir hacia fuera del intervalo en el que se
produjo el sonido real y por lo tanto obtener enmascarado. El algoritmo Layer III vigila la
entrada y en caso necesario sustituye tres transformaciones cortos durante un largo
transforman. Lo que realmente ocurre es que la salida de sub-banda se multiplica por una
funcin de ventana de la longitud de 36 durante los periodos estacionarios (es decir un
tamao de bloque de 18, ms 50% de solapamiento
de bloques vecinos). Esta ventana se llama la ventana
de tiempo. Si se detecta un ataque agudo, el
algoritmo cambia a una secuencia de tres ventanas
COMPRESIN DE AUDIO
cortas de longitud 12 despus de una ventana de transicin de longitud 30. Esta ventana de
transicin inicial se denomina la ventana de inicio. Si la entrada vuelve a un modo ms
estacionario, las ventanas cortas son seguidos por otra ventana de transicin llamado la
ventana de parada de la longitud 30 y luego la secuencia estndar de las ventanas largas. El
proceso de transicin entre las ventanas se muestra en la Ilustracin 15.
La norma permite un modo de bloque mixto en el que los dos sub-bandas ms bajas
utilizan ventanas largas, mientras que las sub-bandas restantes utilizan ventanas cortas.
Ntese que, si bien el nmero de frecuencias puede cambiar dependiendo de si estamos
utilizando ventanas largas o cortas, el nmero de muestras en una trama se mantiene en 1152.
Eso es 36 muestras, o 3 grupos de 12 personas, de cada uno de los 32 filtros de subbanda.
La codificacin y de cuantificacin de la salida de la MDCT se lleva a cabo de forma
iterativa utilizando dos bucles anidados. Hay un bucle externo denominado el bucle de control
de distorsin cuyo propsito es garantizar que el ruido de cuantificacin introducido se
encuentra por debajo del umbral de audibilidad. Los factores de escala se utilizan para
controlar el nivel de ruido de cuantificacin. En la capa III factores de escala se asignan a
grupos o "bandas" de los coeficientes en la que las bandas son de aproximadamente el tamao
de bandas crticas. Hay 21 bandas de factor de escala para los bloques largos y 12 bandas de
factor de escala para bloques cortos. El bucle interior se llama el bucle de control de la
frecuencia. El objetivo de este ciclo es para asegurarse de que no se supera una velocidad de
bits de destino. Esto se hace mediante la iteracin entre diferentes cuantificadores y cdigos
de Huffman. Los cuantificadores utilizados en mp3 se compande cuantificadores no uniformes.
Los coeficientes MDCT escala son cuantificados primera y organizada en regiones. Los
coeficientes en el extremo superior de la escala de frecuencia es probable que se cuantificado
a cero. Estas salidas consecutivas cero son tratados como una sola regin y la longitud de
gestin es codificado Huffman. Por debajo de esta regin de coeficientes cero, el codificador
identifica el conjunto de coeficientes que son cuantificados a 0 o ??} 1. Estos coeficientes se
agrupan en grupos de cuatro. Este conjunto de cuatrillizos es la segunda regin de
coeficientes. Cada cuatrillo se codifica mediante una sola palabra de cdigo Huffman. Los
coeficientes restantes se dividen en dos o tres subregiones. Cada subregin se le asigna un
COMPRESIN DE AUDIO
Decimos ms porque los profesionales capacitados a veces puede decir la diferencia entre
las versiones original y comprimidos. Las personas que pueden identificar diferencias muy
pequeas entre las seales codificadas originales y han jugado un papel importante en el
desarrollo de codificadores de audio. Al identificar donde la distorsin puede ser audible que
han ayudado a mejorar el esfuerzo de enfoque del proceso de codificacin. Este proceso de
desarrollo ha hecho mp3 el formato de eleccin para msica comprimida.