Está en la página 1de 7

Informe Codificación Perceptual

Audio digital
Prof. Victor Espinoza

Introducción:

La intención de este informe es demostrar un experimento, análisis, y algunas conclusiones acerca de


la codificación de archivos digitales de audio y de cómo se perciben auditivamente las diferencias
para cada codificación. Para esto seguí las instrucciones entregadas por el profesor Espinoza(1).

Instrucciones (1)

Ejercicio 1:

Procedimiento:

Desde la página https://helpguide.sony.net/high-res/sample1/v1/en/index.html descargué el archivo


Sample_BeeMoved_96kHz24bit para trabajar con él ya que es parte del archivo original de la
canción. Realicé las conversiones a MP4 y OGG (vorbis) exportando en el software Ocenaudio y
luego en una sesión de Reaper importé los tres tracks: el original, el MP4 y el OGG.

En esa sesión, siguiendo las instrucciones sincronicé los archivos a nivel de muestra y luego realicé el
experimento. Este consistía en escuchar el audio original junto con cada una de sus codificaciones,
pero invirtiéndoles la fase. De esta manera se pueden apreciar sólamente las pérdidas del archivo
original en la codificación, ya que el resto se cancela.
Resultados:

Con el plugin Voxengo SPAN se puede apreciar visualmente el resultado en el espectro frecuencial:

Gráfico de pérdidas por codificación a MP4 (2)

Gráfico de pérdidas por codificación a OGG (3)


Conclusiones:

En la codificación a MP4 hay mayores pérdidas que para el caso del archivo OGG. Se nota
auditivamente al hacer el ejercicio, ya que se escuchan bien varios armónicos que deberían cancelarse
y el nivel de las pérdidas es mayor. En la codificación a OGG la pérdida se oye más como un ruido, y
al escuchar el archivo por sí solo parece más fiel al original que el MP4.
En las imágenes (2) y (3) se observa lo mismo, para las pérdidas del MP4 aparecen picos que
representan aquellos armónicos perdidos en la codificación y un nivel que supera los -50dB, mientras
que para el OGG la curva es más plana y su nivel se mantiene más cercano a los -60dB.

Ejercicio 2:

Procedimiento:

Para esta sección reutilicé el audio anterior ya que debía comparar un ejemplo electrónico con uno
acústico. Para el acústico descargué un archivo de la página
https://www.highresaudio.com/en/free-sampler : “01 Kari Ikonen Trio , Beauteous Tales and Offbeat
Stories - Countdown”. En ambos casos seleccioné en Ocenaudio una sección que me pareció
pertinente, de alrededor de quince segundos. Cada sección la exporté como MP4 en una velocidad de
128 y 96 kbps, lo que resultó en seis archivos distintos considerando los originales.

Luego de esto, y de oír repetidamente los audios para compararlos, realicé también la comparación
visual.

Resultados:

Espectrograma de sección acústica original (4)


Espectrograma de sección acústica, MP4-128kbps (5)

Espectrograma de sección acústica, MP4-96kbps (6)


Espectrograma sección electrónica original (7)

Espectrograma sección electrónica, MP4-128kbps (8)

Espectrograma sección electrónica, MP4-96kbps (8)


Conclusiones:

El espectrograma es un tipo de gráfico que nos permite visualizar tres aspectos de un archivo. El eje X
representa el tiempo, el eje Y representa la frecuencia y la “luminosidad” de lo que se visualiza
representa la amplitud del sonido. De esta manera pude realizar un análisis concreto de lo que sucede
al codificar con distintas tasas de compresión.

Recordemos que para formatos como el MP4 ya existe una gran reducción de datos. Como podemos
ver en las imágenes (5) y (8), sobre los 16kHz ya casi no existe información, y el formato 128kbps es
el formato más estandarizado del popular mp3. Esto es porque estos formatos cubren la necesidad de
tener archivos livianos, y la información menos perceptible se encuentra en las frecuencias más
agudas. Entonces, observando también las imágenes (4) y (7), lo primero que concluyo es que dentro
de la importante pérdida de información en las frecuencias más altas, si la velocidad de bits es menor,
menor será la “frecuencia de corte” del filtro que elimina esa información. Eso se puede evidenciar
tanto visual como auditivamente. Para el caso del ejemplo acústico, que no posee una importante
compresión previa, la pérdida de agudos en los platillos de la batería es muy notoria. En el caso del
ejemplo electrónico, muchos armónicos generados probablemente mediante saturaciones o
compresión fueron eliminados y eso provoca que la canción se escuche más opaca.

Pero no es solo eso. Una segunda conclusión que obtuve del ejercicio fue observando los
espectrogramas con sus distintas velocidades de bit en los MP4. En ambos casos, además de haber
pérdidas en las frecuencias más agudas, también se eliminó información bajo esas frecuencias. En
algunos lapsos de los archivos a 96kbps hay recortes que si bien no son tan fácilmente identificables
porque han de ser menos perceptibles o importantes, afectan a la continuidad del audio y así a la
percepción de su calidad (10) y (11).

Sección pequeña de archivo a 128kbps (10)


Sección pequeña de archivo a 96kbps (11)

Juan Bilbao Bagnara

También podría gustarte