Compresion de Audio

Compresión de Audio
Telecomunicaciones III
Ing. Luis Degregori C.
OBJETIVOS
 Almacenamiento Eficiente
 Usar el Streaming (Se refiere a ver u oír
un archivo directamente en una página
web sin necesidad de descargarlo antes al
ordenador)
 Aplicaciones Multimedia Interactivas
Objetivos de la Compresión
 Reduccion del Ancho de banda.
 Lograr que las señales decodificadas
suenen tan parecidas al original como sea
posible
 Complejidad de la Implementación lo mas
pequeña posible.
 Robusta
 Escalable
¿Como se hace?
La compresión de
La compresión de audio se hace
poraudio
medios se
de hace por
algoritmos
medios de algoritmos
Para lograr una mejor reducción de archivo se

utiliza una técnica conocida como PNS (Norma
de Percepción de Ruido) que aprovechan
características del oído humano para ser la
compresión .
Clases de compresión de audio
 Se tienen basicamente 02 clases:

a) Lossless
Son formatos que no pierden claridad ni calidad al
comprimirse, pero que ocupan una mayor cantidad de
espacio en el disco duro.
Usos:
Técnicos de sonidos y entusiastas de la calidad
FLAC, APE y TTA
Formato de compresión de audio
b) Lossy
Engloba a aquellos formatos que (al comprimir el audio)
sacrifican algo de calidad
Ocupan poco espacio en el disco.
Usos:
Publico en general. El formato MPC, OGG y MP3
Técnicas de Compresión
 Voc File Compression (Elimina los
silencios, codificándolos de forma parecida al
RLE)
 Linear Predictive Coding (Usado en
discursos, compara el discurso contra un
modelo analítico del tracto vocal: cavidades
faríngea oral y nasal)
 Compresión Ley µ y Ley A (Sist. de Codific.
Logaritmica usados en Telefonía)
 Modulacion PCM, DPCM o ADPCM.
Psicoacústica
 Estudia la percepcion subjetiva de las

cualidades (características) del SONIDO:
 Intensidad, Tono y Timbre.
 Esto se puede aprovechar, debido a a la
“Sensibilidad del Oido Humano”.
Codificación Perceptual
La percepción acústica humana esta determinada x dos

dimensiones: frecuencia e intensidad.
En el dominio de la frecuencia, el oído humano es capaz de

percibir frecuencias en el rango de los 20 Hz hasta los 20
KHz
En cuanto a la intensidad, los humanos perciben un rango

dinámico en torno a los 120 dB.
Sonidos de intensidad superior a los 90 dB. pueden

provocar daños irreversibles.
Características del sonido
La intensidad
La intensidad de un sonido depende de la amplitud de
onda.
Para la medición de las intensidades de un sonido, se usa
una escala logarítmica (decibelios)
W exist
dB =10 * log 10
W ref.
Donde:
W exist. es la amplitud del sonido que se está midiendo y
W ref es la amplitud de referencia (la del sonido con el cual
se compara).
Características del sonidoLa intensidad
Las intensidades de los sonidos que podemos percibir
tienen un rango de más de 15 órdenes de magnitud.
La Amplitud de Referencia (aref ) es: 10 -12 Watts/m2
Por ejemplo tenemos:
Fuentes de Sonido Presión de sonido Intensidad de Sonido

Nivel dB SPL W/m2
Dentro de una casa en una zona 30.0 10 -9 Watts/m2
residencial a las 02:00 a.m.
Una Aspiradora, a 1.0 metro 70.0 10 -5 Watts/m2
Un Mega Concierto, a 10.0 metros 130.0 10 Watts/m2
de los parlantes (Umbral del Dolor)
Características del sonido
El timbre
El timbre es el espectro de frecuencias del sonido y este
permite distinguir, por ejm: el sonido de un piano y de una
trompeta con igual duración, intensidad y tono.
Gráficamente, el timbre se caracteriza por la forma de la
onda. Las ondas sinusoidales puras sólo se obtienen
electrónicamente, pero en la naturaleza, los sonidos son
más complejos.
La frecuencia de vibración más grave (frecuencia base) es
la que determina el periodo y la amplitud.
Las restantes frecuencias, que suelen ser múltiplos de la
frecuencia base, son los armónicos.
Psicoacústica
 Procesopor el cual se aprovecha las

“Imperfecciones” del oido Humano.
 Elobjetivo eliminar informacion

intracendente.
Psicoacústica
 El objetivo es eliminar partes irrelevantes de la
señal de audio.
 El sistema auditivo humano es incapaz de
escuchar el ruido de cuantificación bajo
condiciones de enmascaramiento auditivo.
 El enmascaramiento ocurre siempre que una
señal fuerte envuelve a una vecindad de
señales de audio mas débiles imperceptibles.
Tolerancia al ruido de
Enmascaramiento
 La capacidad de
resolución del oído
humano es funcion Señal Tonal
A Intensa
de la frecuencia. M
 La tolerancia al ruido P Region donde las
de L otras señales son
I enmascaradas
enmascaramiento, T
depende de la U
energía de la señal D
en una vecindad a
esa frecuencia. FRECUENCIA
Ruido de Enmascaramiento
 Analiza la señal de audio y calcula la cobertura del
ruido de enmascaramiento como una función de la
frecuencia.
 El codificador decide la mejor manera de

representar la señal de entrada con un mínimo
número de bits.
El Umbral de Audicion
 Los receptores de sonido, tienen un

comportamiento que varía con la frecuencia. En
el caso del oído humano, sucede lo mismo, ya
que se trata el receptor más complicado y
eficiente que existe.
 El umbral de audición define la mínima presión

requerida para excitar el oído.
 El Umbral de Audición, para la media de los

humanos, se fija en 20 µPa (20 micro pascales =
0.000002 pascales), para...
frecuencias entre 2KHz y 4KHz.
Por encima y por debajo de estas frecuencias, la

presión requerida para excitar el oído es mayor.
 El siguiente grafico muestra el Umbral de audicion.
El banco de filtros híbrido
 Empleado desde los 80s – Bell Labs.

 Divide la señal de audio (tipicamente) en 32
sub-bandas de frecuencia de anchos de banda
pequeños.
 Los filtros brindan un corte muy definido (aprox.
100 dB/Octava).
 Esto limitara el ruido de cuantizacion.
 Cada banda se codificara independientemente.
El banco de filtros híbrido
Todas las sub-bandas se muestrean por separado.
Sub-banda 0
Sub-banda 1
Sub-banda 2
Sub-banda 31
Pasos básicos
 Para conseguir las sub-bandas:

 Se convierte el audio a una representacion en el
dominio de la frecuencia.
 Se procesan los valores espectrales en sus
componentes tonales y no tonales.
 Se Aplica una función de dispersión.
 Definir una cota inferior para las tolerancias.
 Se definen estas tolerancias para cada sub-
banda.
Esquema de Codificacion Perceptual
Codificador Empleo de menos
1
bits en la transmision
2
Analizador Sintetizador
del banco del banco
Audio IN de filtros De filtros Audio OUT
3
…...
Modelo Cuantizador
Psicoacustico
Formatos de audio mas comunes
 MPEG Moving Pictures Experts Group
 ADVANCED AUDIO CODING (Codificacion

de Audio Avanzada)
Lo utiliza apple para los archivos de audio q reproduce Ipod
 WAV
 Desarrollado por Microsoft . Grabación por Cd’s.
 AU(audio for unix)
 WMA(Windows media audio)
 MIDI
 para la industria de la música electrónica
MPEG
 Moving Picture Experts Group
 Parte de un estándard múltiple para:
 Compresión de video
 Compresión de audio
 Sincronización de Audio, Video y Data para un

bit rate total de 1.5 Mbit/sec
Compresión de Audio MPEG1
 A nivel físico, presenta pérdidas.
 A nivel perceptual sin pérdidas, algoritmo
transparente.
 Explota propiedades perceptuales del oído
humano.
 Modelamiento Psicoacústico.
 MPEG Audio Standard asegura interoperabilidad
define una sintaxis codificada de bit stream,
define el proceso de decodificación y asegura la
precisión del decodificador.
Características del Audio MPEG1
 Eliminación de partes perceptualmente

irrelevantes de la señal de audio.
 Tasas de muestreo de: 32, 44.1 and 48 kHz
(Muestras de hasta 16 bits).
 Ofrece la eleccion de 3 capas independientes.
 Opcionalmente, deteccion de error mediante
Cyclic Redundancy Check (CRC).
 Las 3 capas permiten la implementacion del
decoder (tiempo real) en un solo chip.
Características del Audio MPEG1
 Información adicional puede ser incluida en el bit

stream.
 Características como: acceso aleatorio, avance
rápido y avance en reversa son posibles.
 Cuantificación, la clave para la codificacion de
audio en MPEG.
 Compresiones de audio fieles al original con
ratios como de 6 a 1.
MPEG1 Audio - Capa I
 Es la codificación mas sencilla.

 Bit rates predefinidos en 32 a 448 kbps por
canal.
 Cada frame contiene una cabecera,
opcionalmente bits de chequeo de error (CRC) y
posiblemente información adicional.
 Ejemplo: Philips Digital Compact Cassette
MPEG1 Audio – Capa II
 Complejidad Intermedia
canal.
 Digital Audio Broadcasting (DAB)
 Video y audio sincronizado en CD-ROM.
 Crea frames de 1152 muestras por canal de
audio.
MPEG1 Audio - Capa III: MP3
 Basado en los bancos de filtros híbridos de las

capas I y II .
 Codificación (Entropica) mas compleja.
 La mejor calidad de sonido.
canal.
 Adecuado para transmisión de audio a través de
RDSI.
 Norma ISO/IEC 11172
MPEG1 Audio Capa III (MP3)
Mejoras de la capa III: MP3
 Reducción del Alias. (Codific. Huffman)

 Elimina mas redundancia.
 Cuantificación no uniforme.
 Optimizacion de factores de escala por c/u de
las sub-bandas.
 Uso de un “reservorio” de bits.
Características por nivel para el
MPEG-1.
CAPA FRECUENCIAS DE TASA DE

MUESTREO BITS
(Kbps)
Capa I De 32 a 448
Capa II 32, 44.1 y 48 KHz De 32 a 384
Capa III De 32 a 320
Mejoras de la capa III: MP3
 Reducción del Alias. (Codific. Huffman)

 El archivo de audio de un CD, usa:
 Frecuencia muestreo: 44.1 KHz,
 Codificación: 16 bits,
 Modo: estéreo
 Calculando se tendrá: 1,411,200 bits/s

MPEG en el futuro
 MPEG-1: Video CD and MP3.

 MPEG-2: Televisión Digital y DVD
 MPEG-4: Web(fija y móvil)
 MPEG-7: descripción y búsqueda de contenido
de audio y visual.
 MPEG-21: Multimedia Framework
OTROS FORMATOS DE AUDIO
MÁS COMUNES
 Esta es una descripcion de algunos

formatos de compresión de audio los más
usados hoy en día, sus ventajas,
extensiones y principales usos
ANTECEDENTES: WAV
 Extensión: wav
 Desarrollado por Microsoft e IBM – 1995.
 Es el archivo digital del sonido sin
comprimir.
 Es 10 a 12 veces mas pesado que el mp3.
 Es un estándar para música en CD’s.
 Funciona en cualquier aplicación Windows
y en equipos domésticos comunes con
reproductor de CD´s.
ADVANCED AUDIO CODING
(Codificacion de Audio Avanzada)
 Extensión: .aac
 Codificación estándar para audio
reconocida por ISO solo en el patrón
MPEG-2.
 Es mas eficiente que el MP3 en el mismo
espacio (Con igual bitrate).
 Ocupa menos espacio que el mp3.
(Aproxim. el 70 %)
 No es compatible con el MPEG-1.
 Este formato de Audio lo utiliza Apple para los

archivos de audio y que pueden comprarse a
través de Internet.
 Frecuencia de muestreo: 16 KHz, 22.05 KHz , 24
KHz.
 Máxima calidad entre 320 y 384 Kbps (5
canales) a diferencia del MP3 (solo Stereo).
Diagrama de bloques del AAC en MPEG-2

AC-3 (DOLBY DIGITAL)
 Extensión: .ac3
 Recibe un streaming de los 06 canales
codificados en PCM (Que emplea 9 bits
por muestra y los muestrea a 48 KHz)
para comprimirlos a 384 Kbps.
 Es muy popular y muy eficiente, usa 05
canales + un sexto canal exclusivo para
las bajas frecuencias (120 Hz o menos).
 Es empleado en los sistemas ATSC.
AUDIO AC3:
 El Dolby Digital 5.1, llamado

técnicamente AC3.
 Nació en los años 90, incorpora 5 o seis
canales independientes de sonido.
 Cada canal es independiente para cada
altavoz y reproduce todo tipo de
frecuencias, menos el 6to, que solo se
encarga de las más bajas
AU (Audio for Unix)
 Extensión: au
 Para archivos de sonido con S.O. Unix de

Sun™ Microsystems and NeXT™.
 Estándar acústico para el lenguaje JAVA.

WMA (Windows Media Audio)
 Extensión: wma
 Versión de Windows para comprimir

Audio, muy parecido a MP3.
 Se adapta a diferentes velocidades de

conexión (Cuando se necesite reproducir en Internet
en Tiempo Real).
MIDI
 Extensión: midi
 Es un protocolo de communicacion de datos
 Por sus siglas en ingles, quiere decir interfaz
digital para instrumentos musicales.
 Estándar en la INDUSTRIA de la música
ELECTRONICA.
 Muy útil cuando se usan sintetizadores
musicales ó tarjetas de Sonido.
MIDI
 Extensión: midi
 Por el tamaño resultante que
ofrece su compresión, este
formato es muy usado para
dispositivos y/o reproductores
que necesitan combinar
archivos de audio y video,
como los karaoke. (Otros
como el: teclado, bateria,
guitarra, flauta, ...).
 Permite intercambiar datos
entre diversos equipos
musicales.
OGG VORBIS
 Extensión: ogg
 También se utiliza para guardar y

reproducir música digital.
 Se diferencia del resto de grupo por que
es gratuito, abierto y no esta patentado.
 Su principal atractivo es la importante
reducción que hace de un archivo de
audio manteniendo una alta calidad.
OGG VORBIS
 Extensión: ogg
 Gran versatilidad para reproducirse en

cualquier dispositivo y por ocupar muy
poco espacio (Menor respecto al mp3).
 Adecuado para enviar musica via internet
por streaming, a diferencia del mp3.
 Tipo lossless, comparable con el AAC.
ATRAC
(Adaptive TRansform Acoustic Coding)
 Este formato se utiliza en tecnología (de grabación de disco magneto-
óptico) de compresión y reproducción para minidisc.
 Desarrollado por SONY (Discos de 64 mm).
 Codifican el sonido, a unas tasas de datos del orden del 10% de lo
requerido en un CD.
ATRAC
 Usa 08 canales y divide la señal en tres partes o

bandas:
a) Menor a 5,5 kHz
b) Entre 5,5 y 11 kHz
c) Mayor a 11 kHz
 Tiene una calidad similar al AC-3.

 Se emplea en el sector de audio y algunos
dispositivos portátiles como PDA, y en
teléfonos inteligentes.
ATRAC
Mean Opinion Score
 El puntaje de opinión significativo (MOS)

es un método directo de la evaluación de
la calidad de voz muy ampliamente
usado.
 La prueba MOS concierne solamente al
resultado de la experiencia del usuario,
por lo tanto se llama a los usuarios para
la evaluación.
Mean Opinion Score
Escala de Puntuación Escala de Esfuerzo para

Calificación escuchar
Excelente 5 No se requiere esfuerzo
(Excellent)
Bueno (Good) 4 No se requiere esfuerzo
apreciable
Regular (fair) 3 Se requiere poco esfuerzo
Pobre (Poor) 2 Se requiere considerable

esfuerzo
Malo (Bad) 1 No se entiende aun con un
considerable esfuerzo
Resumen de algunos formatos de audio digital
Formato Frec. Muestreo Canales Caudal por canal Uso
(KHz) (Kb/s)
PCM (G.711) 8 1 64 Telefonía
ADPCM (G.721) 8 1 32 Telefonía
SB-ADPCM (G.722) 16 1 48/56/64 Vídeoconferenc.
MP-MLQ (G.723.1) 8 1 6,3/5,3 variable Telefonía Internet
ADPCM (G.726) 8 1 16/24/32/40 Telefonía
Bajo E-ADPCM (G.727) 8 1 16/24/32/40 Telefonía

Retardo LD-CELP (G.728) 8 1 16 Telefonía/Videoc.
(ITU-T) CS-ACELP (G.729) 8 1 8 Telefonía Internet
RPE-LTP (GSM 06.10) 8 1 13,2 Telefonía GSM
CELP (FS 1016) 8 1 4,8
LPC-10E (FS 1015) 8 1 2,4
CD-DA / DAT 44,1/48 2 705,6/768 Audio Hi-Fi
MPEG-1 Layer I 32/44,1/48 2 192-256 variable
Elevado MPEG-1 Layer II 32/44,1/48 2 96-128 variable
Retardo MPEG-1 Layer III (MP3) 32/44,1/48 2 64 variable Hi-Fi Internet
(ISO) MPEG-2 AAC 32/44,1/48 5.1 32-44 variable Hi-Fi Internet
56

Compresion de Audio

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Compresion de Audio

Cargado por

Copyright:

Formatos disponibles

Compresión de Audio

Para lograr una mejor reducción de archivo se

 Se tienen basicamente 02 clases:

 Estudia la percepcion subjetiva de las

La percepción acústica humana esta determinada x dos

En el dominio de la frecuencia, el oído humano es capaz de

En cuanto a la intensidad, los humanos perciben un rango

Sonidos de intensidad superior a los 90 dB. pueden

La Amplitud de Referencia (aref ) es: 10 -12 Watts/m2

Por ejemplo tenemos:

Fuentes de Sonido Presión de sonido Intensidad de Sonido

 Procesopor el cual se aprovecha las

 Elobjetivo eliminar informacion

 El codificador decide la mejor manera de

 Los receptores de sonido, tienen un

 El umbral de audición define la mínima presión

 El Umbral de Audición, para la media de los

frecuencias entre 2KHz y 4KHz.

Por encima y por debajo de estas frecuencias, la

 Empleado desde los 80s – Bell Labs.

 Para conseguir las sub-bandas:

 ADVANCED AUDIO CODING (Codificacion

 AU(audio for unix)

 WMA(Windows media audio)

 Sincronización de Audio, Video y Data para un

 Eliminación de partes perceptualmente

 Información adicional puede ser incluida en el bit

 Es la codificación mas sencilla.

 Basado en los bancos de filtros híbridos de las

 Reducción del Alias. (Codific. Huffman)

CAPA FRECUENCIAS DE TASA DE

 Reducción del Alias. (Codific. Huffman)

 Calculando se tendrá: 1,411,200 bits/s

 MPEG-1: Video CD and MP3.

 Esta es una descripcion de algunos

 Este formato de Audio lo utiliza Apple para los

Diagrama de bloques del AAC en MPEG-2

 El Dolby Digital 5.1, llamado

 Para archivos de sonido con S.O. Unix de

 Estándar acústico para el lenguaje JAVA.

 Versión de Windows para comprimir

 Se adapta a diferentes velocidades de

 También se utiliza para guardar y

 Gran versatilidad para reproducirse en

 Usa 08 canales y divide la señal en tres partes o

 Tiene una calidad similar al AC-3.

 El puntaje de opinión significativo (MOS)

Escala de Puntuación Escala de Esfuerzo para

Pobre (Poor) 2 Se requiere considerable

Bajo E-ADPCM (G.727) 8 1 16/24/32/40 Telefonía

También podría gustarte