Está en la página 1de 52

Compresin de Audio

Telecomunicaciones III
Ing. Luis Degregori C.

OBJETIVOS
Almacenamiento

Eficiente Usar el Streaming (Se refiere a ver u or un archivo directamente en una pgina web sin necesidad de descargarlo antes al ordenador) Aplicaciones Multimedia Interactivas

Objetivos de la Compresin
Ancho

de banda reducido Lograr que las seales decodificadas suenen tan parecidas al original como sea posible Complejidad de la Implementacin lo mas pequea posible. Robusta Escalable

Como se hace?
La compresin de La compresin de audio se hace por poraudio medios se de hace algoritmos medios de algoritmos
Para lograr una mejor reduccin de archivo se utiliza una tcnica conocida como PNS (Norma de Percepcin de Ruido) que aprovechan caractersticas del odo humano para ser la compresin .

Clases de compresin de audio


Se

tienen basicamente 02 clases: a) Lossless

Son formatos que no pierden claridad ni calidad al comprimirse, pero que ocupan una mayor cantidad de espacio en el disco duro. Usos:

Tcnicos de sonidos y entusiastas de la calidad


FLAC, APE y TTA

Formato de compresin de audio


b) Lossy
Engloba a aquellos formatos que (al comprimir el audio) sacrifican algo de calidad Ocupan poco espacio en el disco.

Usos:
Publico en general. El formato MPC, OGG y MP3

Tcnicas de Compresin

Voc File Compression (Elimina los silencios, codificndolos de forma parecida al RLE) Linear Predictive Coding (Usado en discursos, compara el discurso contra un modelo analtico del tracto vocal: cavidades farngea oral y nasal) Compresin Ley y Ley A (Sist. de Codific. Logaritmica usados en Telefona) Modulacion PCM diferencial.

Psicoacstica
Estudia

la percepcion subjetiva de las cualidades (caractersticas) del SONIDO: Intensidad, Tono y Timbre. Esto se puede aprovechar, debido a a la SensibilidaddelOidoHumano.

Codificacin Perceptual
La percepcin acstica humana esta determinada x dos dimensiones: frecuencia e intensidad. En el dominio de la frecuencia, el odo humano es capaz de percibir frecuencias en el rango de los 20 Hz hasta los 20 KHz En cuanto a la intensidad, los humanos perciben un rango dinmico en torno a los 120 dB. Sonidos de intensidad superior a los 90 dB. pueden provocar daos irreversibles.

Caractersticas del sonido

La intensidad

La intensidad de un sonido depende de la amplitud de onda. Las intensidades de los sonidos que podemos percibir tienen un rango de ms de 15 rdenes de magnitud por lo que para su medicin se usa una escala logartmica (decibelios)

donde a es la amplitud de onda del sonido que se est midiendo, y aref es la amplitud de referencia (la del sonido con el cual se compara).

Caractersticas del sonido

El timbre

Eltimbreeslapersonalidaddeunsonidoypermite distinguir, por ejemplo, el sonido de un piano y de una trompeta con igual duracin, intensidad y tono. Grficamente, el timbre se caracteriza por la forma de la onda. Las ondas sinusoidales puras slo se obtienen electrnicamente, pero en la naturaleza, los sonidos son ms complejos. La frecuencia de vibracin ms grave (frecuencia base) es la que determina el periodo y la amplitud. Las restantes frecuencias, que suelen ser mltiplos de la frecuencia base, son los armnicos.

Psicoacstica

El objetivo es eliminar partes irrelevantes de la seal de audio. El sistema auditivo humano es incapaz de escuchar el ruido de cuantificacin bajo condiciones de enmascaramiento auditivo. El enmascaramiento ocurre siempre que una seal fuerte envuelve a una vecindad de seales de audio mas dbiles imperceptibles.

Tolerancia al ruido de Enmascaramiento

La capacidad de resolucin del odo humano es funcion de la frecuencia. La tolerancia al ruido de enmascaramiento , a cualquier frecuencia, depende solamente de la energa de la seal en una vecindad a esa frecuencia.

El modelo Psicoacstico

Analiza la seal de audio y calcula la cantidad de ruido de enmascaramiento como una funcin de la frecuencia. El codificador decide la mejor manera de representar la seal de entrada con un mnimo nmero de bits.

El Umbral de Audicion

Los receptores de sonido, tienen un comportamiento que vara con la frecuencia. En el caso del odo humano, sucede lo mismo, ya que se trata el receptor ms complicado y eficiente que existe. El umbral de audicin define la mnima presin requerida para excitar el odo.

El Umbral de Audicion

El Umbral de Audicin, para la media de los humanos, se fija en 20 Pa (20 micro pascales = 0.000002 pascales), para... frecuencias entre 2KHz y 4KHz. Por encima y por debajo de estas frecuencias, la presin requerida para excitar el odo es mayor.

El Umbral de Audicion

El siguiente grafico muestra el Umbral de audicion.

El banco de filtros hbrido

Componente clave comn a todas las capas. Divide la seal de audio (tipicamente) en 32 sub-bandas de frecuencia de igual ancho. Los filtros brindan una resolucin razonable de frecuencia. Bandas crticas asociadas con los modelos psicoacsticos.

Pasos bsicos

Alinear la informacin sonora con el tiempo. Convertir el audio a una representacion en el dominio de la frecuencia. Procesar los valores espectrales en sus componentes tonales y no tonales. Aplicar una funcin de dispersin. Definir una cota inferior para las tolerancias. Hallar estas tolerancias para cada sub-banda. Calcular la relacin seal a mscara.

Formatos de audio mas comunes


MPEG Moving Pictures Experts Group ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)
Lo utiliza apple para los archivos de audio q reproduce Ipod

WAV
DesarrolladoporMicrosoft.GrabacinporCds.

AU(audio for unix) WMA(Windows media audio) MIDI


para la industria de la msica electrnica

MPEG

Moving Picture Experts Group

Parte

de un estndard mltiple para:

Compresin

de video Compresin de audio Sincronizacin de Audio, Video y Data para un bit rate total de 1.5 Mbit/sec

Compresin de Audio MPEG1


A nivel fsico, presenta prdidas. A nivel perceptual sin prdidas, algoritmo transparente. Explota propiedades perceptuales del odo humano. Modelamiento Psicoacstico. MPEG Audio Standard asegura interoperabilidad define una sintaxis codificada de bit stream, define el proceso de decodificacin y asegura la precisin del decodificador.

Caractersticas del Audio MPEG1


Eliminacin de partes perceptualmente irrelevantes de la seal de audio. Tasas de muestreo de: 32, 44.1 and 48 kHz. Ofrece la eleccion de 3 capas independientes. Opcionalmente, deteccion de error mediante Cyclic Redundancy Check (CRC). Las 3 capas permiten la implementacion del decoder(tiempo real) en un solo chip.

Caractersticas del Audio MPEG1

Informacin adicional puede ser incluida en el bit stream. Caractersticas como: acceso aleatorio, avance rpido y avance en reversa son posibles. Cuantificacin, la clave para la codificacion de audio en MPEG. Compresiones de audio fieles al original con ratios como de 6 a 1.

MPEG1 Audio - Capa I

Es la codificacin mas sencilla. Bit rates predefinidos en 32 a 448 kbps por canal. Cada frame contiene una cabecera, opcionalmente bits de chequeo de error(CRC) y posiblemente informacin adicional. Ejemplo: Philips Digital Compact Cassette

MPEG1 Audio Capa II


Complejidad Intermedia Bit rates predefinidos en 32 a 384 kbps por canal. Digital Audio Broadcasting (DAB) Video y audio sincronizado en CD-ROM. Crea frames de 1152 muestras por canal de audio.

MPEG1 Audio - Capa III: MP3


Basado en los bancos de filtros hbridos de las capas I y II . Codificacin (Entropica) mas compleja. La mejor calidad de sonido. Bit rates predefinidos en 32 a 320 kbps por canal. Adecuado para transmisin de audio a travs de RDSI. Norma ISO/IEC 11172

MPEG1 Audio Capa III (MP3)

Mejoras de la capa III: MP3


Reduccin del Alias. (Codific. Huffman) Elimina mas redundancia. Cuantificacin no uniforme. Optimizacion de factores de escala por c/u de las sub-bandas. Usodeunreservoriodebits.

Caractersticas por nivel para el MPEG-1.


CAPA FRECUENCIAS DE MUESTREO TASA DE BITS (Kbps)

Capa I
Capa II Capa III

De 32 a 448

32, 44.1 y 48 KHz

De 32 a 384 De 32 a 320

Mejoras de la capa III: MP3


Reduccin del Alias. (Codific. Huffman) El archivo de audio de un CD, usa: Frecuencia muestreo: 44.1 KHz, Codificacin: 16 bits, Modo: estreo

Calculando

se tendr: 1,411,200 bits/s

MPEG en el futuro

MPEG-1: Video CD and MP3. MPEG-2: Televisin Digital y DVD MPEG-4: Web(fija y mvil) MPEG-7: descripcin y bsqueda de contenido de audio y visual. MPEG-21: Multimedia Framework

OTROS FORMATOS DE AUDIO MS COMUNES

Esta es una descripcion de algunos formatos de compresin de audio los ms usados hoy en da, sus ventajas, extensiones y principales usos

WAV
Extensin: wav Desarrollado por Microsoft e IBM 1995. Es el archivo digital del sonido sin comprimir. Es 10 a 12 veces mas pesado que el mp3. EsunestndarparamsicaenCDs. Funciona en cualquier aplicacin Windows y en equipos domsticos comunes con reproductor de CDs.

ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)

Extensin: .aac Codificacin estndar para audio reconocida por ISO solo en el patrn MPEG-2. Es mas eficiente que el MP3 en el mismo espacio (Con igual bitrate). Ocupa menos espacio que el mp3. (Aproxim. el 70 %) No es compatible con el MPEG-1.

ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)

Este formato de Audio lo utiliza Apple para los archivos de audio y que pueden comprarse a travs de Internet. Frecuencia de muestreo: 16 KHz, 22.05 KHz , 24 KHz. Mxima calidad entre 320 y 384 Kbps (5 canales) a diferencia del MP3 (solo Stereo).

ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)

Diagrama de bloques del AAC en MPEG-2

AC-3 (DOLBY DIGITAL)

Extensin: .ac3 Recibe un streaming de los 06 canales codificados en PCM (Que emplea 9 bits por muestra y los muestrea a 48 KHz) para comprimirlos a 384 Kbps. Es muy popular y muy eficiente, usa 05 canales + un sexto canal exclusivo para las bajas frecuencias (120 Hz o menos). Es empleado en los sistemas ATSC.

AU (Audio for Unix)

Extensin: au

Para archivos de sonido con S.O. Unix de SunMicrosystemsandNeXT.


Estndar acstico para el lenguaje JAVA.

WMA (Windows Media Audio)

Extensin: wma

Versin de Windows para comprimir Audio, muy parecido a MP3. Se adapta a diferentes velocidades de conexin (Cuando se necesite reproducir en Internet
en Tiempo Real).

MIDI

Extensin: midi Es un protocolo de communicacion de datos Por sus siglas en ingles, quiere decir interfaz digital para instrumentos musicales. Estndar en la INDUSTRIA de la msica ELECTRONICA. Muy til cuando se usan sintetizadores musicales tarjetas de Sonido.

MIDI

Extensin: midi
Por el tamao resultante que ofrece su compresin, este formato es muy usado para dispositivos y/o reproductores que necesitan combinar archivos de audio y video, como los karaoke. (Otros como el: teclado, bateria, guitarra, flauta, ...). Permite intercambiar datos entre diversos equipos musicales.

Teora del audio AC3:


El Dolby Digital 5.1, llamado tcnicamente AC3. Naci en los aos 90, incorpora 5 o seis canales independientes de sonido. Cada canal es independiente para cada altavoz y reproduce todo tipo de frecuencias, menos el 6to, que solo se encarga de las ms bajas

OGG VORBIS

Extensin: ogg

Tambin se utiliza para guardar y reproducir msica digital. Se diferencia del resto de grupo por que es gratuito, abierto y no esta patentado. Su principal atractivo es la importante reduccin que hace de un archivo de audio manteniendo una alta calidad.

OGG VORBIS

Extensin: ogg

Gran versatilidad para reproducirse en cualquier dispositivo y por ocupar muy poco espacio (Menor respecto al mp3). Adecuado para enviar musica via internet por streaming, a diferencia del mp3. Tipo lossless, comparable con el AAC.

ATRAC (Adaptive TRansform Acoustic Coding)

Este formato se utiliza en tecnologa de compresin y reproduccin para minidisc. Desarrollado por SONY. Codifican el sonido, a unas tasas de datos del orden del 10% de lo requerido en un CD.

ATRAC (Adaptive TRansform Acoustic Coding)

Usa 08 canales y divide la seal en tres partes o bandas:


a) b)

Menor a 5,5 kHz Entre 5,5 y 11 kHz

c)

Mayor a 11 kHz

Tiene

una calidad similar al AC-3. Se emplea en el sector de audio y algunos dispositivos porttiles como PDA, y en telfonos inteligentes.

ATRAC (Adaptive TRansform Acoustic Coding)

Mean Opinion Score


El

puntaje de opinin significativo (MOS) es un mtodo directo de la evaluacin de la calidad de voz muy ampliamente usado. La prueba MOS concierne solamente al resultado de la experiencia del usuario, por lo tanto se llama a los usuarios para la evaluacin.

Mean Opinion Score


Escala de Calificacin Excelente (Excellent)
Puntuacin Escala de Esfuerzo para escuchar No se requiere esfuerzo

Bueno (Good)
Regular (fair) Pobre (Poor)

4
3 2

No se requiere esfuerzo apreciable


Se requiere poco esfuerzo Se requiere considerable esfuerzo

Malo (Bad)

No se entiende aun con un considerable esfuerzo

Resumen de algunos formatos de audio digital


Formato PCM (G.711) ADPCM (G.721) SB-ADPCM (G.722) MP-MLQ (G.723.1) ADPCM (G.726) E-ADPCM (G.727) LD-CELP (G.728) CS-ACELP (G.729) RPE-LTP (GSM 06.10) CELP (FS 1016) LPC-10E (FS 1015) CD-DA / DAT MPEG-1 Layer I MPEG-1 Layer II MPEG-1 Layer III (MP3) MPEG-2 AAC Frec. Muestreo (KHz) 8 8 16 8 8 8 8 8 8 8 8 44,1/48 32/44,1/48 32/44,1/48 32/44,1/48 32/44,1/48 Canales 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 5.1 Caudal por canal (Kb/s) 64 32 48/56/64 6,3/5,3 variable 16/24/32/40 16/24/32/40 16 8 13,2 4,8 2,4 705,6/768 192-256 variable 96-128 variable 64 variable 32-44 variable Hi-Fi Internet Hi-Fi Internet
52

Uso Telefona Telefona Vdeoconferenc. Telefona Internet Telefona Telefona Telefona/Videoc. Telefona Internet Telefona GSM

Bajo Retardo (ITU-T)

Audio Hi-Fi

Elevado Retardo (ISO)

También podría gustarte