Curso Telecom III-Compresion-De-Audio 2012

Compresin de Audio
Telecomunicaciones III
Ing. Luis Degregori C.
OBJETIVOS
Almacenamiento
Eficiente Usar el Streaming (Se refiere a ver u or un archivo directamente en una pgina web sin necesidad de descargarlo antes al ordenador) Aplicaciones Multimedia Interactivas
Objetivos de la Compresin
Ancho
de banda reducido Lograr que las seales decodificadas suenen tan parecidas al original como sea posible Complejidad de la Implementacin lo mas pequea posible. Robusta Escalable
Como se hace?
La compresin de La compresin de audio se hace por poraudio medios se de hace algoritmos medios de algoritmos
Para lograr una mejor reduccin de archivo se utiliza una tcnica conocida como PNS (Norma de Percepcin de Ruido) que aprovechan caractersticas del odo humano para ser la compresin .
Clases de compresin de audio

Se
tienen basicamente 02 clases: a) Lossless
Son formatos que no pierden claridad ni calidad al comprimirse, pero que ocupan una mayor cantidad de espacio en el disco duro. Usos:
Tcnicos de sonidos y entusiastas de la calidad

FLAC, APE y TTA
Formato de compresin de audio

b) Lossy
Engloba a aquellos formatos que (al comprimir el audio) sacrifican algo de calidad Ocupan poco espacio en el disco.
Usos:
Publico en general. El formato MPC, OGG y MP3
Tcnicas de Compresin
Voc File Compression (Elimina los silencios, codificndolos de forma parecida al RLE) Linear Predictive Coding (Usado en discursos, compara el discurso contra un modelo analtico del tracto vocal: cavidades farngea oral y nasal) Compresin Ley y Ley A (Sist. de Codific. Logaritmica usados en Telefona) Modulacion PCM diferencial.
Psicoacstica
Estudia
la percepcion subjetiva de las cualidades (caractersticas) del SONIDO: Intensidad, Tono y Timbre. Esto se puede aprovechar, debido a a la SensibilidaddelOidoHumano.
Codificacin Perceptual
La percepcin acstica humana esta determinada x dos dimensiones: frecuencia e intensidad. En el dominio de la frecuencia, el odo humano es capaz de percibir frecuencias en el rango de los 20 Hz hasta los 20 KHz En cuanto a la intensidad, los humanos perciben un rango dinmico en torno a los 120 dB. Sonidos de intensidad superior a los 90 dB. pueden provocar daos irreversibles.
Caractersticas del sonido
La intensidad
La intensidad de un sonido depende de la amplitud de onda. Las intensidades de los sonidos que podemos percibir tienen un rango de ms de 15 rdenes de magnitud por lo que para su medicin se usa una escala logartmica (decibelios)
donde a es la amplitud de onda del sonido que se est midiendo, y aref es la amplitud de referencia (la del sonido con el cual se compara).
Caractersticas del sonido
El timbre
Eltimbreeslapersonalidaddeunsonidoypermite distinguir, por ejemplo, el sonido de un piano y de una trompeta con igual duracin, intensidad y tono. Grficamente, el timbre se caracteriza por la forma de la onda. Las ondas sinusoidales puras slo se obtienen electrnicamente, pero en la naturaleza, los sonidos son ms complejos. La frecuencia de vibracin ms grave (frecuencia base) es la que determina el periodo y la amplitud. Las restantes frecuencias, que suelen ser mltiplos de la frecuencia base, son los armnicos.
Psicoacstica
El objetivo es eliminar partes irrelevantes de la seal de audio. El sistema auditivo humano es incapaz de escuchar el ruido de cuantificacin bajo condiciones de enmascaramiento auditivo. El enmascaramiento ocurre siempre que una seal fuerte envuelve a una vecindad de seales de audio mas dbiles imperceptibles.
Tolerancia al ruido de Enmascaramiento
La capacidad de resolucin del odo humano es funcion de la frecuencia. La tolerancia al ruido de enmascaramiento , a cualquier frecuencia, depende solamente de la energa de la seal en una vecindad a esa frecuencia.
El modelo Psicoacstico
Analiza la seal de audio y calcula la cantidad de ruido de enmascaramiento como una funcin de la frecuencia. El codificador decide la mejor manera de representar la seal de entrada con un mnimo nmero de bits.
El Umbral de Audicion
Los receptores de sonido, tienen un comportamiento que vara con la frecuencia. En el caso del odo humano, sucede lo mismo, ya que se trata el receptor ms complicado y eficiente que existe. El umbral de audicin define la mnima presin requerida para excitar el odo.
El Umbral de Audicin, para la media de los humanos, se fija en 20 Pa (20 micro pascales = 0.000002 pascales), para... frecuencias entre 2KHz y 4KHz. Por encima y por debajo de estas frecuencias, la presin requerida para excitar el odo es mayor.
El siguiente grafico muestra el Umbral de audicion.
El banco de filtros hbrido
Componente clave comn a todas las capas. Divide la seal de audio (tipicamente) en 32 sub-bandas de frecuencia de igual ancho. Los filtros brindan una resolucin razonable de frecuencia. Bandas crticas asociadas con los modelos psicoacsticos.
Pasos bsicos

Alinear la informacin sonora con el tiempo. Convertir el audio a una representacion en el dominio de la frecuencia. Procesar los valores espectrales en sus componentes tonales y no tonales. Aplicar una funcin de dispersin. Definir una cota inferior para las tolerancias. Hallar estas tolerancias para cada sub-banda. Calcular la relacin seal a mscara.
Formatos de audio mas comunes

MPEG Moving Pictures Experts Group ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)
Lo utiliza apple para los archivos de audio q reproduce Ipod
WAV
DesarrolladoporMicrosoft.GrabacinporCds.
AU(audio for unix) WMA(Windows media audio) MIDI

para la industria de la msica electrnica
MPEG
Moving Picture Experts Group
Parte
de un estndard mltiple para:
Compresin
de video Compresin de audio Sincronizacin de Audio, Video y Data para un bit rate total de 1.5 Mbit/sec
Compresin de Audio MPEG1

A nivel fsico, presenta prdidas. A nivel perceptual sin prdidas, algoritmo transparente. Explota propiedades perceptuales del odo humano. Modelamiento Psicoacstico. MPEG Audio Standard asegura interoperabilidad define una sintaxis codificada de bit stream, define el proceso de decodificacin y asegura la precisin del decodificador.
Caractersticas del Audio MPEG1

Eliminacin de partes perceptualmente irrelevantes de la seal de audio. Tasas de muestreo de: 32, 44.1 and 48 kHz. Ofrece la eleccion de 3 capas independientes. Opcionalmente, deteccion de error mediante Cyclic Redundancy Check (CRC). Las 3 capas permiten la implementacion del decoder(tiempo real) en un solo chip.
Caractersticas del Audio MPEG1
Informacin adicional puede ser incluida en el bit stream. Caractersticas como: acceso aleatorio, avance rpido y avance en reversa son posibles. Cuantificacin, la clave para la codificacion de audio en MPEG. Compresiones de audio fieles al original con ratios como de 6 a 1.
MPEG1 Audio - Capa I
Es la codificacin mas sencilla. Bit rates predefinidos en 32 a 448 kbps por canal. Cada frame contiene una cabecera, opcionalmente bits de chequeo de error(CRC) y posiblemente informacin adicional. Ejemplo: Philips Digital Compact Cassette
MPEG1 Audio Capa II

Complejidad Intermedia Bit rates predefinidos en 32 a 384 kbps por canal. Digital Audio Broadcasting (DAB) Video y audio sincronizado en CD-ROM. Crea frames de 1152 muestras por canal de audio.
MPEG1 Audio - Capa III: MP3

Basado en los bancos de filtros hbridos de las capas I y II . Codificacin (Entropica) mas compleja. La mejor calidad de sonido. Bit rates predefinidos en 32 a 320 kbps por canal. Adecuado para transmisin de audio a travs de RDSI. Norma ISO/IEC 11172
MPEG1 Audio Capa III (MP3)
Mejoras de la capa III: MP3

Reduccin del Alias. (Codific. Huffman) Elimina mas redundancia. Cuantificacin no uniforme. Optimizacion de factores de escala por c/u de las sub-bandas. Usodeunreservoriodebits.
Caractersticas por nivel para el MPEG-1.

CAPA FRECUENCIAS DE MUESTREO TASA DE BITS (Kbps)
Capa I
Capa II Capa III
De 32 a 448
32, 44.1 y 48 KHz
De 32 a 384 De 32 a 320
Mejoras de la capa III: MP3

Reduccin del Alias. (Codific. Huffman) El archivo de audio de un CD, usa: Frecuencia muestreo: 44.1 KHz, Codificacin: 16 bits, Modo: estreo
Calculando
se tendr: 1,411,200 bits/s
MPEG en el futuro

MPEG-1: Video CD and MP3. MPEG-2: Televisin Digital y DVD MPEG-4: Web(fija y mvil) MPEG-7: descripcin y bsqueda de contenido de audio y visual. MPEG-21: Multimedia Framework
OTROS FORMATOS DE AUDIO MS COMUNES
Esta es una descripcion de algunos formatos de compresin de audio los ms usados hoy en da, sus ventajas, extensiones y principales usos
WAV
Extensin: wav Desarrollado por Microsoft e IBM 1995. Es el archivo digital del sonido sin comprimir. Es 10 a 12 veces mas pesado que el mp3. EsunestndarparamsicaenCDs. Funciona en cualquier aplicacin Windows y en equipos domsticos comunes con reproductor de CDs.
ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)
Extensin: .aac Codificacin estndar para audio reconocida por ISO solo en el patrn MPEG-2. Es mas eficiente que el MP3 en el mismo espacio (Con igual bitrate). Ocupa menos espacio que el mp3. (Aproxim. el 70 %) No es compatible con el MPEG-1.
Este formato de Audio lo utiliza Apple para los archivos de audio y que pueden comprarse a travs de Internet. Frecuencia de muestreo: 16 KHz, 22.05 KHz , 24 KHz. Mxima calidad entre 320 y 384 Kbps (5 canales) a diferencia del MP3 (solo Stereo).
Diagrama de bloques del AAC en MPEG-2
AC-3 (DOLBY DIGITAL)
Extensin: .ac3 Recibe un streaming de los 06 canales codificados en PCM (Que emplea 9 bits por muestra y los muestrea a 48 KHz) para comprimirlos a 384 Kbps. Es muy popular y muy eficiente, usa 05 canales + un sexto canal exclusivo para las bajas frecuencias (120 Hz o menos). Es empleado en los sistemas ATSC.
AU (Audio for Unix)
Extensin: au
Para archivos de sonido con S.O. Unix de SunMicrosystemsandNeXT.

Estndar acstico para el lenguaje JAVA.
WMA (Windows Media Audio)
Extensin: wma
Versin de Windows para comprimir Audio, muy parecido a MP3. Se adapta a diferentes velocidades de conexin (Cuando se necesite reproducir en Internet
en Tiempo Real).
MIDI
Extensin: midi Es un protocolo de communicacion de datos Por sus siglas en ingles, quiere decir interfaz digital para instrumentos musicales. Estndar en la INDUSTRIA de la msica ELECTRONICA. Muy til cuando se usan sintetizadores musicales tarjetas de Sonido.
MIDI
Extensin: midi
Por el tamao resultante que ofrece su compresin, este formato es muy usado para dispositivos y/o reproductores que necesitan combinar archivos de audio y video, como los karaoke. (Otros como el: teclado, bateria, guitarra, flauta, ...). Permite intercambiar datos entre diversos equipos musicales.
Teora del audio AC3:

El Dolby Digital 5.1, llamado tcnicamente AC3. Naci en los aos 90, incorpora 5 o seis canales independientes de sonido. Cada canal es independiente para cada altavoz y reproduce todo tipo de frecuencias, menos el 6to, que solo se encarga de las ms bajas
OGG VORBIS

Extensin: ogg
Tambin se utiliza para guardar y reproducir msica digital. Se diferencia del resto de grupo por que es gratuito, abierto y no esta patentado. Su principal atractivo es la importante reduccin que hace de un archivo de audio manteniendo una alta calidad.
OGG VORBIS
Extensin: ogg
Gran versatilidad para reproducirse en cualquier dispositivo y por ocupar muy poco espacio (Menor respecto al mp3). Adecuado para enviar musica via internet por streaming, a diferencia del mp3. Tipo lossless, comparable con el AAC.
ATRAC (Adaptive TRansform Acoustic Coding)
Este formato se utiliza en tecnologa de compresin y reproduccin para minidisc. Desarrollado por SONY. Codifican el sonido, a unas tasas de datos del orden del 10% de lo requerido en un CD.
Usa 08 canales y divide la seal en tres partes o bandas:

a) b)
Menor a 5,5 kHz Entre 5,5 y 11 kHz
c)
Mayor a 11 kHz
Tiene
una calidad similar al AC-3. Se emplea en el sector de audio y algunos dispositivos porttiles como PDA, y en telfonos inteligentes.
Mean Opinion Score

El
puntaje de opinin significativo (MOS) es un mtodo directo de la evaluacin de la calidad de voz muy ampliamente usado. La prueba MOS concierne solamente al resultado de la experiencia del usuario, por lo tanto se llama a los usuarios para la evaluacin.
Mean Opinion Score

Escala de Calificacin Excelente (Excellent)
Puntuacin Escala de Esfuerzo para escuchar No se requiere esfuerzo
Bueno (Good)
Regular (fair) Pobre (Poor)
4
3 2
No se requiere esfuerzo apreciable

Se requiere poco esfuerzo Se requiere considerable esfuerzo
Malo (Bad)
No se entiende aun con un considerable esfuerzo
Resumen de algunos formatos de audio digital

Formato PCM (G.711) ADPCM (G.721) SB-ADPCM (G.722) MP-MLQ (G.723.1) ADPCM (G.726) E-ADPCM (G.727) LD-CELP (G.728) CS-ACELP (G.729) RPE-LTP (GSM 06.10) CELP (FS 1016) LPC-10E (FS 1015) CD-DA / DAT MPEG-1 Layer I MPEG-1 Layer II MPEG-1 Layer III (MP3) MPEG-2 AAC Frec. Muestreo (KHz) 8 8 16 8 8 8 8 8 8 8 8 44,1/48 32/44,1/48 32/44,1/48 32/44,1/48 32/44,1/48 Canales 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 5.1 Caudal por canal (Kb/s) 64 32 48/56/64 6,3/5,3 variable 16/24/32/40 16/24/32/40 16 8 13,2 4,8 2,4 705,6/768 192-256 variable 96-128 variable 64 variable 32-44 variable Hi-Fi Internet Hi-Fi Internet
52
Uso Telefona Telefona Vdeoconferenc. Telefona Internet Telefona Telefona Telefona/Videoc. Telefona Internet Telefona GSM
Bajo Retardo (ITU-T)
Audio Hi-Fi
Elevado Retardo (ISO)

Curso Telecom III-Compresion-De-Audio 2012

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso Telecom III-Compresion-De-Audio 2012

Cargado por

Copyright:

Formatos disponibles

Compresin de Audio

Clases de compresin de audio

tienen basicamente 02 clases: a) Lossless

Tcnicos de sonidos y entusiastas de la calidad

Formato de compresin de audio

Caractersticas del sonido

Caractersticas del sonido

Tolerancia al ruido de Enmascaramiento

El siguiente grafico muestra el Umbral de audicion.

El banco de filtros hbrido

Formatos de audio mas comunes

AU(audio for unix) WMA(Windows media audio) MIDI

Moving Picture Experts Group

de un estndard mltiple para:

Compresin de Audio MPEG1

Caractersticas del Audio MPEG1

Caractersticas del Audio MPEG1

MPEG1 Audio - Capa I

MPEG1 Audio Capa II

MPEG1 Audio - Capa III: MP3

MPEG1 Audio Capa III (MP3)

Mejoras de la capa III: MP3

Caractersticas por nivel para el MPEG-1.

32, 44.1 y 48 KHz

Mejoras de la capa III: MP3

se tendr: 1,411,200 bits/s

OTROS FORMATOS DE AUDIO MS COMUNES

ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)

ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)

ADVANCED AUDIO CODING (Codificacion de Audio Avanzada)

Diagrama de bloques del AAC en MPEG-2

AC-3 (DOLBY DIGITAL)

AU (Audio for Unix)

Para archivos de sonido con S.O. Unix de SunMicrosystemsandNeXT.

WMA (Windows Media Audio)

Teora del audio AC3:

ATRAC (Adaptive TRansform Acoustic Coding)

ATRAC (Adaptive TRansform Acoustic Coding)

Usa 08 canales y divide la seal en tres partes o bandas:

Menor a 5,5 kHz Entre 5,5 y 11 kHz

ATRAC (Adaptive TRansform Acoustic Coding)

Mean Opinion Score

Mean Opinion Score

No se requiere esfuerzo apreciable

No se entiende aun con un considerable esfuerzo

Resumen de algunos formatos de audio digital

Bajo Retardo (ITU-T)

Elevado Retardo (ISO)

También podría gustarte