Está en la página 1de 9

MP3

SONIDO DIGITAL AL ALCANCE DE TODOS


David Rincn Rivera
drincon@mat.upc.es
Departament de Matematica Aplicada i Telematica
Universitat Politecnica de Catalunya (UPC)
INTRODUCCIN
El formato de compresin de sonido MPEG-l Layer 3
(tambin conocido como MP3) est adquiriendo una gran
notoriedad, debido al revuelo que est provocando en el
campo de la grabacin y distribucin de audio digital. En
los ltimos meses se han producido repetidos intentos de
las compaas discogrficas para limitar sus posibilidades
de grabacin y reproduccin, ya que Internet se ha conver-
tido en una va de distribucin paralela a las habituales (y
en muchas ocasiones, ilegal).
En ste artCulo se va a describir el formato MP3
desde dos puntos de vista: el del tcnico y el del usuario.
Desde el punto de vista tcnico haremos hincapi en los
algoritmos de compresin de sonido utilizados por el
estndar, as como algunos comentarios sobre una de las
aplicaciones ms prometedoras de MP3, que es su trans-
misin a travs de redes de conmutacin de paquetes. La
segunda parte del artculo estar dedicada a proporcionar
informacin y herramientas para experimentar en nuestro
ordenador la calidad de ste estndar.
INTRODUCCIN AL AUDIO DIGITAL
Como ya sabemos, para digitalizar una seal lo
nico que necesitamos es disponer de un convertidor
analgico/digital (AID), que se compone de un mdulo de
muestreo y un codificador.
El papel del primer bloque, tambin conocido como
sample & hold, es discretizar la seal en el tiempo. Para
asegurar una correcta reconstruccin de la seal, el teore-
ma de Nyquist nos obliga a que la frecuencia de muestreo
sea mayor o igual al doble del ancho de banda de la seal
original.
Seal _1 Muestreo Seal,discreta .1 CuantifIcacin 1 _ Se.aldiscl-e!aen
entrempo. trempoymvel
volts volts volts

...
tiempo
Figura 1. Proceso de muestreo y cuantificacin.
El segundo bloque cuantifica los valores obtenidos
por el primero, con un cierto nmero de bits por muestra.
4
El sistema de audio digital ms sencillo es el PCM (Pulse
Code Modulation), que se limita a cuantificar de manera
uniforme la seal muestreada. La cantidad de bits (n)
empleados en la cuantificacin determinan la relacin
seal a ruido (SNR, signal to noise ratio) del proceso de
digitalizacin, de manera que cada bit adicional aade 6
dB [1].
SNR (dB) = constante + 6n dB
q
Vamos a comentar dos ejemplos de audio digital
PCM: telefona digital y el Compact Disc. En el primero,
digitalizamos una seal de 3.1 Khz a un ritmo de 8000
muestras por segundo, con 8 bits/muestra (SNR 50 dB),
lo que genera una tasa de 64 Kbit/s. El CD muestrea una
seal de alta fidelidad (20 Khz) a44100 muestras/segun-
do y 16 bits/muestra (SNR 100 dB), en dos canales
(stereo), generando una tasa total de 1.4 Mbit/s. Como
vemos, esta tasa es elevadsma, y requiere un gran ancho
de banda para ser transmitida. Adems, el PCM suele ser
una codificacin muy ineficiente, ya que cada muestra es
muy parecida a la anterior, con lo que tenemos una
redundancia muy alta.
Por ello se disearon algoritmos de compresin
basados en la prediccin temporal de las muestras, como
el DPCM o la modulacin Delta, que se basan en la
codificacin de la diferencia entre la muestra real y la
predicha por el sistema en base a las muestras anteriores.
La prediccin se hace a partir de unos coeficientes que
pueden ser fijos o variables, de manera que se adapten a
los cambios de la seal de entrada, haciendo que la seal
reconstruida sea ms fiel a la inicial (un ejemplo de estos
sistemas es el ADPCM).
Sin embargo, aunque estos sistemas explotan con
xito la eliminacin de la redundancia, slo son capaces
de reducir la tasa en un factor de entre 2 y 4 (se considera
que un ADPCM a 32 Kbit/s ofrece una calidad ligeramen-
te superior al PCM de 64 Kbit/s [1]). Por ello se hizo
patente la necesidad de crear nuevos esquemas de com-
presin que explotaran otro tipo de propiedades. As en el
campo de la telefona aparecieron los detectores de silen-
cio, que eliminan la transmisin cuando la seal es tan baja
que no va a ser captada por el odo humano, o los sistemas
llamados vocoder, que intentan reproducir las caracters-
ticas del tracto vocal humano (cuerdas vocales, boca,
lengua ... ) para analizar y sintetizar digitalmente las for-
BURAN N14 DICIEMBRE 1999
mas de onda que salen de nuestra garganta. Pero estos
sistemas son ptimos cuando son utilizados para codificar
voz humana y no msica, que es mucho ms rica en
matices y que contiene ms informacin.
Por ello se inici otra lnea de investigacin basada
en el otro extremo de la comunicacin, en el receptor: el
odo humano. A estas tcnicas se les llama psicoacsticas
o de codificacin perceptual, porque se basan en las
propiedades de nuestro sistema auditivo para comprimir
la informacin acstica a tasas inimaginables hasta el
momento. Hay sonidos que no podemos or, as que
podemos eliminarlos y ahorrar una gran cantidad de
informacin. V amos a describir con ms detalle cules
son las caractersticas del sistema auditivo humano, y
cmo podemos aprovecharlas en el proceso de compre-
sin.
QU OMOS Y QU NO PODEMOS OR?
EFECTOS PSICOACSTICOS
El rango frecuencial en el que el odo humano es
capaz de detectar sonido est comprendido entre los 20 Hz
y los 20 Khz, con una zona especialmente sensible entre
los 2 y los 4 Khz, muy cercana al espectro de la voz, situada
entre los 500 hz Y los 4 Khz [2]. Por tanto, dos tonos de
potencia similar situados en los 3 y los 15 Khz sern
percibidos de manera muy diferente (el de 15 Khz pasar
mucho ms desapercibido, pudiendo ser incluso inaudible).
Es decir, nuestro odo no ofrece una respuesta plana con
la frecuencia, sino que premia a unas bandas y penaliza
otras, llegando al extremo de pasar desapercibidas. Por
ello se define el umbral absoluto de audicin como la
frontera entre los sonidos que son perceptibles y los
inaudibles. El concepto fue acuado por Fletcher en 1940,
durante una serie de experimentos donde se obtuvieron
grficas como la presentada en la figura 2, que presenta el
umbral de audicin en funcin de la frecuencia. El grfico
se obtuvo por mtodos empricos, efectuando un muestreo
estadstico entre la poblacin. Los valores se establecen
respecto a un tono puro de 1 Khz con una potencia tal que
se encuentra en el lmite de audicin.
Threshold in Quiet
~ ~ L ~ I
O 2 4 6 8 10 12 14 16
Frequency (kHz)
Figura 2. Umbral de audicin del odo humano [3 J.
Segn esta grfica, toda seal que quede por debajo
de la curva ser inaudible para prcticamente todas las
personas, as que no tiene sentido codificarla y puede ser
eliminada.
+ RAMAS DE ESTUDIANTES DEL IEEE
Sin embargo, este umbral de audicin no es nico.
La aparicin de seales adicionales puede modificar nues-
tra percepcin de un cierto tono, llegando incluso a
producir enmascarados frecuenciales (jrequency
masking). En la figura 3 se presenta un ejemplo. Suponga-
mos que disponemos de un tono de 1 Khz a un nivel fijo
(60 dB por encima del umbral de audicin), que llamare-
mos tono enmascaradof. Generamos otro tono de 1.1
Khz y medimos el nivel de potencia al que se hace
indistinguible. Si repetimos el proceso para toda la banda,
obtendremos una segunda curva de umbral, esta vez
generada por el tono enmascarador. Como en el caso
anterior, toda seal que quede por debajo de esta curva
ser inaudible (se dice que ha sido enmascarada por el
tono dominante). Como es lgico, cuanto ms cercano
est la seal al tono enmascaradory menor sea su potencia,
ms posibilidades de que sea enmascarado.
Masking by 1 kHz tone
~ ~ f L . - .. / /
O 2 4 8 10
Frequency (kHz)
"
./
/
/
12 14
I
16
Figura 3. Enmascarado causado por un tono de 1 Khz [3J.
En la figura 4 se muestra la forma de la campana de
enmascarado para diversas frecuencias. La caracterstica
ms destacable es que a medida que crece la frecuencia,
ms ancha se hace la campana.
Masking
~ ~ ~ .
I
o 2 4 6 8 10 12 14 16
Frequency (kHz)
Figura 4. Enmascarado frecuencial [3 J.
Podemos observar que el ancho de la campana de
enmascarado sigue una regla aproximadamente
logartmica. Por ello parece natural crear el concepto de
banda crtica (critical band), que se define como cada
una de las porciones del espectro en la que el odo percibe
una seal uniforme [3]. Para medir estas porciones se crea
la unidad llamada bark (en honor a Barkhausen) para
denominar al ancho de banda correspondiente a una banda
crtica. A partir del estudio emprico de las bandas crticas,
se lleg a la conclusin de que se podan calcular de la
siguiente manera:
- Para frecuencias inferiores a 500 Hz, 1 bark fll 00
- Para frecuencias superiores a 500 Hz, 1 bark
9 + 4log (f/lOOO)
5
Con este convenio se consiguen grficas como la
presentada en la figura 5. Aqu podemos observar cmo la
introduccin de unidades logartmicas como los bark
permiten subdividit el espectro en bandas de tamao
uniforme. Como veremos ms adelante, este detalle es
importante cuando hay que efectuar un anlisis sub-
banda.
80 250 Hz 1 kHz 4 kHz
500Hz 2 kHz 8 kHz
Critica/ Band Rate (Barkj
Figura 5. Bandas crticas, representadas en
funcin de los barks [3].
Hasta ahora nos hemos limitado a medir los fenme-
nos de enmascarado en el dominio frecuencial, pero
tambin se producen enmascarados temporales. Un
tono muy potente enmascarar durante un cierto intervalo
temporal cualquier otro tono de frecuencia parecida y que
sea temporalmente cercano. En la figura 6 se presenta el
caso que exponemos a continuacin. Tenemos un tono
enmascarador de 1 Khz y 60 dB, y otro tono de 1.1 Khz y
40 dB, que est enmascarado. En t = O, desactivamos el
tono enmascarador y medimos cuanto tarda el odo en
percibir el segundo tono (se puede hacer desconectndolo
en t = Dt, Y disminuir Dt hasta que se deja de percibir). Si
repetimos el experimento para diferentes potencias, obte-
nemos una respuesta como la de la figura 6. Cuanto menos
potente sea el tono enmascarado, ms tarda el odo huma-
no en recuperarse de la saturacin que le ha provocado el
tono enmascarador. Este es un efecto que cualquiera de
nosotros ha experimentado: despus de escuchar un soni-
do fuerte, como por ejemplo una explosin, nos quedamos
momentneamente sordos y necesitamos un poco de tiem-
po para recuperar la agudeza auditiva habitual.
6 O ~
test tone
"'l40
" ' 2 0 ~
100 200 500 5 O 5 10 20 50
de/ay time (m.)
Figura 6. Enmascarado temporal [3].
Si repetimos este experimento para diferentes po-
tencias y frecuencias, obtendremos una grfica como la de
la figura 7, donde podemos observar el efecto combinado
de los enmascarados frecuenciales y temporales. Curiosa-
mente se puede ver que existe el fenmeno del enmasca-
rado previo: hay sonidos que son enmascarados antes de
que se genere el tono enmascarador. Esto no es un error;
parece ser que nuestro odo necesita un cierto tiempo antes
6
de poder identificar un tono. Si en este tiempo se produce
el tono enmascarador, el tono enmascarado no ser perci-
bido en absoluto.
level (dE)
rime
(under curve)
freq
Figura 7. Efecto combinado del enmascarado [3].
CMO PODEMOS APROVECHAR LOS
EFECTOS PSICOACSTICOS?
Como ya hemos comentado, la gran ventaja de los
modelos psicoacsticos es que toda seal que quede por
debajo del umbral total de enmascarado (la curva combi-
nada del umbral absoluto, del enmascarado frecuencial y
del temporal) es inaudible y, por tanto, no se codifica.
Tambin se ha visto que las bandas crticas son las
unidades naturales en las que podemos dividir, de manera
uniforme,la influencia del enmascarado dentro del espec-
tro. Por tanto parece natural que el proceso de compresin
utilice codificacin sub-banda (subband coding), consis-
tente en separar la seal de entrada en un cierto nmero de
bandas y hacer un anlisis independiente de cada una de
ellas. Esto se puede conseguir mediante un banco de
filtros.
Seal de
entrada
Enmascarado y asignacin de bits
Enmascarado y asignacin de bits
Enmascarado y asignacin de bits
Enmascarado y asignacin de bits
Figura 8. Esquema del anlisis sub-banda.
Seal
reconstruida
ycocllikada
A continuacin, a cada sub-banda se le aplica un
anlisis psicoacstico o perceptual que determina las
curvas de enmascarado, y determina cules son los tonos
que se encuentran por encima de dichas curvas (los
componentes que estn por debajo son simplemente des-
cartados). As se genera la relacin seal a mscara (SMR,
signal-to-mask ratio). A los tonos supervivientes se les
asigna una cierta cantidad de bits en funcin del ruido que
podemos introducir, calculado a partir del enmascarado,
la SMR y las necesidades de tasa del sistema global. El
criterio para asignar bits a la seal es sencillo: la potencia
del ruido debe quedar por debajo del umbral de audicin.
Veamos un ejemplo: supongamos que en una cierta sub-
banda con un nivel de enmascarado de 26 dB existe una
seal superviviente con una potencia de 40 dB. Dicha
seal debera ser codificada con un mnimo de 7 bits (7 bits
BURAN N14 DICIEMBRE 1999
x 6 dBlbit = 42 dB > 40 dB). Sin embargo podemos ahorrar
4 bits, ya que el ruido los enmascara (4 bits x 6dBlbit = 24
dB < 26 dB). Por tanto, nos basta con 3 bits para codificar
la seal superviviente.
Mediante este mtodo combinado de eliminacin
de seales enmascaradas y reduccin de la informacin
correspondiente a las supervivientes se pueden conseguir
factores de compresin muy elevados, sin comprometer la
calidad (aparente) del sonido. En muchos casos se elimi-
nan sub-bandas enteras que han sido enmascaradas por
tonos situados en la banda vecina, haciendo que no se
utilice ni un solo bit para codificar la sub-banda en
cuestin.
LOS ESTNDARES MPEG
MP3 es el nombre con el que se conoce a una de las
partes del estndar de codificacin de vdeo MPEG
(Moving Picture Experts Group) [4] de la Organizacin
Internacional de Estndares (ISO) [5]. Concretamente,
MP3 hace referencia a la capa 3 del codificador de audio
de MPEG-1, as que lo mejor ser empezar describiendo
el estndar MPEG.
MPEG-1 fue el primer estndar internacional de
codificacin de vdeo creado por la ISO que aplic tcni-
cas de compresin basadas en el enmascarado de la
informacin visual y acstica; es decir, lo que el usuario no
va a ver ni or, no se codifica. Esta tcnica ya fue aplicada
con gran xito por el comit JPEG (Joint Photograph
Experts Group), que dio origen al formato de compresin
de imgenes del mismo nombre, y que se ha convertido en
el estndar de facto en Internet. Fruto de este xito, la ISO
form el grupo MPEG a finales de los 80 para crear
diversos estndares de vdeo digital de alta calidad. El
plan inicial era crear cuatro versiones diferentes, cada una
de ellas destinadas a un segmento especfico de usuarios
y aplicaciones [6]:
MPEG-l: Codificador de vdeo a 1.5 Mbit/s con
calidad de videoconferencia mejorada, de resolu-
cin 352x288 pixels (CIF) o superior. Apareci
como la evolucin natural del estndar de
videoconferencia ITU-T H.261, con mejoras rela-
cionadas con la compensacin de movimiento y la
prediccin temporal.
MPEG-2: Codificador de vdeo a tasade4-10 Mbit/
s con calidad de emisin de TV (<<broadcast) com-
parable a los sistemas analgicos P AL, SECAM Y
NTSC. Destinado a ser el estndar de emisin de TV
digital de consumo masivo.
MPEG-3: Codificador de vdeo a tasas superiores a
los 10 Mbit/s, con calidad de TV de alta definicin
(HDTV), destinado a ser usado en centros de produc-
cin y en redes de transmisin.
RAMAS DE ESTUDIANTES DEL IEEE
MPEG-4: Codificador de video conferencia a tasa
muy bajas (64 - 256 Kbit/s) para ser usado sobre
redes de banda estrecha, especialmente de telefona
mvil.
De estos cuatro estndares, slo 3 han visto la luz
(MPEG-1, 2 Y 4). MPEG-3 se qued por el camino, ya que
los algoritmos desarrollados para MPEG-2 son tan poten-
tes y flexibles que permiten abarcar tanto la calidad
broadcast como la de produccin, simplemente variando
la tasa a la que funciona el codificador.
Aunque el esfuerzo ms grande de los ingenieros se
dedic a los algoritmos de codificacin de vdeo, no se
descuid el sonido que tena que acompaar a las imge-
nes. Uno de los handicaps con los que tuvieron que luchar
los diseadores de MPEG fue el requisito de escalabilidad,
que consiste en que se debe permitir que equipos de gamas
diferentes puedan reproducir el mismo flujo de informa-
cin, aunque sea a calidades diferentes. Para ello se
defini una arquitectura de tres capas, en la que cada
layer se basa en un codificador ms sofisticado que el
de la capa anterior. As, tenemos MPEG-1 Layer 1, Layer
2 y Layer 3, siendo esta ltima la ms complicada y la ms
eficiente desde el punto de vista de compresin. Los
reproductores de capa 3 son capaces de reproducir flujos
codificados con cualquiera de las tres tcnicas, mientras
que los de capa 1 slo pueden reproducir informacin
Capa I
Capa 2
Capa 3
Tabla 1. Caractersticas de las capas de audio de MPEG-l.
codificada segn la capa 1. Las caractersticas de cada
capa son las siguientes [3]:
La tasa objetivo es el bitrate para el que se dise
cada una de las capas. El factor de compresin nos da la
relacin entre la tasa generada por el codificador MPEG
y la que se necesitara en PCM para conseguir una calidad
equivalente. Vemos que se consiguen factores de hasta 12,
lo que nos da una idea de la potencia del algoritmo.
Los otros dos apartados interesantes de la tabla 1
son la valoracin de la calidad subjetiva a las tasas de 64
y 128 Kbit/s. Esta medida de calidad se realiza basndose
en el criterio MOS (Mean Opinion Square), definido por
la ITU (Unin Internacional de Telecomunicaciones).
Consiste en hacer un anlisis estadstico de la calidad
percibida por grupos de personas escogidas al azar en
diferentes pases, que hacen una valoracin subjetiva de la
calidad de los tests y pruebas presentadas. La escala MOS
tiene un rango comprendido entre 1 (ininteligible) y 5
7
(perfecto). Vemos que incluso a tasas muy bajas, las capas
2 y 3 obtienen valoraciones muy buenas. Una ancdota
surgida durante el perodo de pruebas: parece que uno de
los pocos casos en los que el algoritmo no funciona con la
calidad adecuada es en la codificacin de voz masculina
alemana, aunque esto se puede solucionar elevando la tasa
del flujo [6].
Existen cuatro modos de funcionamiento para cada
una de las capas: canal nico (una sola seal de audio en
el flujo), canal doble (dos canales separados e indepen-
dientes), stereo (igual al anterior pero con dos seales
pertenecientes a los canales derecho e izquierdo de una
seal stereo original), y joint stereo (parecido al anterior
pero explota la redundancia entre los dos canales para
reducir an ms la tasa).
CODIFICACIN Y DECODIFICACIN
DE AUDIO MPEG
Los estndares MPEG son del tipo denominado
asimtrico, en el que los codificadores son mucho ms
complejos que los decodificadores. Esto es as para per-
mitir la comercializacin de reproductores baratos, desti-
nados al mercado de electrnica de consumo. Veremos
que los codificadores soportan una carga computacional
muy superior a la de los decodificadores.
Otro detalle importante desde el punto de vista del
implementador es que no se especifica un estndar de
codificacin. Lo que s existe es una especificacin de qu
tipo de flujos de bits es capaz de reproducir un cierto
decodificador modelo, y una serie de recomendaciones
sobre cmo puede construirse un codificador. Esto permi-
te fomentar el desarrollo de algoritmos de codificacin
diferentes para cada fabricante (que puede as diferenciar-
se de sus competidores, promover la investigacin y
preservar sus patentes), manteniendo al mismo tiempo la
compatibilidad (ya que todos los codificadores han de ser
compatibles con cualquier reproductor que siga el modelo
especificado) .
La fuente sobre la cual se aplican los algoritmos
debe ser siempre una seal PCM a las frecuencias de
muestreo de 32 Khz, 44.1 Khz (propia del Compact Disc)
y 48 Khz (propia del sistema DAT), con 16 bits por
muestra (unos 100 dB de relacin seal a ruido de
cuantificacin).
8
Figura 9. Esquema general del proceso de codifica-
cin de audio MPEG-l.
En un apartado anterior hemos comentado cmo se
podan aprovechar los efectos psicoacsticos para com-
primir (con prdidas) la informacin correspondiente a
una fuente de sonido. El esquema general utilizado por las
tres capas MPEG es el presentado en la figura 9.
El proceso de codificacin se realiza sobre el flujo
continuo de bits de entrada. Sin embargo, para facilitar la
compresin y permitir su segmentacin temporal, se defi-
ne la trama (jrame) como el bloque unitario mnimo que
puede ser decodificado completamente. Las tramas se
componen de una cierta cantidad de muestras de entrada,
que vara segn la capa utilizada.
Podemos observar que la funcionalidad bsica es la
ya mostrada en la figura 8: el banco de filtros que separa
la seal en subbandas crticas, el mdulo que evala los
efectos psicoacsticos y elimina las seales que quedan
por debajo de la curva, y el bloque que asigna bits a las
seales supervivientes en funcin del nivel de ruido en-
mascarado y de las necesidades de tasa instantnea (puede
observarse la realimentacin desde la salida, para el caso
en que se exija una tasa constante). Finalmente encontra-
mos un bloque que se dedica a formatear el flujo de bits de
salida, con funciones como controlar la tasa (constante o
variable), comprimir an ms los datos mediante algoritmos
como Huffman o Ziv-Lempel, segmentar el flujo de salida
en tramas, aadir marcas temporales para su correcta
reproduccin en el decodificador, introducir un canal de
datos adicionales con informacin sobre el autor de la
msica, cdigos de acceso, etc.
Como ya comentamos anteriormente, el esquema
del decodificador es mucho ms sencillo que el codificador.
Se limita a extraer la informacin formateada de las
subbandas, reconstruirlas por separado (con las curvas de
enmascarado) y finalmente, a unir todas las bandas para
formar la seal reconstruida.
Enttada
(flujo de bits
codiftcado)
Figura 10. Esquema general del proceso de
decodificacin de audio MPEG.
Vamos a comentar brevemente las caractersticas
de cada una de las capas [2,6,7,8]:
MPEG-1 Audio layer 1:
Segmentacin de la seal en 32 subbandas a partir de
un filtro polifase de baja complejidad.
Anlisis frecuencial mediante FFT de 512 puntos.
Clculo de la SMR a partir del tono dominante en
cada subbanda.
BURAN N14 DICIEMBRE 1999
Modelo psicoacstico que slo tiene en cuenta el
enmascarado frecuencial.
Cuantizacin fija del mximo valor absoluto de todas
las subbandas con 6 bits. Este valor actua como
escala para el resto de bandas.
Formato de trama: 384 bits, correspondientes a 12
muestras de 32 subbandas (a 48 Khz, equivalentes a
8 ms de sonido).
Sincronizacin y ordenacin: 16 bits
Correccin de errores (CRC): 16 bits
Para cada banda: 6 bits de factor de escala + 4 bits de
cuantizacin del valor dominante.
Informacin adicional: 32 bits
MPEG-l Audio layer 2:
Esta capa es muy similar a la anterior, pero consi-
gue tasas de compresin mayores (a costa de incrementar
el retardo). Las diferencias principales respecto a la capa
1 son las siguientes:
FFT de 1024 puntos (mayor resolucin espectral).
3 valores de escala para cada subbanda en cada
trama. Se pueden usar unos, dos o los tres.
Cuantizacin variable de cada subbanda, en funcin
del factor de escala.
El modelo psicoacstico incluye la influencia del
enmascarado temporal (no completamente)
Aumento de la resolucin de los cuantizadores a 16
bits.
Tramas de 1152 bits (equivalentes a 3 de las tramas
de capa 1), correspondientes a 36 muestras de 32
subbandas (a 48 Khz, equivalentes a 24 ms de soni-
do).
MPEG-l Audio layer 3:
La capa 3 es, con diferencia, la ms complicada y
sofisticada de toda la familia MPEG. Introduce mejoras
sustanciales en casi todos los pasos de la codificacin,
como:
RAMAS DE ESTUDIANTES DEL IEEE
Uso de un banco de filtros lnbridos conmutados
(DCT/polifase) que proporciona resolucin varia-
ble, ajustndose mejor a las bandas crticas.
El modelo psicoacstico explota en su totalidad el
temporal, e incluye una prediccin
polinmica.
Aprovecha la redundancia inherente en las seales
estereofnicas.
, Calidad de sonido Ancho de banda Modo Tasa Factor de compresin
Sonido telefnico
Radio AM
Mejor que AM
Cercana a CD
2.5 Khz
4.5 Khz
7.5 Khz
11 Khz
15 Khz
Mono 8 KbiVs
Mono 16 KbiVs
Mono 32 KbiVs
96:1
48:1
24:1
Stereo 5664 KbiVs 2624:1
8tereo 96 KbiVs 16:1
.. _ ........ _ ...
CalidadCD 22.1 Khz stereo 112128 KbiVs , 14-12:1
Tabla 2. Comparacin de las diversas calidades de la capa
3 de MPEGl.
Cuantizacin variable con control dinmico del rui-
do.
Codificacin de trama mediante cdigos entrpicos
de Huffman y RLE (Run-Iength encoding).
Formato de trama: 1152 bits. La trama ya no es la
unidad de decodificacin, sino que necesita de infor-
macin codificada (almacenada o transmitida) pre-
viamente. Orientado a la transmisin en flujo.
La calidad ofrecida por la capa 3 se compara con la
de otros sistemas en la Tabla 2 [9].
MP3 Y EL MUNDO DE LA MSICA
Hasta aqu hemos descrito el estndar MP3 desde el
punto de vista tcnico. Cul ha sido la razn de su xito?
Lo que en principio era solamente una curiosidad tcnica
se ha ido convirtiendo en una ola que hace que las
discogrficas empiecen a preocuparse. Por qu?
La razn es que se ha dado la convergencia de tres
factores: la popularizacin de los ordenadores con capa-
cidad multimedia (especialmente las grabadoras de CD-
ROM), el fenmeno del software de libre distribucin, y
el boom de Internet.
La gran novedad del MP3 es que es el primer
estndar con el que se puede adquirir y, sobretodo, copiar
audio de alta calidad, usando un simple Pe. Y cmo se
puede hacer eso? Con uno de los cientos de programas de
software gratuito que se pueden encontrar tanto en Internet
como en forma de regalo por parte de revistas de inform-
tica. Bsicamente hay tres tipos de programas: los rippers
(programas que leen las pistas del CD y las convierten a
ficheros WAV codificados en PCM a 44.1 Khz),
9
codificadores (compresores que a partir del WA V aplican
los algoritmos y generan un fichero MP3) y decodifi cadores
(reproductores de MP3). Se pueden encontrar versiones
comerciales mucho mejor acabadas y con gran cantidad
de prestaciones, pero los ms popul ares son programas
muy sencill os creados por programadores si n afn comer-
cial , que ceden su producto a toda la comunidad de
usuarios ifreeware).
Un usuario con un equipo medio puede comprimir
canciones desde el CD sin ningn tipo de probl emas: le
basta con poner en marcha el ripper y a continuacin
utilizar el codificador. ormalmente el proceso de com-
presin no se puede hacer a ti empo real ; una cancin de
tres minutos puede tardar entre diez y quince en ser
comprimida, con un Penti um de primera generacin. Es
necesario un equipo bastante ms potente (un Pentium ll)
para poder generar MP3 en ti empo real. Y para reproducir
basta con un equipo de gama baja con una tarjeta de
sonido. Esto es posi ble debido a la caracterstica asimtrica
del estndar: el decodifi cador es mucho ms senci 11 0 que
el codificador. As, un simple Pentium a 133 Mhz es capaz
de reproducir sin problemas un fichero o un flujo MP3
(siempre que sea el ni co proceso que corre).
Tal como se coment en un apartado anteri or, se
puede conseguir una calidad propia del CD con un factor
de compresin que se aproxima a un valor de 10-12. Es el
caso de la capa 3 a 44.1 Khz, en modo <<joint stereo y una
tasa de 128 Kbit/s. Con estos parmetros se consigue que
una cancin de 4 minutos ocupe menos de 4 Mbytes, lo
cual posibilita que en un CD-ROM de 600 Mbytes quepan
ms de 12 horas de msica en MP3, o que sea factible
enviar canciones por correo electrnico, o bien capturar-
las desde Internet.
y esto es lo que preocupa a las di scogrficas, la
posi bilidad de transportar fcilmente la informacin, ya
sea en CD o a travs de la red. Por un lado se est
produciendo un fenmeno de piratera (ya es posibl e tener
en un solo CD toda la di scografa de un arti sta); por otro
lado, estn perdi endo el mercado de la di stribucin (hay
arti stas noveles que editan sus trabajos en la red, e incluso
algn cantante consagrado como David Bowie que di stri-
buye canciones en su servidor web [ 10]). Estn aparecien-
do multitud de portales y buscadores especial izados en
msica MP3 [1 1] que son una autntica mina para los
piratas musical es, ya que la estructura de Internet hace
posibl e establecer servidores en pases donde las
di scogrficas no pueden actuar legalmente en su contra.
Es por ell o que estas compaas estn promoviendo dife-
rentes estndares de compresin que incorporan protec-
cin contra copi as, pero todava no est claro que consi-
gan imponerl os en el mercado y, sobre todo, en la red.
La batalla contina. Hay quien cree que es una lucha
entre piratas y empresas, y hay qui en piensa que es una
pugna por la democratizacin del acceso a la msica,
acorde con la filosofa origi nal de Internet (acceso uni ver-
10
sal a la informacin). Como siempre, depende del lado
desde el que se mire .. .
PARA EMPEZAR A JUGAR
En este apartado vamos a ofrecer informacin prc-
tica sobre programas y productos que nos permitirn
experimentar con el sonjdo MP3. Comentaremos cules
son los ms popul ares y dnde encontrarlos.
Figura 11. Reproductor WinAmp. con la piel original.
El primer contacto con el mundo MP3 suele ser a
travs de un reproductor. El ms popular es el WinAmp
(http://www.winamp.com) de la compaa NullSoft Inc.
Es un programa actualmente freeware que decodifi ca
tanto fi cheros como fluj os HTTP y RTP (con un plug-in)
de los formatos MP3, CD-Audio, WMA, MOD Y WAV,
entre otros. Una de las caractersti cas ms curiosas es su
capacidad de cambi ar de piel (skin). Existen versiones con
moti vos de Star Trek, el OS de Apple, o el interfaz X-
Window de Unj x. Los fans ms incondi cionales puede
di sear su propi a versin y donarla al resto de usuarios.
Figura 12. Reproductor FreeAmp. en su versin Windows.
Otro reproductor, algo menos popular, es el FreeAmp
(http://www.freeamp.org), del cual est di sponibl e el eje-
cutable y el cdigo, compil able tanto para Windows
(Vi sual C++ )como para Linux. Este decodificador permj-
te reci bir flujos HTTPIRTPlMulticast sin ningn tipo de
plug-in adicional. El cdigo es ideal para estudi ar a fondo
el funcionami ento del MP3, al menos desde el lado del
reproductor.
Si queremos generar nuestros propios ficheros MP3,
necesitaremos rippers (para fuentes de CD-Audi o) y
codificadores. Aunque se pueden encontrar por separado,
lo habi tual es que las dos funciones estn juntas en el
mi smo programa. Es el caso de AudioGrabber (http://
www.audiograbber.com-us .net) y AudioCatalyst (http://
audi ocatalysLcom). Los dos permiten seleccionar opcio-
nes de adqui sicin (velocidad del CD, proteccin contra
errores, dri vers, etc.) y compresin (pre-normali zacin de
la seal , modo stereo/mono, frecuencia de muestreo, tasa
B URAN N14 DICIEMBRE 1999
de bits, prenfa is, etc.). De hecho, estos programas
suelen ser simpl esfront-ends, interfaces que controlan el
motor de compresin. Los motores ms habituales on el
L3encoder, del instituto Fraunhofer [9] , LAME Y XingMP3
Encoder (http://www.xingtech.comlmp3/encoderl).
Figura 13. Reproductor Rio.
Pero no todo es software: empiezan a aparecer los
reproductores basados en hardware. Son porttil es y muy
parecido a los walkman. El primero que apareci, y el
ms popular , es el Ri o de Diamond ( http ://
www.diamondmm.com) . El ltimo modelo, el Ri o 500,
dispone de una memoria de 64 Mb, ampliable medi ante
tarjetas flash. La carga de los fi cheros de msica se reali za
medi ante las tarjetas o bi en medi ante un puel10 USB con
el que se conecta a un ordenador de sobremesa. El peso es
de apenas 100 gramos, lo que hace que sea ideal como
reproductor porttil.
TRANSMISIN DE AUDIO POR RED:
RADIO MP3
Para fi nali zar este artcu lo, coment aremos una
de las apli caciones ms innovadoras del MP3: la posi-
bilidad de crear emisoras de radio a travs de Int ernet,
con calidad sufi ciente como para ser comerciales y con
un ancho de banda sufic ient emente bajo como para
poder ser recibidas a travs de una conexin de baja
veloci dad (un mdem de 33/56 Kbit/s o un canal RDS]
de 64 Kbit/s) .
IP UDP
[ ~ ~ ~ ~ ~ ~ ~ ~ ] Datos MP3 (tramas) 1I
Figura 14. Protocolos involucrados en la transmi-
sin de M P 3 en red.
R AMAS DE E STUDIANTES DEL IEEE
Es to se consigue segmentando los ficheros MP3
en trozo pequeos , de manera que en cada uno de ell os
exista un nmero ent ero (y no muy elevado) de tramas.
Como hemos isto en la de cripcin del estndar, las
tramas nos permiten decodificar por entero un ciert o
nmero de muestras PCM. As generamos un flujo
continuo (stream) de trozos que se encapsulan en
paquetes RTP (Rea l Time Protocol) [12], que inserta
marcas temporale que permiten una reconst ruccin
fiel del flujo original. Estos paquetes, a su vez, son
transportados por los protocolos UDP, o TCP (que a su
vez descansan sobre e l IP).
El uso de UDP, que se define como un protocolo
li gero (es deci r, de funcionami ento sencill o y con
mu y poca carga de cabeceras) permite que el transpor-
te de tramas MP3 sea muy eficiente. Sin embargo, el
TCP proporciona mucha ms proteccin frente a pr-
didas, a cos ta de retardos y salt os en la reproduccin.
Estas dos opc iones de transporte han hecho apa-
recer dos tipos de emi soras de MP3. Por un lado
tenemos las basadas en TCP, cuyo mejor exponente es
ShoutCast (http://www.shout cast. com). Esta pgina
web, mantenida por la mi sma e mpresa del WinAmp, es
en realidad un portal que da entrada a vari os centena-
res de emi soras di stribuidas por todo el mundo, conec-
tadas a la sede central de ull soft a travs de Internet.
El transporte de la informacin se reali za sobre HTTP
y TCP, y se abre una conexin por cada nuevo usuari o,
lo que limit a la cantidad de oyentes (ya que en caso
contrario se des bordara la capacidad del ordenador
emi sor y de los enl aces que lo conectan a Int ernet).
Figura /5. Comparacin entre el modo unicast (i zquier-
da) )' elmulticast (derecha).
Es te problema de escalabi lidad, que es un obst-
culo para una emis in mas iva, es resuelt o por la otra
gran familia de emi soras . s tas se basan en e l uso de
UDP y del protocolo IP con extens iones Multicas t
[12], que permite que slo se emita una copia de la
informacin desde e l emi sor, independi entemente del
nmero de receptores que estn act ivos . Cuando la
informacin ll ega al ltimo router de l rbol de distri-
bucin, se efecta una copia por cada uno de los
usuari os que quieren recibir el flujo . A se minimi za
la carga en los tramos superi ores del rbol, donde solo
circul a una copia de los paquetes. Esta tcnica requiere
11
de routers modernos, con capacidad de encaminar los
paquetes multicast, por lo que su uso est restringido
por ahora a entornos experimentales y universitarios,
pero sin duda se extender en el futuro hacia los
usuarios comerciales de Internet. Una aplicacin muy
sencilla y potente para la transmisin de flujos MP3
multicast es liveCaster (http://www.livegate.com).
FUTURO
A la vista de la velocidad a la que cambia el
mundo de la tecnologa, se hace difcil decir cul va a
ser el futuro de los codificadores MPEG y qu impacto
van a tener en nuestra vida cotidiana. Lo que s parece
claro es que hay una tendencia hacia la creacin de
productos de hardware especializado en compresin y
reproduccin MP3, lo cual podra hacer que se convir-
tiera en un estndar de facto en el mundo de la
electrnica de consumo, desplazando a productos como
el MiniDisc y compitiendo con el CD Audio.
En el campo de la transmisin de audio con
calidad broadcast, ya sea asociado a una seal de
vdeo o por s mismo, se contina el desarrollo de
algoritmos basados en efectos psicoacsticos. El lti-
mo de ellos es el AAC (Advanced Audio Coding) de
Dolby y NBC, aprobado como estndar para la banda
de sonido de MPEG-2. Este sistema se basa en el
Dolby Surround de 5+ 1 canales, y es capaz de
multiplexar hasta 48 canales de audio, 15 canales de
mejora de baja frecuencia, y 15 canales de datos.
Segn sus diseadores, un flujo AAC stereo a 96 Kbit!
s ofrece una calidad superior a la de MPEG-l capa 3 a
128 Kbit/s o MPEG-capa 2 a 192 Kbit/s. Para conse-
guirlo, suma tcnicas predictivas a las psicoacsticas y
utiliza un banco de filtros de alta resolucin. Pero ya se
estn anunciando algoritmos de compresin superio-
res en prestaciones ...
Como puede verse, el mundo del audio digital
est en plena ebullicin. Os recomiendo que os man-
tengis al corriente de las ltimas novedades visitando
los links que se proporcionan al final del artculo, y que
experimentis con los programas; es la mejor manera
de aprender y disfrutar de la tecnologa.
PARA MS INFORMACIN ...
... sobre los estndares MPEG de video y audio:
http://www.mpeg.org
... sobre las cuestiones tcnicas relacionadas con el
formato de audio MPEG:
12
http://www.mp3tech.com
... sobre el Instituto Fraunhofer, creador del estndar
MP3:
http://www.s.fhg.de
. .. sobre msica en formato MP3:
httpJ/mp3.lycos.com
... sobre productos software y hardware MP3:
http://www.mp3.com
... sobre cdigo C de codificadores y decodificadores:
http://mp3tech.free.fr/programmers/
programmers.html
REFERENCIAS
[1] B. SIdar, Digital commmunications fundamentals
and applications, Prentice-Hall Intemational, 1988.
[2] Marcos Fandez Zanuy, Estndares de codifica-
cin de audio MPEG, Mundo Electrnico, Sep-
tiembre 1999.
[3] Z. Nian-Li, Audio Compression course notes, http:/
/www.cs.sfu.ca/CC/3 65 /li/material/notes/Chap4/
Chap4 .4/Chap4.4 _prev .html
[4] Official MPEG Website, http://drogo.cselt.stet.it!
mpeg
[5] ISO - Intemational Standards Organisation, http://
www.iso.ch
[6] Introduccin a la compresin de audio: MPEG 1
Layer 3, http.//www.geocities.comlSiliconValley/
Vista/5390/index.htrnl,
[7] Davis Pan, A Tutorial on MPEG Audio compresion,
IEEE Multimedia, pp 60-74,1995
[8] J.L. Mitchell, W.B. Pennebaker, c.E. Fogg, DJ.
LeGall, MPEG Video Compression Standard,
Chapman and Hall - International Thomson
Publishing, 1997.
[9] Fraunhofer lIS. http://www.iis.fhg.de/arnmltechinf/
layer3/index.htrnl
[10] David Bowie website, http://www.davidbowie.com
[11] Un buscador de ficheros MP3 se puede encontrar en
http://mp3.lycos.com
[12] S.A. Thomas, IPng and the TCP/IP Protocols,
Wiley Computer Publishing, 1996.
[13] Kosiur, D .R., IP multicasting the complete guide to
interactive corporate networks, John Wiley & Sons,
1998.
BURAN N"14 DICIEMBRE 1999