Unidad Didactica 6. Fundamentos Del Audio Digital.: Tabla de Contenidos

UNIDAD DIDACTICA 6.
FUNDAMENTOS DEL AUDIO DIGITAL.
Tabla de contenidos.
1. FUNDAMENTOS DEL AUDIO DIGITAL......................................................................................... 2

1.1. Caracteristicas de las señales. .................................................................................... 2
1.2. Caracteristicas del mundo digital. ............................................................................. 4
1.3. El sistema binario. ..................................................................................................... 6
2. PROCESO DE CONVERSIÓN. ............................................................................................................ 8

2.1. Codificacion PCM. .................................................................................................... 8
2.2. El muestreo. ............................................................................................................... 9
2.3. Cuantificacion. ........................................................................................................ 12
2.4. Conversion digital a analógica. ............................................................................... 14
3. FORMACION DE LA TRAMA DIGITAL. ...................................................................................... 15

3.1. Transmisión paralelo y serie. .................................................................................. 15
3.2. Flujo binario o Tasa de bit....................................................................................... 16
3.3. Multiplexación en el tiempo. ................................................................................... 18
3.4. Transmisión sincrona digital. señal de reloj. ........................................................... 19
3.5. Protocolos de comunicación para audio. ................................................................. 21
4. COMPRESIÓN DEL FLUJO Y ARCHIVOS DE AUDIO.............................................................. 22

4.1. Compresión del flujo binario................................................................................... 22
4.2. Formatos sin compresión. ....................................................................................... 24
4.3. Formatos de compresión sin pérdidas. Lossless. ..................................................... 25
4.4. Formatos de compresión con pérdidas. ................................................................... 25
Jose Carlos Garcia Lara
U.D. 6. Fundamentos del Audio digital. 1

1. FUNDAMENTOS DEL AUDIO DIGITAL.
El audio digital presenta muchas ventajas frente al analógico, como por ejemplo la
posibilidad de realizar la edición y el tratamiento mediante técnicas digitales que facilita la
aplicación de efectos y la corrección de deficiencias de la señal original. Por otro lado, la
tecnología digital requiere mayor velocidad de procesado, por lo que es necesario utilizar
técnicas de almacenamiento y transmisión diferentes a las analógicas.
1.1. CARACTERISTICAS DE LAS SEÑALES.

 Señales analógicas.
En el audio analógico se hace variar la tensión procedente de un micrófono de la misma
forma que la variación de la presión del aire a lo largo del tiempo. La tensión es “análoga” a la
presión, de hay la denominación “analógico”. Lo mismo ocurre con el magnetismo de una cinta
o la deflexión del surco de un disco.
Una señal analógica puede tomar infinitos

valores desde 0 hasta su máximo. Por ejemplo,
si varia entre 0 y 1 la magnitud podrá valer 0,4
ó 0,443 ó 0,432342… . Además, podrá tomar
cualquier valor de forma continua, es decir, en
cualquier instante de tiempo. Ej la señal de
audio tiene un determinado valor en el segundo
5, otro valor en 5,4 seg , otro en 5,4236… seg.
Esta característica supone la debilidad principal de las señales analógicas. Porque cualquier
valor de magnitud, dentro del rango, se ha se considerar como válido aunque ese valor sea un
error. Si una transmisión o grabación introduce una degradación (distorsión o ruido) al
reproducirla tendremos que aceptarla por que el nuevo valor es valido aunque sea erróneo.
Entenderemos mejor esta idea al estudiar las señales digitales.
Los sistemas analógicos adolecen de importantes desventajas frente a los digitales.

 Todos los logros principales ya están conseguidos y avanzan más lentamente que
nunca.
 Añaden ruido y distorsión en cada etapa y no se puede eliminar.
 Dificultad y falta de flexibilidad en el procesado. Al ser el audio analógico una señal
eléctrica el procesado se realiza con circuitos electrónicos (transistores,
resistencias..), que son difíciles de construir y solo tienen una aplicación
determinada.
Un procesador analógico de distorsión para guitarra solo puede

realizar el efecto para el que fue diseñado. Además si necesitamos gran
cantidad de pedales para su comercialización, tendremos que fabricar
completamente cada uno de ellos, lo que encarece su precio.

 Señales discretas.
Una señal puede ser discreta en el tiempo. Esto es que solo tendremos valores de señal
en determinados instantes de tiempo, entre ellos no tendremos señal. Ej una señal tiene un valor
en el segundo 4 y otro en el 5, pero el tiempo que transcurre entre el segundo 4 y 5 la señal no
tiene ningún valor. No es continua en el tiempo aunque en amplitud puede ser continua o
discreta. En la práctica una señal discreta es una serie de impulsos separados un periodo T.
Señal discreta en el
tiempo y continua en
amplitud.
Una señal discreta en amplitud significa que esta solo podrá tomar determinados
valores. Ej. una señal en el instante 5 seg podrá tomar un valor de 4V ó 5V pero nunca uno
intermedio. La amplitud no es continua, aunque el tiempo podrá ser continuo o discreto.
Señal discreta en amplitud y continua en el tiempo. Discreta en tiempo y amplitud.
Las señales discretas no se utilizan directamente en la práctica, ni se graban ni se transmiten,

solo se emplean en el procesado digital como variables informáticas. Sin embargo su
conocimiento es importante para comprender el proceso de conversión analógico/digital, ya que
una señal discreta es el paso intermedio entre la señal analógica y la digital. Cuando los
programadores informáticos trabajan con audio digital, tratan al sonido como una enorme
cadena de números discretos, cuyos valores dependen de la amplitud de la señal analógica.
 Señales digitales binarias.

Una señal digital binaria es una señal continua en el tiempo y discreta en la amplitud.
Concretamente, la amplitud solo puede tomar dos valores, de ahí el término binario. Los dos
únicos valores permitidos pueden ser, por ejemplo, 0 y 5V, -5V y +5V, on y off. En cualquier
caso estos valores se representan con un “0” y un “1”.
Cada estado, ya sea 0 ó 1, se le conoce como digito binario y suele contraerse de forma
universal como “bits” (del ingles BInary digiTS). Una palabra de 8 bits se denomina “byte” que
proviene de “by eight”.

Siempre hemos escuchado que los datos digitales de audio o video son una secuencia
ordenada de 0 y 1. Estrictamente estos 0 y 1 no son números, en realidad es cualquier fenómeno
que solo tenga dos estados. Por ejemplo, en la señales eléctricas son dos voltajes diferentes, en
los CD son minúsculos huecos y elevaciones en una superficie, en comunicaciones por laser es
“ luz encendida- luz apagada”, en grabación magnética como el disco duro o en cintas son
campos magnéticos con orientación N-S ó S-N.
Lo que realmente hace a las señales digitales tan interesantes, es su sencillez. Si existen
únicamente dos estados, la probabilidad de error es muy pequeña.
Las señales digitales binarias son las que se grabarán en un CD, por ejemplo, o las que
se transmitirá por una red Wifi.
El sonido, por naturaleza, tiene un carácter analógico y para aprovechar las ventajas del
mundo digital, es necesario realizar una conversión entre analógico y digital.
1.2. CARACTERISTICAS DEL MUNDO DIGITAL.

Existen dos características que hacen especialmente interesante las señales digitales para
procesar y grabar el audio, y es imposible decir cual de las dos es de mayor importancia.
 Restauración de la señal digital.

La calidad de reproducción de un sistema digital de audio bien diseñado es
independiente del medio y depende únicamente de la calidad de los procesos de conversión. Se
consigue así, uno de los mayores retos de la tecnología: poder transmitir, procesar y grabar
señales de audio sin que le afecten las perturbaciones propias de cada medio. Si no se producen
errores en el sistema, la señal digital de audio es inmune al ruido y a las distorsiones de los
formatos de grabación, de las líneas de transmisión o de los procesadores.
Esto es posible porque una señal de audio digital se puede restaurar de una forma muy
sencilla. Se marca un nivel de umbral intermedio a los dos valores y se compara continuamente
con la señal digital. Si esta señal tiene un valor superior al valor intermedio se aceptará como
“1” y si es inferior será un “0”. Así todo el ruido que tenga la señal será discriminado siempre
que no supere dicho umbral. Este proceso se conoce como troceado (slicing).
Los errores de sincronización o de tiempo conocidos como Jitter también pueden ser
eliminados. Si el error o ruido fuese demasiado elevado, existen además, unos algoritmos
matemáticos de corrección de errores.
Esta sencilla técnica de restaurar las señales digitales, ha revolucionado la tecnología

audiovisual.
Por muy grande que sea el número de etapas por la que pase la señal binaria, la salida
sigue siendo la misma. Un video en formato digital puede procesarse o copiarse
indefinidamente sin que haya pérdidas en la calidad.

Los discos digitales, tienen todos la misma calidad sonora, independientemente de la marca
o la calidad del disco. Un sonido en formato digital puede procesarse o copiarse
indefinidamente sin que haya pérdidas en la calidad, esto es lo que ha permitido la distribución
tan espectacular que puede alcanzar un archivo original.
El hecho de que las señales digitales se puedan restaurar y obtener siempre la señal
original, ha supuesto una auténtica revolución en la tecnología audiovisual:
 La calidad de audio o del video no dependen de la calidad del medio de grabación, todos
los CD, ordenadores o DVD tienen la misma calidad siempre que funcionen
correctamente y estén bien grabados. En analógico sí había cintas mejores que otras.
 Se puede eliminar el ruido propio de los soportes de grabación, así una cinta analógica
añadía ruido que después no se podía reducir y los sistemas digitales prácticamente no
añaden ruido ni distorsiones, tanto para audio como para video. La señal de TV digital
que recibimos en casa es exactamente la misma que la que salió de la emisora a miles
de kilómetros.
 Es posible hacer infinitas copias de un archivo o señal original sin que su calidad se vea
mermada. En analógico, cuando se copiaba de una cinta a otra siempre había pérdidas
de calidad, así a partir de la 3ª o 4ª generación de copias, el video o música eran tan
pobres que no se podían seguir copiando. Un archivo de video digital se puede copiar
de un ordenador a otro miles de veces y transmitirse a través del todo el mundo por la
red, manteniendo siempre el archivo original, esto es lo que ha motivado la tan polémica
piratería de obras musicales o cinematográficas.
Procesado digital de la señal.

La conversión del audio al terreno digital permite grandes oportunidades que le son
negadas a las señales analógicas. La razón es la facilidad y flexibilidad para el procesado a un
bajo coste.
Una vez que se ha realizado la conversión del audio a digital, este se procesa completamente
como datos numéricos. Cualquier tratamiento digital consiste en una serie de operaciones
matemáticas realizadas mediante programas informáticos. El procesado digital no se realiza con
componentes electrónicos, estos solo son los necesarios para ejecutar dichos cálculos
informáticos. Esto es importante por que permite que con un único circuito procesador (que
realiza los cálculos) se puede realizar multitud de procesos distintos, basta con cambiar los
cálculos y operaciones que realiza. Un mismo equipo electrónico puede hacer multitud de
procesos distintos, por eso un ordenador sirve para multitud de tareas y existen los multiefectos
digitales de sonido que lo mismo pueden ecualizar que añadir reverberación.
Web: Ventajas de la digitalización.

1.3. EL SISTEMA BINARIO.
El sistema binario, en matemáticas e informática, es un sistema de numeración en el
que los números se representan utilizando solamente las cifras cero y uno (0 y 1). Los
ordenadores trabajan internamente con dos niveles de voltaje, por lo que su sistema de
numeración natural es el sistema binario (encendido 1, apagado 0).
El sistema decimal, al que estamos acostumbrados, utiliza diez símbolos o dígitos (el
nombre proviene de los diez dedos de la mano), y para contar por encima de 9 se usan
combinaciones de estos dígitos. Para ello se incrementa el valor o se añade un digito a la
izquierda y se repiten todas las combinaciones anteriores.
Decimal Binario En binario se cuenta con la misma técnica,

0 0 con la única diferencia de poseer solo dos símbolos:
el 0 y el 1. Se empieza con 0, 1 y para continuar se
1 1
añade un nuevo 1 a la izquierda y se repiten todas
2 10
las combinaciones anteriores con este nuevo digito:
3 11 10; 11, nuevamente tenemos que repetir todas las
4 100 combinaciones anteriores, añadiendo un nuevo 1 a
5 101 la izq: 100; 101; 110; 111. y así sucesivamente.
6 110 Nótese que se necesitan más dígitos para codificar
7 111 que en decimal, pero estos son más fáciles de operar
8 1000 por un circuito. Como solamente se dispone de dos
9 1001 símbolos (0 – 1) se necesitan muchos dígitos para
10 1010 representar valores grandes mediante un sistema
11 1011 binario
12 1100
13 1101 En informática es también muy habitual
14 1110 utilizar el sistema hexadecimal que dispone de 16
15 1111 símbolos: de 0 al 9 y continua con A,B,C,D.
16 10000
En audio digital el sistema de numeración empleado es el binario en lugar del decimal.

Esto ofrece muchas ventajas, ya que permite representar los números utilizando tan solo dos
estados: bulto saliente-entrante; 0V -5V; láser encendido-apagado, magnetismo polo norte-polo
sur…), además el audio puede grabarse como si se tratase de datos informáticos.
La cantidad de valores distintos que se puede combinar con códigos de n bit, es 2n donde
n es el número de bit del código. Lo importante es entender que cuantos más bits tenga una
palabra binaria mayor cantidad de valores distintos podremos conseguir con ellos.
Cantidad de valores = 2n
Por ejemplo, con tres bit se pueden conseguir 23= 8 valores, que son: 000; 001; 010;
011; 100; 101; 110 y 111. Con 8 bit tenemos tendremos 28= 256 valores y con 16 bit 216 =
65536.

 Conversión de Binario - decimal.
Sin pretender entrar demasiado en detalle, para la conversión de binario a decimal, se
realiza lo siguiente: en decimal, el valor de cada digito depende de la posición dentro de la cifra,
por ejemplo, en 349 el número 9 vale 9. En 938 al estar en la tercera posición (centenas) su
valor es de 900, el 3 que está en la posición 2º (decimales) vale 30 y el 8 vale 8. El valor total
de la cifra se obtiene sumando los valores de cada digito según su posición: 900+ 30+ 8=938.
En binario es casi igual, solo que el valor de las posiciones son potencias de 2, lo que
conocemos como unidades tiene un valor de “1”, las decenas valen “2” , la siguiente cifra vale
, 8, 16,32… así hasta todas las cifras que tenga nuestro número binario. Después los valores de
las posiciones que tenga un “1” se suman y los que tengan un “0” de ignoran.
Como mejor se entiende es con un ejemplo, el número binario 1010010 corresponde en

decimal al 82 se puede representar de la siguiente manera
64 32 16 8 4 2 1
1 0 1 0 0 1 0 64+16+2 = 82
Entonces se suma los números 2, 16 y 64 que son las posiciones que las que hay 1. Como
ves, cada posición tiene un valor potencia de 2, esto es 2 posición.
Cada bit representa una potencia de dos según su posición. En modulación de

pulsos codificados (PCM) los números binarios se representan eléctricamente mediante
una serie de niveles altos y bajos de tensión.
En algunos equipos digitales los valores

numéricos se introducen en binario en lugar de con
un teclado decimal como estamos acostumbrados.
Lógicamente son incómodos y solo se utilizan en
configuración de equipos que no necesitan
cambiarse continuamente. En esta foto aparecen
unos conmutadores binarios para configurar la
dirección DMX de un foco de iluminación. Su
dirección DMX es 1+2+8 = 11.
Existen métodos matemáticos para la conversión directa también de binario a decimal,

pero, como técnicos de sonido, no necesitamos conocer más sobre esta codificación. Es
suficiente con que conozcáis como suelen trabajar los equipos digitales.
Web: El sistema binario, WIkipedia.

2. PROCESO DE CONVERSIÓN.
2.1. CODIFICACION PCM.
Ya hemos comentado que la mayoría de los fenómenos físicos que nos interesan son de
carácter analógico (audio, video), por la tanto, si queremos realizar un procesado digital, el
primer paso será siempre una conversión analógico-digital. Los conversores dan como salida
un código binario digital de varios bit (generalmente 8 ó 16), con ellos podremos realizar tres
operaciones básicas: se podrán grabar en un soporte que pueda registrar dos estados (1 y 0), se
podrá transmitir por cable, ondas de radio o fibra óptica y también se podrán procesar en un
microprocesador o DSP.
Una vez completada alguna de dichas operaciones obtendremos como resultado los
mismos códigos en grabación o en transmisión y otros distintos en el procesado. Es evidente
que este resultado digital aun no es audible, por lo que tendremos que reconvertir las palabras
digitales en audio analógico. A la salida de un equipo digital tendemos siempre un conversor
digital- analógico (A/D).
Existe una técnica de codificación, conocida como modulación por codificación de

impulsos (PCM, pulse code modulation), que se usa prácticamente de forma universal para
realizar la conversión analógico-digital. De hecho, a veces se utilizaba el termino PCM para
indicar que un equipo es digital o las señales de audio sin comprimir ni modificar como los
famosos archivos de audio WAV o AIFF.
La codificación PCM, y por lo tanto la conversión, se realiza básicamente en dos pasos:

el muestreo y la cuantificación. El primero de ellos convierte la señal analógica en discreta en
el tiempo, es decir, una serie de pulsos muy cortos separados cada cierto periodo de tiempo con
amplitudes iguales a los de la correspondiente señal analógica. Y la cuantificación asigna un
código o palabra digital a cada uno de esos pulsos, dependiendo de su amplitud.
Muestreo
En la modulación por impulsos la forma de onda se mide periódicamente a la

frecuencia de muestreo. La tensión (representada aquí por la altura) de cada muestra es
descrita mediante un número entero. Son los números enteros los que se almacenan o se
transmiten, en lugar de la forma de onda propiamente dicha.

2.2. EL MUESTREO.
Básicamente, consiste en ir haciendo mediciones del valor de la señal analógica cada
cierto tiempo, generando impulsos de amplitud igual a la que tiene la señal analógica en cada
uno de esos instantes de medida. Es como ir tomando “muestras” de la señal periódicamente,
de ahí el nombre de muestreo o sampling. Así, una señal continua en el tiempo se transforma
en una discreta, es decir, que va a estar formada por pasos, por pequeñas muestras de la señal
continua. La amplitud de la nueva señal digital tiene la misma forma que la original.
El eje temporal queda representado de forma discreta, o paso a paso, y la forma de onda se
obtiene a través de mediciones hechas a intervalos regulares. Es decir, cada cierto tiempo (Tm)
se realiza una medición de la tensión analógica. Estas mediciones se le conocen como muestras
y por tanto al proceso descrito se le denomina muestreo.
La frecuencia con la que se toman dichas muestras es la frecuencia de muestreo (Fs o F m)

y lógicamente se mide en Hertzios. Por lo tanto, la frecuencia de muestreo es el número de
muestras que se toman en un segundo.
Teniendo en cuenta que los valores analógicos que hay entre cada muestra no se consideran
(se pierden), cuantas más muestras se tomen por segundo, mayor similitud habrá entre la señal
discreta y la señal analógica original. La frecuencia de muestreo es un factor determinante en
la calidad de una conversión y de hecho es unos de los parámetros más importantes del audio
digital. A mayor frecuencia de muestreo mejor calidad respecto a la frecuencia, las altas
frecuencias se codificaran mejor, pero a costa de una mayor cantidad de bits por segundo.
Para determinar la Fm más adecuada a cada señal necesitamos conocer el aliasing y el

teorema de nyquist.

 El aliasing.
Hasta ahora en los ejemplos de muestreo que hemos visto, la frecuencia de muestreo era
mucho mayor que la fz de la señal analógica a muestrear, con lo que la amplitud de la muestra
se asemeja mucho a la original.
Pero si la Fm es mucho más baja que la fz máxima de la señal, las amplitudes de las
muestras no se corresponderán para nada con la forma original, y producirá una importante
distorsión conocida como aliasing.
Si llevásemos los valores de muestra de la figura a un

convertidor D/A obtendríamos la onda que aparece en azul, la cual es
muy distinta de la original. Hoy en día este problema está más que
superado, solo se necesita una frecuencia de muestreo muy superior a la
fz de la señal.
El aliasing se produce cuando Fm << Fzmax, para calcular el valor exacto de la Fm

necesaria para que la señal muestreada se corresponda con la original se aplica el teorema de
Nyquist.
 Teorema de Nyquist.
Este teorema dice que si una señal continúa tiene una frecuencia máxima: Fmax, dicha
señal podrá reconstruirse sin distorsión, a partir de muestras tomadas a una Fm si se cumple:
Fm > 2* Fmax
O dicho de otra forma, la frecuencia de muestreo debe ser mayor del doble de la
frecuencia más alta que tenga la señal analógica. Teniendo esto en cuenta podemos determinar
la frecuencia de muestreo óptima para cada aplicación concreta:
o Telefonía móvil. La voz se filtra hasta 3Kz  Fm > 6KHz. En la práctica se usa 8KHz.
o Radio digital. Fmax= 15Khz  Fm > 30KHz. Se muestra a 32KHz.
o Toda la banda de audio. Fmax = 20KHz  Fm > 40KHz.

Se ha tomado como estándar la frecuencia muestreo de 44.100 Hz. Es la frecuencia habitual
en la mayoría de los sistemas de grabación domésticos, como es el caso del CD, DVD o TV
digital. El motivo de que el valor estándar sea exactamente de 44100 Hz se debe a que en los
inicios del audio digital era habitual grabar en formatos ya existentes de video analógico, por
ejemplo, en VHS ó HI-8. En Video analógico la imagen se compone de 25 imágenes por
segundo, en cada imagen tenemos 588 líneas activas y se decidió que en el espacio de una línea
se grabase 3 muestras. Así: 25 x 588 x 3 = 44100 muestras.
o En grabaciones de audio profesional es usual utilizar frecuencias de muestreo mayor,

como por ejemplo, 48 ó incluso 96KHz. Estos valores solo son recomendados cuando se
pretenden realizar gran cantidad de procesado, en los que cualquier mínimo error puede
llegar a magnificarse. Para una grabación convencional unos valores tan altos generarán
gran cantidad de información que ocuparán mayor espacio en la memoria,
innecesariamente.
Para garantizar que se cumple el teorema de Nyquist la señal de audio se filtra a la mitad
de la frecuencia de muestreo. De este modo se eliminará todas las componentes espectrales que
estén por encima de la mitad de la frecuencia de muestreo. Es el filtro antialiasing.
Técnicamente, el proceso de muestreo se implementa con un transistor mosfet funcionando

como un interruptor controlado por una señal de pulsos, que se va abriendo y cerrando a la
velocidad de la frecuencia de muestreo. Cada vez que el interruptor se cierra, deja pasar un
impulso muy corto de la señal analógica. A la salida del interruptor un condensador almacena
este valor durante un cierto tiempo para que la siguiente etapa de cuantificación le de tiempo a
codificarlo. Es aquí donde la señal discreta formada por impulsos, se convierte en una señal
escalonada. Por eso, en muchos casos al proceso de muestreo se le conoce como “Sample and
hold”: muestreo y retención.

2.3. CUANTIFICACION.
Una vez muestreada la señal, debe convertirse en series de números mediante un proceso
conocido como cuantificación. En el muestreo se generaron un tren de impulsos de amplitud
variable; la cuantificación consiste en asignar a cada muestra un valor numérico, en función de
su amplitud. Es cambiar el valor de una muestra en voltios por otro valor equivalente con
números enteros.
En la figura se han empleado, a modo de ejemplo, una escala de 1 a 10,

tanto para los valores positivos como para los negativos. Cada muestra debe quedar
representada por uno de estos valores enteros. No se permiten valores fraccionados
o intermedios, por lo que durante la cuantificación cada muestra se redondea al
entero más próximo. El resultado es una secuencia de números enteros. En audio
digital la numeración no se hace en decimal, si no en binario. Por eso el audio digital
es una cadena de 0 y 1. En el ejemplo el resultado de la conversión es 111 000 010
010 011...
Los bits de cada muestra salen del cuantificador en paralelo, esto es con un terminal y
un cable para cada uno. Si cada muestra la componen 8 bit, pues habrá 8 terminales de salida.
 Ruido de cuantificación.
Como resulta poco probable que la amplitud de las muestras coincida exactamente con
cada valor entero de la cuantificación, existirá normalmente una pequeña diferencia entre la
muestra cuantificada y su amplitud original. Esto es lo que se denomina error de cuantificación.
El valor máximo del error puede ser la mitad de un intervalo de cuantificación. Si la amplitud
de una muestra supera la mitad entre dos valores de cuantificación, se considera el valor
superior y si es más pequeño que la mitad se redondea al valor inferior.
El error de cuantificación se
trata realmente de una forma de
distorsión puesto que cambia la
forma de la señal original. Por la
forma semi aleatoria de las señales
musicales esta distorsión se aprecia
como un ruido de poco nivel.

Si se aumenta la cantidad de valores o escalones que cubren un mismo margen de amplitud
de señal, se logrará reducir la diferencia entre el valor real y el aproximado. Dicho de otra
forma, el intervalo entre los valores enteros debe ser lo más pequeño posible. Recordamos que
la cantidad de valores distintos que se pueden codificar con una palabra es 2n , donde n es la
cantidad de bit que tiene cada palabra o muestra y se le conoce como bits o resolución de
cuantificación. Pues la cantidad de intervalos o valores que puede tomar una muestra y por lo
tanto el ruido de cuantificación depende de la cantidad de bits por muestra. Por lo tanto el error
de cuantificación será menor cuantos más bits de cuantificación usemos por muestra, pero como
siempre, a costa de tener mayor cantidad de información binaria. En muchos ámbitos a la
cantidad de bits por muestra se le conoce como resolución o como profundidad.
Los bits de cuantificación mas usados son:

o 8 bits por muestra, en los sistemas de baja calidad sonora. Entre el voltaje
mínimo y el máximo de amplitud hay 28 =256 valores de nivel, la SNR es de
50 dB (muy baja).
o 16 bits. Equipos domésticos de alta calidad, CD, DVD, TDT. 65.536 valores,
SNR = 97dB.
o 20, 24 bit. En grabaciones profesionales y equipos de alta definición. DAT, BLU
RAY, SACD… El ruido es inapreciable SNR > 120 dB.
En la siguiente figura las dos digitalizaciones tienen la misma frecuencia de muestreo pero
distinta resolución de cuantificación. En el primer caso solo hay tres niveles de amplitud por lo
que los valores están muy separados y se comete mucho error de cuantificación. En el segundo
caso las muestras pueden tomar uno de los 7 valores diferentes y la señal digitalizada es más
parecida a la analógica original.
Web: audio digital wikipedia.
 El Dither.
El dither es un proceso de añadir ruido a la señal original para disminuir los errores de
cuantificación, es decir, se le suma un ruido blanco aleatorio a la señal analógica antes de
realizar la conversión.
Parece contradictorio que el ruido de cuantificación se reduzca añadiendo más ruido,

pero funciona y lo emplea la mayoría de los conversores A/D. Aprovecha, también, la capacidad
del oído humano de promediar las señales ignorando el ruido blanco.

Las grabaciones profesionales se suelen realizar a 20 ó 24bit, pero, los formatos de consumo
funcionan a 16, por lo tanto, en la masterización, se apreciará un aumento del ruido de
cuantificación como resultado de disminuir la resolución de los bits. En este caso se suele
aplicar el dither, antes de realizar el cambio. Los programas de grabación incluyen esta opción
e incluso se puede elegir entre varios tipos, dependiendo de las características del ruido añadido.
Profundizar en el dithering y en sus tipos es un tema demasiado complejo para nuestros
objetivos.
2.4. CONVERSION DIGITAL A ANALÓGICA.

Para reproducir grabaciones digitales es necesario convertir de nuevo los datos binarios
en señales analógicas de sonido. Las palabras que representan las muestras de audio se
convierten de nuevo en una serie de niveles eléctricos en forma de escalera, cada uno de los
cuales representa el valor particular de una muestra cuantificada. Este proceso es exactamente
el inverso de la cuantificación y se de conoce como decuantificación. A continuación la señal
de escalera se muestrea de nuevo para reducir el ancho de los pulsos y reducir el efecto de
apertura en el que no vamos a profundizar.
Para convertir la serie de pulsos resultante, en una señal continua se la hacen pasar por un
filtro reconstructor. El objetivo del filtro reconstructor es enlazar entre sí los puntos de muestra
de tal manera que de esta unión resulte una onda de forma suaves, sin escalones ni transiciones
bruscas. Simplemente es un filtro paso bajo cuya frecuencia de corte es igual a la mitad de la
frecuencia de muestreo.
Existen multitud de tipos de conversores, con un funcionamiento y características muy

distintas entre ellos. Entenderlos y conocerlos todos puede ser demasiado largo. Los más
básicos están formados por redes de resistencias que van sumando varios voltajes según el
código binario de forma que el voltaje resultante está en función del valor del código digital.
Otros conversores más sofisticados son los de 1 bit y los de sobremuestreo.

3. FORMACION DE LA TRAMA DIGITAL.
3.1. TRANSMISIÓN PARALELO Y SERIE.
En la salida de un conversor A/D, la de una memoria, o la de un microprocesador, utiliza
un terminal o cable para cada bit de la muestra utilizando un terminal independiente para cada
digito. Si, por ejemplo, el conversor A/D es de 8 bit la salida digital se obtendrá por 8 cables
diferentes y esos códigos binarios de 8 bit saldrán por estas líneas uno tras otro.
Para comunicarse con ellos directamente habrá que utilizar una transmisión en paralelo.
Se trata de una conexión sencilla que necesita poca circuiteria complementaria y muy rápida
por que transfiere muchos bits simultáneamente. El inconveniente es que es engorroso e
incomodo de utilizar por el tamaño del cable y del conector, además seria muy complicado de
grabar o de transmitir por radiofrecuencia.
La transmisión paralela más conocida es el puerto IEEE 1284 como el utilizado

antiguamente en las impresoras. El puerto IDE, también conocido como Paralell ATA se
utiliza en ordenadores para conectar la placa base con los dispositivos.
Lo más habitual es transmitir y grabar los bit de un código en serie uno detrás de otro,
utilizando un único canal o terminal de salida. Los bits se transmiten uno detrás de otro por la
misma línea Así funcionan todos los sistemas de grabación y la mayoría de las transmisiones
digitales. La comunicación es más lenta porque tendremos que esperar a que lleguen uno a uno
todos 16 bit para recibir una palabra (muestra) completa.
Físicamente esto se implementa con un registro de

desplazamiento es como una pequeña memoria en la
que se almacena en paralelo un código completo y
después se leen uno a uno por un único terminal de
salida.
En la figura superior derecha
tenemos un ejemplo, de la transmisión de
una muestra con valor 0110 por un
interfaz paralelo. Se utiliza un cable para
cada bit, en este caso 4 hilos y en un solo
golpe de reloj se transmiten los 4 bits a la
vez.
En la transmisión serie se
mandan los bits por un solo hilo, uno
detrás de otro, así se manda primero el 0
después el 1, el 1 y el 0. Para enviar la
misma muestra se necesitan 4 pasos de
reloj.

Casi la totalidad de los sistemas de grabación y de transmisión de datos digitales trabajan
con los bits en serie. En un Compact Disc el audio se graba como una gran cadena en serie de
0 y 1, uno detrás de otro. La transmisión de datos de la mayoría de los interfaces es serie: el
Bluetooth, Fire Wire, MIDI, puerto serie del teclado y del ratón, Wifi…
Como ejemplo, de interfaces serie podemos dar el puerto serie RS-232, que en los
equipos de audio se utiliza para conectarlos a un ordenador y poder actualizarlos o controlarlos
remotamente. Pueden disponer de un conector sub D-9 o PS-2 circular. Otro interfaz serie muy
conocido es el USB, precisamente su nombre viene de Universal Serial Bus. Los puertos serie
solo necesitan dos terminales (+ y -) para la transmisión de datos, los demás pueden ser para la
alimentación eléctrica o para la señal de reloj de sincronismo.
3.2. FLUJO BINARIO O TASA DE BIT.

La tasa de bit (bit rate) indica la cantidad de bit que se transmiten o graban en un
segundo. Da idea de lo rápida que es una línea digital o la cantidad de bit que ocuparía un
segundo de archivo. Se mide en Bits por segundo (b.p.s.). Es una unidad de medida muy
utilizada en telecomunicaciones y en el mundo audiovisual. La b en minúscula se refiere a bits
y la B en mayúscula a Bytes. Por ejemplo, un interfaz de audio de 30 Kbps puede transmitir
30000 “0” o “1” durante un segundo. O un archivo de video de 25Mbps, significa que un
segundo de video ocupará 25Mbits.
Como la cantidad de bits que de transmiten o graban es muy grande se suelen

utilizar los múltiplos del bits, recuerda que: 1Kilo (Kbps) = 1000; 1 Mega (Mbps) = 1.000.000;
1Giga (Gbps) = 1.000.000.000; 1 Tera (1T 1.000.000.000.000).
En audio es muy fácil calcular el flujo binario de audio digital serie. La cantidad
de información que genera un sonido digitalizado dependerá de la frecuencia de muestreo y de
los bits de cuantificación que se seleccionaron en la conversión. Por ejemplo en un .WAV con
calidad CD tendrá: 44100 x 16 bit x 2= 1411200 bits por segundo.
Si en un segundo tenemos 44100 muestras, y cada muestra se codifica con 16

bits, en total tenemos 705600 bits en un segundo. Como el canal es estéreo se multiplica por
dos. Entonces un solo segundo de música ocuparía en el disco 1,4Mbits sin contar con la
información adicional que también acompaña al audio. Cuando se habla de capacidad de
almacenamiento, se prefiere hablar de bytes en lugar de bits, recordamos que un byte son 8 bits.
Por lo tanto 1 seg. de audio calidad CD ocupará 1411200/8= 176,4 K.B. En la figura siguiente
un segundo de un sonido real muestreado a 44100Hz y 16 bits, se comprueba que efectivamente
ocupa 176 K Bytes. En algunas aplicaciones, sobre todo domésticas, interesa reducir este
elevado flujo binario a través de la compresión de datos para que el archivo de audio sea más
fácil de almacenar y transmitir.
Web: Tasa binaria. Wikipedia.

Bits de
resolución
Muestras de
audio en un
Frecuencia de
segundo
muestreo.
Duración
Audio 1 segundo
Bytes en un
segundo.

3.3. MULTIPLEXACIÓN EN EL TIEMPO.
Son numerosos los sistemas en los que se necesita enviar más de una información
simultáneamente por un único canal de comunicación. Por ejemplo en un Compact Disc, se
tiene que grabar dos señales de audio, la del canal izquierdo y el derecho, en una única pista de
datos; En un DVD con sonido envolvente ocurre lo mismo que en el CD, pero, con 5 canales;
Para la sonorización de un espectáculo, se necesitan conectar todos los micrófonos del escenario
con el control de sonido por una sola línea. Para conseguirlo se recurre a una sencilla técnica
conocida como multiplexación.
La multiplexación por división de tiempo, es el tipo de multiplexación más utilizado en la

actualidad, especialmente en los sistemas de transmisión digitales. En ella, el ancho de banda
total del medio de transmisión es asignado a cada canal durante una fracción del tiempo total
(intervalo de tiempo).
En la figura siguiente se representa,

esquematizada de forma muy simple, un
conjunto multiplexor-demultiplexor para
ilustrar como se realiza la multiplexación-
desmultiplexación por división de tiempo.
En este circuito, las entradas de seis canales

llegan a los denominados interruptores de
canal, los cuales se cierran de forma
secuencial, controlados por una señal de reloj,
de manera que cada canal es conectado al
medio de transmisión durante un tiempo
determinado por la duración de los impulsos de
reloj. La señal o información completa se
divide en bloques o paquetes, en el caso del sonido las muestras de los canales se envían por
separado de forma secuencial.
En el extremo distante, el demultiplexor realiza la función inversa, esto es, conecta el medio
de transmisión, secuencialmente, con la salida de cada uno de los seis canales mediante
interruptores controlados por el reloj del demultiplexor. Este reloj del extremo receptor
funciona de forma sincronizada con el del multiplexor del extremo emisor mediante señales de
temporización que son transmitidas a través del propio medio de transmisión o por una línea
distinta. Cada bloque de datos se envía uno después de otro, cuando de manda el último canal
se vuelve a empezar por el primero. El receptor coloca cada bloque en su canal correspondiente.
Esto ocurre tan rápido, que da la impresión de que todos los canales se transmiten
simultáneamente.
La fotografía
corresponde a un
multiplexor de audio de 8
canales, utilizado en una
emisora de radio. En la
mayoría de los equipos es
un circuito interno.

3.4. TRANSMISIÓN SINCRONA DIGITAL. SEÑAL DE RELOJ.
Se trata de una conexión punto a punto capaz de transmitir señales de audio analógicas
por una línea digital. Se necesita una cierta estandarización en la transmisión en serie de modo
que sea posible conectar entre sí varios dispositivos. Estos estándares los estudiaremos en
Instalaciones.
Las señales analógicas son convertidas en muestras expresadas en números binarios. Una
muestra típica tendría una longitud de palabra de 16 bit, entonces saldrá del conversor A/D en
paralelo por 16 hilos. La muestra se introduce en paralelo en un registro de desplazamiento para
generar una transmisión en serie, los bits se transmiten uno detrás de otro por la misma línea.
Saldrá una muestra completa cuando se envíen 16 bits.
Los datos se envían en serie al otro extremo de la línea en donde se elimina el ruido captado
en la señal. Los datos recibidos son desplazados entonces al registro de desplazamiento receptor
con una señal de reloj. Una vez cada 16 bits, el registro de desplazamiento contiene una muestra
completa, que es leída y enviada al conversor digital/analógico, que a su vez convierte la
muestra de nuevo en un valor de tensión analógico.
La señal de reloj o sincronismos es una serie de pulsos

cuadrados generados por el emisor, que marca el ritmo con
el que se van enviando los bits. Así el receptor los puede
ir leyendo a la misma frecuencia y en los puntos exactos
en los que se emitieron. En audio digital es imprescindible
esta sincronización, porque si el receptor va leyendo los
bits que le llegan, a distinta velocidad y en diferentes
puntos a como fueron enviados por el emisor, los valores
obtenidos no se corresponderían para nada con los reales.
Cada pulso de reloj que recibe el receptor para los tiempos
en los que debe leer un bit. A la señal de reloj se le puede
conocer como Clock, Sync, Word clock…. La señal de reloj necesita un cable independiente a
los datos para transmitirse desde emisor (master) hasta el receptor (slave). Todos los sistemas
de transmisión y grabación de audio digital, necesitan sincronización.

En algunas transmisiones o grabaciones resulta un inconveniente importante, tener que
grabar o enviar una señal adicional de reloj. Imagina que en un CD hubiese que grabar una pista
solo para una señal cuadrada de reloj, se reduciría a la mitad la capacidad del disco. Otra técnica
para sincronizar las frecuencias de muestreo de los dos equipos, consiste en dividir los bits de
audio en paquetes e insertar al principio unos códigos de sincronismo y al final otros bits de
final de bloque. Con estos códigos de sincronismo, el emisor puede regenerar una señal se reloj
propia, perfectamente sincronizada con los bit de audio que envió el emisor.
La mayoría de los interfaces de transmisión de audio y formatos de grabación utilizan la

sincronización por código: el AES/EBU, MADI, CD, DAT…
El MIDI es un interfaz asíncrono que no utiliza ninguna señal de reloj, es una comunicación
asíncrona.
Blog : el Word clock

3.5. PROTOCOLOS DE COMUNICACIÓN PARA AUDIO.
Cuando se transmite o se graba cualquier información digital, no se puede hacer
directamente mandando la señal de audio, como en analógico. Se necesitan enviar mucha más
información y mantener una estricta estructura y organización. Es lo que se conoce como
protocolo de comunicación y es como el idioma en el que deben comunicarse los equipos. Es
importante que esté estandariza internacionalmente, para que sea compatible con cualquier
equipo.
Cada interfaz de audio digital utiliza su propio protocolo, pero todos tiene una estructura
básica muy similar. Veamos ahora como se organizan los bits de audio y los datos en una
transmisión digital.
Los datos están agrupados en cuadros (frames), cada uno de los cuales se subdivide en dos
subframes uno para la muestra del canal izquierdo y otro para el derecho. Como ejemplo, vamos
a analizar a continuación, los elementos que conforman la trama digital del AES/EBU, desde
el primer elemento del cuadro hasta el último.
o Sincronismo (4 bit). Los subcuadros comienzan siempre con cuatro bit de

sincronismo, con ellos el receptor puede recuperar la señal de reloj con la que se
envió, por eso se puede transmitir a cualquier frecuencia de muestreo. Además
según el código, también marcan el canal al que pertenece el subcuadro.
o Datos auxiliares (4). Entre otras funciones se pueden usar para aumentar los bit
de resolución a 24
o Datos de audio (20). Transporta la muestra de audio digital de 20 bit, si la
muestra es 16 bits el resto queda a cero.
o Bit de validez (V). Este bit es un “0” si la muestra de audio es adecuada para su
conversión y un “1” si es errónea.
o Bit de datos de usuario (U). Para transmitir información adicional referida al
sonido que transmite.
o Información de canal (C): Lleva datos relativos al cana el audio por el que se
transmite. nº de canales, si está permitida la copia, si son datos comprimidos,
profesional o consumo, fm,
o Bit de paridad (P). Para detectar y corregir errores y poder anular o sustituir la
muestra.
La información de usuario y de canal se forma uniendo sus correspondientes bits cada 192
cuadros.

4. COMPRESIÓN DEL FLUJO Y ARCHIVOS DE AUDIO.
4.1. COMPRESIÓN DEL FLUJO BINARIO.
La cantidad de bits que genera un archivo de audio digital puede ser demasiado grande
para algunas aplicaciones, sobre todo informáticas. Ya hemos visto que la cantidad de
información es proporcional a la calidad de la conversión (fz de muestreo y bits). Cuanto mayor
sea la frecuencia de muestreo y los bits de resolución mejor será la calidad de audio, pero,
mayor también la cantidad de bits a almacenar o a trasmitir. Como vimos en el ejemplo anterior,
un solo segundo de audio en calidad CD ocupa nada menos que 176.400 Bytes con lo que una
canción típica de 4 minutos puede ocupar 40MB y tardar más de media hora en descargar de
internet. Es una cantidad de bits demasiado alta, por lo se necesitan compresores capaces de
reducir esta información, para que el archivo musical ocupe menos memoria. No confundir con
los compresores de dinámica que modifican los niveles de la señal.
La mayoría de los interfaces de audio transmiten sin necesidad de compresión, no ocurre

como en video donde es imprescindible. El flujo binario en audio es relativamente bajo y es
soportado por casi todas las líneas de transmisión sin problemas, e incluso por la redes actuales
de internet se puede descargar un archivo rápidamente. Por eso no siempre es necesaria la
reducción de bits y algunos formatos de archivos usan compresión y otros no.
La tasa de compresión es la velocidad de transferencia (bit rate de salida) a la que se ha

reducido un archivo de sonido digital después de la compresión. Por ejemplo de una tasa o flujo
binario original de 1400 Kbps se puede reducir a una tasa de compresión de 128Kbps. En los
software de codificación se puede elegir el flujo final y con ello el nivel de calidad. El bit rate
del audio comprimido puede tener un valor fijo y constante o ser variable en función del
contenido de audio, es la tasa de bit variable (Variable bit rate) o VBR, con esta opción se
comprimirán más las partes más sencillas de una canción y menos los pasajes más complejos
en los que se requiere más calidad de sonido. Así con el VBR, la tasa de compresión variará
en función del tipo de sonido y la compresión es más eficiente.
Esta captura de pantalla es
de un programa que comprime
audio en MP3, se puede
seleccionar el nivel de
compresión y con ello el nivel
de calidad. En este caso está a
128Kbps constantes como
flujo de salida después de
comprimir. También se
pueden filtrar frecuencias casi
imperceptibles y seleccionar la
tasa de bit variable VBR.
Con los algoritmos de compresión como el MP3 podemos variar la calidad de la compresión
y el nivel de reducción de datos. Pero, tenemos un compromiso entre la calidad sonora y la
cantidad de información. Cuanta mayor compresión apliquemos, tendremos una menor
cantidad de bits que almacenar, pero, una peor calidad sonora. El grado de compresión del MP3
se determina con el flujo binario resultante, se puede seleccionar entre 64Kbps (muy baja
calidad) y 320Kbps (máxima calidad). El bitrate más extendido actualmente es de 128Kbps
que equivale a una reducción de datos de 11:1, es decir, el archivo comprimido ocupará 11
veces menos que el original. Por eso en un CD pueden caber hasta 11 discos comprimidos en
MP3. A más de 192Kbps, no se aprecian importantes pérdidas de calidad en comparación con
el CD.

 Funcionamiento de los compresores.
Para reducir el flujo binario digital se emplean varias técnicas simultáneamente,
básicamente es eliminar detalles de la música que no son perceptibles por el oído. Si no de oye
no se graba.
o Elimina la redundancia estéreo. La mayoría de los sonidos se graban con el mismo nivel
en los dos canales del estéreo por lo tanto están duplicados, no es necesario guardar un
mismo sonido dos veces, se puede reducir casi la mitad de los bits comprimiendo una vez
solo los sonidos que son iguales y luego las diferencia entre el canal izquierdo y el derecho.
o Filtrar las frecuencias por encima de los 16KHz, es una opción del compresor pero se
aplica mucho, aunque parezca drástico, es aceptable para muchos equipos domésticos y no
es apreciable por los oyentes.
o Reducción del tamaño de los códigos que aparecen a menudo, son como una tablas que
cambien un código largo por otro más corto y luego en la descompresión se restaura al
número original, es una codificación sin perdidas como las usadas en compresores de datos
(.zip .rar)
o Subgraves en mono, el oído humano no puede reconocer la dirección de procedencia de
los sonidos de muy baja frecuencia, entonces no tiene sentido que sean estéreo y se graben
en dos canales.
o El proceso más importante es el enmascaramiento, recordamos que con el
enmascaramiento el oído deja de escuchar un sonido cuando simultáneamente hay otro con
más nivel y con frecuencia muy próximas. Por ejemplo si en una canción suena un tono de
8Khz y otro más débil de 8,2KHz se podría quitar uno de los dos sin que se note el
resultado. El compresor elimina o reduce los bits de las frecuencias que son enmascaradas
por otras.
Los sonidos enmascarados se codifican con menor resolución, pero no se aprecia la

pérdida de calidad porque ese tono no es audible. En el programa compresor se puede
ajustar cuanto se reduce la resolución y por lo tanto la calidad y el tamaño del archivo
final.
Los defectos de la compresión son apreciables cuando el bit rate es bajo, menor de
128Kbps, sobre todo cuando las música tiene mucha dinámica y tiene muchos sonidos que
suben y bajan rápidamente, por ejemplo se aprecia en los aplauso de un público.
Web: cómo funciona la compresión MP3.

4.2. FORMATOS SIN COMPRESIÓN.
El formato de un fichero de sonido se refiere a la estructura que mantienen los bits y datos
almacenados en su interior. Para almacenar estos datos se necesita una codificación en la
grabación y la misma descodificación en la lectura. Los formatos estandarizados permiten que
el reproductor use el mismo protocolo o “idioma” que se usó en la grabación para poder
descodificarlo correctamente.
Algunos formatos de archivo de audio almacenan todos los bits generados por el
conversor A/D sin ningún tipo de compresión ni de pérdida de datos ni de calidad, solo añaden
a las muestras, unos cuantos de bits de información al principio del archivo. Son los llamados
formatos PCM o formatos sin compresión, tienen mayor calidad, son los más sencillos, pero,
con un flujo binario alto. Tienen el inconveniente de que producen archivos de enorme tamaño,
por eso son adecuados para archivar sonidos originales en grabaciones profesionales, pero no
para almacenar para el usuario o para distribuir por internet. Los bits de información de la
cabecera del archivo, son prácticamente la única diferencia entre los diferentes formatos de
archivos de audio:
o WAVE. Waveform Audio Format, Su extension es (*.wav). desarrollado y propiedad de

Microsoft y de IBM que se utiliza para almacenar sonidos en el PC con Windows, admite
archivos mono y estéreo a diversas resoluciones y velocidades de muestreo. Por cada
minuto de grabación estéreo se consumen unos 10 megabytes de espacio en disco. Solo se
pueden grabar archivos de 4 gigabytes como máximo, lo cual equivale aproximadamente
a 6,6 horas en calidad de CD de audio.
Un archivo WAV es de tipo autodescriptivo, esto es que incluye una cabecera al
principio con información técnica sobre el mismo, como el tamaño, si es PCM, frecuencia de
muestreo y bits de cuantificación, estéreo o mono…
Como no tiene pérdida de calidad es muy usado en profesional, usa la codificación PCM y
lo podemos encontrar con este nombre. El principal inconveniente es que el tamaño de los
archivos es muy grande y la transferencia es más lenta, por eso no se usa en internet.
o AIFF. Audio Interchange File Format. (*.aif) Extensión el .AIFF. Fue desarrollado por
Apple Inc. en 1988 es muy utilizado en las computadoras Apple Macintosh. Podríamos
decir que similar al WAV, pero propiedad de Apple. También graba audio sin comprimir
con frecuencias de muestreo y bits variable, basado en la codificación PCM. Tiene una
variante comprimida el AIFF-C con una relación de compresión de 6 a 1.
o AU. Extensión *.au ò *.snd. Desarrollado por SunMicrosystem popular en equipos

electrónicos o hardware que reproducen sonido. También en aplicaciones JAVA y UNIX.
o CDA. (*.cda). Es el formato en el que se almacena el audio dentro de los discos

compactos y casi exclusivamente se utilizan en los discos. Aún así, se pueden extraer las
pistas a un ordenador en formato de archivo .cda. Es una ampliación del formato PCM
normal, pero, adaptado a los discos ópticos. Básicamente, añade a las muestras L y R unos
bits de sincronismo para extraer la señal de reloj, otros bits para la corrección de errores, y
cambia los códigos digitales por otros mejores para el disco. No es editable y habrá que
pasarlo a wave para trabajar con él.
o Formatos específicos para sampler y equipos. Son archivos creados por fabricantes de
equipos para sus propios productos. Por ejemplo para loops o teclados samplers, alguno de
ellos Akai, Emu, Apple loops.
o Otros: BWF. Especial para cine y televisión, VOX para voces habladas…

4.3. FORMATOS DE COMPRESIÓN SIN PÉRDIDAS. LOSSLESS.
El archivo de audio es exactamente igual antes y después de comprimirlo en los formatos
de compresión sin pérdida. Son los formatos de audio con mucha más calidad que los formatos
con pérdidas, pero, lógicamente, con menor grado de reducción de información. También
necesitan un tiempo para comprimir o descomprimir las muestras.
Básicamente, consiste en cambiar cadenas de bits largas, por otras más cortas, y luego
en la descompresión deshacer el cambio. El nivel de compresión depende de la complejidad del
sonido y estilo de la canción, así partes con silencio o sencillas, se podrán comprimir mucho,
mientras que partes con muchas variaciones muy rápidas se comprimirán menos o nada. Las
partes en silencio se pueden reducir casi completamente. Cuando el nivel de compresión es
variable y por lo tanto también varía la tasa de bits, esto se conoce como compresión VBR (Tasa
de bit variable). No se puede ajustar la relación de compresión, el codificador decide la más
adecuada. La compresión sin perdidas es la que se usa en informática para comprimir archivos
de datos, por ejemplo, los famosos .ZIP ó .RAR. En sonido, cada vez se está extendiendo más
los formatos sin perdidas:
o FLAC.(*.flac) Free Lossless Audio Codec (Códec libre de compresión de audio sin
pérdida) es un formato del proyecto Ogg para codificar audio sin pérdida de calidad. FLAC
no reduce significativamente el tamaño de archivo, a lo sumo deja el archivo en la mitad
del tamaño original, ya que no elimina nada de la información contenida en el original.
Como norma se reduce entre el 40 y 50% según el tipo de sonido procesado. Es un formato
abierto y libre que puede utilizar cualquier reproductor o programa.
o WMA LossLess. Es la variante del conocido formato de Microsoft WMA, pero sin
perdidas. Poco extendida.
o Apple Lossless Audio Codec ( ALAC). Formato sin pérdidas de la compañía Apple.
o AIFF-C (*.aifc)
o Monkey’s Audio.(*.ape) Usado por programas en Windows y no recomendable para
reproductores portátiles.
4.4. FORMATOS DE COMPRESIÓN CON PÉRDIDAS.

Estos formatos almacenan audio utilizando mucha menos
cantidad de información que los formatos sin perdidas. En la
compresión se elimina cierta información de audio y se hace
imposible una reconstrucción exacta de los datos originales al
descomprimir. Al codificar audio descartan la información poco
relevante para el oído humano, una gran parte de la información del
audio original se pierde sin que esto signifique una disminución
notable en la calidad desde el punto de vista de un oyente. Avanzados
modelos psicoacústicos determinan la información que será
descartada, aquella que difícilmente somos capaces de oír. Se basan
en las características del oído humano, para eliminar gran cantidad de
bits sin que se llegue apreciar.
Los últimos avances permiten que las compresiones se haga cada
vez con menos pérdidas y aumentando cada vez más la reducción de la cantidad de datos. Aún
así siempre habrá perdidas de calidad aunque ya sean casi imperceptibles.
Mientras que un audio de 4 minutos en formato WAV ocupa aproximadamente 40 Megas,

ese mismo audio, comprimido a MP3, puede reducir su peso a 4 megas, 10 veces menos. Y
aparentemente, suenan igual. En trabajos profesionales de producción o para discos compactos
se graba siempre en Wav sin comprimir, si la mezcla final va ha ser colgada en una web o
reproducida en un equipo domestico se podrá comprimir en MP3.

 Formatos con compresión.
o MP3. Fue desarrollado por el Moving Picture Experts Group (MPEG) para formar parte
del estándar de compresión de video MPEG I. MP3 realmente es la parte del compresor
MPEG-1 dedicada al audio, su nombre exacto es MPEG I layer 3. El formato MP3 se ha
convertido en el estándar muy utilizado para streaming de audio por internet y compresión
de audio con pérdidas de buena fidelidad. La calidad depende de la cantidad de compresión,
de 128Kbps no es recomendable. Es el más usado en la actualizad, hace poco expiró la
patente de Mpeg y ya es un formato abierto, por eso lo quieren sustituir por el nuevo AAC.
o WMA. (windows media audio) este formato fue creado por Microsoft y está diseñado
con habilidades de gestión de derechos digitales para protegerlo de copia. Fuera de
ordenadores con Windows se usa poco y muchos reproductores no los reconoce.
o Ogg Vorbis. Es similar a MP3 pero de código abierto y libre de patentes, es decir que
cualquier fabricante de programas o equipos lo puede utilizar sin tener que pagar al
propietario de la marca como ocurre en el caso de la Mp3 a la MPEG o del WMA a
Microsoft, por eso se está empezando a utilizar en muchos programas, por ejemplo, en el
Streaming de Spotify . Es similar en características al MP3
o AAC Advanced Audio Coding (*.aac). El nivel de compresión es más alto que en MP3
con menores perdidas de calidad, el Codec es más avanzado y eficiente, se usa en
reproductores como el iPod, también pertenece a la familia MPEG es el sustituto oficial
del MP3. Los archivos M4P es una versión de AAC con gestión de derechos digitales para
evitar la copia no legal, se usa en las descargas de iTunes. Es un formato propietario,
cualquier reproductor o software que quiera utilizarlo tiene que pagar por el uso de la
patente.
o ATRAC (*.aa3) Formato creado pos Sony, es el que se usan en el Minidisc.
o 3GP. Formato contenedor de multimedia definido por Third Generation Partnership

Project (3GPP) para ser usado en teléfonos móviles. Cuando se hace una grabación de
sonido o voz con un teléfono móvil se almacena en formato *.3gp.
o Otros: .mmf, para tonos de llamada de teléfonos móviles, RA y RM, formatos de Real
Audio
Web: Historia del MP3.
Web: Formatos de archivo, Wikipedia.
 Formatos de proyectos.
Los editores de audio multipistas generan proyectos con extensiones de archivos propias de
cada compañía. Estos proyectos contienen archivos de audio, normalmente sin comprimir, pero
no debemos confundirlos con formatos de archivos de audio. Por ejemplo en Audacity crear
proyectos *. Aup, Logic son *.logic; Cubase proyectos *.cpr
Los archivos Midi *.mid no se consideran formatos de audio ya que estos almacenan datos
y ordenes en lugar de muestras de sonido. En la asignatura de Instalaciones hablaremos de estos
archivos.

Unidad Didactica 6. Fundamentos Del Audio Digital.: Tabla de Contenidos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad Didactica 6. Fundamentos Del Audio Digital.: Tabla de Contenidos

Cargado por

Copyright:

Formatos disponibles

UNIDAD DIDACTICA 6.

FUNDAMENTOS DEL AUDIO DIGITAL.

1. FUNDAMENTOS DEL AUDIO DIGITAL......................................................................................... 2

2. PROCESO DE CONVERSIÓN. ............................................................................................................ 8

3. FORMACION DE LA TRAMA DIGITAL. ...................................................................................... 15

4. COMPRESIÓN DEL FLUJO Y ARCHIVOS DE AUDIO.............................................................. 22

Jose Carlos Garcia Lara

U.D. 6. Fundamentos del Audio digital. 1

1.1. CARACTERISTICAS DE LAS SEÑALES.

Una señal analógica puede tomar infinitos

Los sistemas analógicos adolecen de importantes desventajas frente a los digitales.

Un procesador analógico de distorsión para guitarra solo puede

U.D. 6. Fundamentos del Audio digital. 2

Señal discreta en amplitud y continua en el tiempo. Discreta en tiempo y amplitud.

Las señales discretas no se utilizan directamente en la práctica, ni se graban ni se transmiten,

 Señales digitales binarias.

U.D. 6. Fundamentos del Audio digital. 3

1.2. CARACTERISTICAS DEL MUNDO DIGITAL.

 Restauración de la señal digital.

Esta sencilla técnica de restaurar las señales digitales, ha revolucionado la tecnología

U.D. 6. Fundamentos del Audio digital. 4

Procesado digital de la señal.

Web: Ventajas de la digitalización.

U.D. 6. Fundamentos del Audio digital. 5

Decimal Binario En binario se cuenta con la misma técnica,

En audio digital el sistema de numeración empleado es el binario en lugar del decimal.

U.D. 6. Fundamentos del Audio digital. 6

Como mejor se entiende es con un ejemplo, el número binario 1010010 corresponde en

Cada bit representa una potencia de dos según su posición. En modulación de

En algunos equipos digitales los valores

Existen métodos matemáticos para la conversión directa también de binario a decimal,

Web: El sistema binario, WIkipedia.

U.D. 6. Fundamentos del Audio digital. 7

Existe una técnica de codificación, conocida como modulación por codificación de

La codificación PCM, y por lo tanto la conversión, se realiza básicamente en dos pasos:

En la modulación por impulsos la forma de onda se mide periódicamente a la

U.D. 6. Fundamentos del Audio digital. 8

La frecuencia con la que se toman dichas muestras es la frecuencia de muestreo (Fs o F m)

Para determinar la Fm más adecuada a cada señal necesitamos conocer el aliasing y el

U.D. 6. Fundamentos del Audio digital. 9

Si llevásemos los valores de muestra de la figura a un

El aliasing se produce cuando Fm << Fzmax, para calcular el valor exacto de la Fm

o Radio digital. Fmax= 15Khz  Fm > 30KHz. Se muestra a 32KHz.

o Toda la banda de audio. Fmax = 20KHz  Fm > 40KHz.

U.D. 6. Fundamentos del Audio digital. 10

o En grabaciones de audio profesional es usual utilizar frecuencias de muestreo mayor,

Técnicamente, el proceso de muestreo se implementa con un transistor mosfet funcionando

U.D. 6. Fundamentos del Audio digital. 11

En la figura se han empleado, a modo de ejemplo, una escala de 1 a 10,

U.D. 6. Fundamentos del Audio digital. 12

Los bits de cuantificación mas usados son:

Web: audio digital wikipedia.

Parece contradictorio que el ruido de cuantificación se reduzca añadiendo más ruido,

U.D. 6. Fundamentos del Audio digital. 13

2.4. CONVERSION DIGITAL A ANALÓGICA.

Existen multitud de tipos de conversores, con un funcionamiento y características muy

U.D. 6. Fundamentos del Audio digital. 14

La transmisión paralela más conocida es el puerto IEEE 1284 como el utilizado

Físicamente esto se implementa con un registro de

U.D. 6. Fundamentos del Audio digital. 15

3.2. FLUJO BINARIO O TASA DE BIT.

Como la cantidad de bits que de transmiten o graban es muy grande se suelen

o AU. Extensión .au ò .snd. Desarrollado por SunMicrosystem popular en equipos