Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tabla de contenidos.
Esta característica supone la debilidad principal de las señales analógicas. Porque cualquier
valor de magnitud, dentro del rango, se ha se considerar como válido aunque ese valor sea un
error. Si una transmisión o grabación introduce una degradación (distorsión o ruido) al
reproducirla tendremos que aceptarla por que el nuevo valor es valido aunque sea erróneo.
Entenderemos mejor esta idea al estudiar las señales digitales.
Señal discreta en el
tiempo y continua en
amplitud.
Una señal discreta en amplitud significa que esta solo podrá tomar determinados
valores. Ej. una señal en el instante 5 seg podrá tomar un valor de 4V ó 5V pero nunca uno
intermedio. La amplitud no es continua, aunque el tiempo podrá ser continuo o discreto.
Cada estado, ya sea 0 ó 1, se le conoce como digito binario y suele contraerse de forma
universal como “bits” (del ingles BInary digiTS). Una palabra de 8 bits se denomina “byte” que
proviene de “by eight”.
Lo que realmente hace a las señales digitales tan interesantes, es su sencillez. Si existen
únicamente dos estados, la probabilidad de error es muy pequeña.
Las señales digitales binarias son las que se grabarán en un CD, por ejemplo, o las que
se transmitirá por una red Wifi.
El sonido, por naturaleza, tiene un carácter analógico y para aprovechar las ventajas del
mundo digital, es necesario realizar una conversión entre analógico y digital.
Esto es posible porque una señal de audio digital se puede restaurar de una forma muy
sencilla. Se marca un nivel de umbral intermedio a los dos valores y se compara continuamente
con la señal digital. Si esta señal tiene un valor superior al valor intermedio se aceptará como
“1” y si es inferior será un “0”. Así todo el ruido que tenga la señal será discriminado siempre
que no supere dicho umbral. Este proceso se conoce como troceado (slicing).
Los errores de sincronización o de tiempo conocidos como Jitter también pueden ser
eliminados. Si el error o ruido fuese demasiado elevado, existen además, unos algoritmos
matemáticos de corrección de errores.
Por muy grande que sea el número de etapas por la que pase la señal binaria, la salida
sigue siendo la misma. Un video en formato digital puede procesarse o copiarse
indefinidamente sin que haya pérdidas en la calidad.
La calidad de audio o del video no dependen de la calidad del medio de grabación, todos
los CD, ordenadores o DVD tienen la misma calidad siempre que funcionen
correctamente y estén bien grabados. En analógico sí había cintas mejores que otras.
Se puede eliminar el ruido propio de los soportes de grabación, así una cinta analógica
añadía ruido que después no se podía reducir y los sistemas digitales prácticamente no
añaden ruido ni distorsiones, tanto para audio como para video. La señal de TV digital
que recibimos en casa es exactamente la misma que la que salió de la emisora a miles
de kilómetros.
Es posible hacer infinitas copias de un archivo o señal original sin que su calidad se vea
mermada. En analógico, cuando se copiaba de una cinta a otra siempre había pérdidas
de calidad, así a partir de la 3ª o 4ª generación de copias, el video o música eran tan
pobres que no se podían seguir copiando. Un archivo de video digital se puede copiar
de un ordenador a otro miles de veces y transmitirse a través del todo el mundo por la
red, manteniendo siempre el archivo original, esto es lo que ha motivado la tan polémica
piratería de obras musicales o cinematográficas.
Una vez que se ha realizado la conversión del audio a digital, este se procesa completamente
como datos numéricos. Cualquier tratamiento digital consiste en una serie de operaciones
matemáticas realizadas mediante programas informáticos. El procesado digital no se realiza con
componentes electrónicos, estos solo son los necesarios para ejecutar dichos cálculos
informáticos. Esto es importante por que permite que con un único circuito procesador (que
realiza los cálculos) se puede realizar multitud de procesos distintos, basta con cambiar los
cálculos y operaciones que realiza. Un mismo equipo electrónico puede hacer multitud de
procesos distintos, por eso un ordenador sirve para multitud de tareas y existen los multiefectos
digitales de sonido que lo mismo pueden ecualizar que añadir reverberación.
El sistema decimal, al que estamos acostumbrados, utiliza diez símbolos o dígitos (el
nombre proviene de los diez dedos de la mano), y para contar por encima de 9 se usan
combinaciones de estos dígitos. Para ello se incrementa el valor o se añade un digito a la
izquierda y se repiten todas las combinaciones anteriores.
La cantidad de valores distintos que se puede combinar con códigos de n bit, es 2n donde
n es el número de bit del código. Lo importante es entender que cuantos más bits tenga una
palabra binaria mayor cantidad de valores distintos podremos conseguir con ellos.
Cantidad de valores = 2n
Por ejemplo, con tres bit se pueden conseguir 23= 8 valores, que son: 000; 001; 010;
011; 100; 101; 110 y 111. Con 8 bit tenemos tendremos 28= 256 valores y con 16 bit 216 =
65536.
Entonces se suma los números 2, 16 y 64 que son las posiciones que las que hay 1. Como
ves, cada posición tiene un valor potencia de 2, esto es 2 posición.
Una vez completada alguna de dichas operaciones obtendremos como resultado los
mismos códigos en grabación o en transmisión y otros distintos en el procesado. Es evidente
que este resultado digital aun no es audible, por lo que tendremos que reconvertir las palabras
digitales en audio analógico. A la salida de un equipo digital tendemos siempre un conversor
digital- analógico (A/D).
Muestreo
El eje temporal queda representado de forma discreta, o paso a paso, y la forma de onda se
obtiene a través de mediciones hechas a intervalos regulares. Es decir, cada cierto tiempo (Tm)
se realiza una medición de la tensión analógica. Estas mediciones se le conocen como muestras
y por tanto al proceso descrito se le denomina muestreo.
Teniendo en cuenta que los valores analógicos que hay entre cada muestra no se consideran
(se pierden), cuantas más muestras se tomen por segundo, mayor similitud habrá entre la señal
discreta y la señal analógica original. La frecuencia de muestreo es un factor determinante en
la calidad de una conversión y de hecho es unos de los parámetros más importantes del audio
digital. A mayor frecuencia de muestreo mejor calidad respecto a la frecuencia, las altas
frecuencias se codificaran mejor, pero a costa de una mayor cantidad de bits por segundo.
Pero si la Fm es mucho más baja que la fz máxima de la señal, las amplitudes de las
muestras no se corresponderán para nada con la forma original, y producirá una importante
distorsión conocida como aliasing.
Teorema de Nyquist.
Este teorema dice que si una señal continúa tiene una frecuencia máxima: Fmax, dicha
señal podrá reconstruirse sin distorsión, a partir de muestras tomadas a una Fm si se cumple:
Fm > 2* Fmax
O dicho de otra forma, la frecuencia de muestreo debe ser mayor del doble de la
frecuencia más alta que tenga la señal analógica. Teniendo esto en cuenta podemos determinar
la frecuencia de muestreo óptima para cada aplicación concreta:
o Telefonía móvil. La voz se filtra hasta 3Kz Fm > 6KHz. En la práctica se usa 8KHz.
Para garantizar que se cumple el teorema de Nyquist la señal de audio se filtra a la mitad
de la frecuencia de muestreo. De este modo se eliminará todas las componentes espectrales que
estén por encima de la mitad de la frecuencia de muestreo. Es el filtro antialiasing.
Los bits de cada muestra salen del cuantificador en paralelo, esto es con un terminal y
un cable para cada uno. Si cada muestra la componen 8 bit, pues habrá 8 terminales de salida.
Ruido de cuantificación.
Como resulta poco probable que la amplitud de las muestras coincida exactamente con
cada valor entero de la cuantificación, existirá normalmente una pequeña diferencia entre la
muestra cuantificada y su amplitud original. Esto es lo que se denomina error de cuantificación.
El valor máximo del error puede ser la mitad de un intervalo de cuantificación. Si la amplitud
de una muestra supera la mitad entre dos valores de cuantificación, se considera el valor
superior y si es más pequeño que la mitad se redondea al valor inferior.
El error de cuantificación se
trata realmente de una forma de
distorsión puesto que cambia la
forma de la señal original. Por la
forma semi aleatoria de las señales
musicales esta distorsión se aprecia
como un ruido de poco nivel.
En la siguiente figura las dos digitalizaciones tienen la misma frecuencia de muestreo pero
distinta resolución de cuantificación. En el primer caso solo hay tres niveles de amplitud por lo
que los valores están muy separados y se comete mucho error de cuantificación. En el segundo
caso las muestras pueden tomar uno de los 7 valores diferentes y la señal digitalizada es más
parecida a la analógica original.
El Dither.
El dither es un proceso de añadir ruido a la señal original para disminuir los errores de
cuantificación, es decir, se le suma un ruido blanco aleatorio a la señal analógica antes de
realizar la conversión.
Para convertir la serie de pulsos resultante, en una señal continua se la hacen pasar por un
filtro reconstructor. El objetivo del filtro reconstructor es enlazar entre sí los puntos de muestra
de tal manera que de esta unión resulte una onda de forma suaves, sin escalones ni transiciones
bruscas. Simplemente es un filtro paso bajo cuya frecuencia de corte es igual a la mitad de la
frecuencia de muestreo.
Para comunicarse con ellos directamente habrá que utilizar una transmisión en paralelo.
Se trata de una conexión sencilla que necesita poca circuiteria complementaria y muy rápida
por que transfiere muchos bits simultáneamente. El inconveniente es que es engorroso e
incomodo de utilizar por el tamaño del cable y del conector, además seria muy complicado de
grabar o de transmitir por radiofrecuencia.
Lo más habitual es transmitir y grabar los bit de un código en serie uno detrás de otro,
utilizando un único canal o terminal de salida. Los bits se transmiten uno detrás de otro por la
misma línea Así funcionan todos los sistemas de grabación y la mayoría de las transmisiones
digitales. La comunicación es más lenta porque tendremos que esperar a que lleguen uno a uno
todos 16 bit para recibir una palabra (muestra) completa.
En la transmisión serie se
mandan los bits por un solo hilo, uno
detrás de otro, así se manda primero el 0
después el 1, el 1 y el 0. Para enviar la
misma muestra se necesitan 4 pasos de
reloj.
Como ejemplo, de interfaces serie podemos dar el puerto serie RS-232, que en los
equipos de audio se utiliza para conectarlos a un ordenador y poder actualizarlos o controlarlos
remotamente. Pueden disponer de un conector sub D-9 o PS-2 circular. Otro interfaz serie muy
conocido es el USB, precisamente su nombre viene de Universal Serial Bus. Los puertos serie
solo necesitan dos terminales (+ y -) para la transmisión de datos, los demás pueden ser para la
alimentación eléctrica o para la señal de reloj de sincronismo.
En audio es muy fácil calcular el flujo binario de audio digital serie. La cantidad
de información que genera un sonido digitalizado dependerá de la frecuencia de muestreo y de
los bits de cuantificación que se seleccionaron en la conversión. Por ejemplo en un .WAV con
calidad CD tendrá: 44100 x 16 bit x 2= 1411200 bits por segundo.
Muestras de
audio en un
Frecuencia de
segundo
muestreo.
Duración
Audio 1 segundo
Bytes en un
segundo.
En el extremo distante, el demultiplexor realiza la función inversa, esto es, conecta el medio
de transmisión, secuencialmente, con la salida de cada uno de los seis canales mediante
interruptores controlados por el reloj del demultiplexor. Este reloj del extremo receptor
funciona de forma sincronizada con el del multiplexor del extremo emisor mediante señales de
temporización que son transmitidas a través del propio medio de transmisión o por una línea
distinta. Cada bloque de datos se envía uno después de otro, cuando de manda el último canal
se vuelve a empezar por el primero. El receptor coloca cada bloque en su canal correspondiente.
Esto ocurre tan rápido, que da la impresión de que todos los canales se transmiten
simultáneamente.
La fotografía
corresponde a un
multiplexor de audio de 8
canales, utilizado en una
emisora de radio. En la
mayoría de los equipos es
un circuito interno.
Las señales analógicas son convertidas en muestras expresadas en números binarios. Una
muestra típica tendría una longitud de palabra de 16 bit, entonces saldrá del conversor A/D en
paralelo por 16 hilos. La muestra se introduce en paralelo en un registro de desplazamiento para
generar una transmisión en serie, los bits se transmiten uno detrás de otro por la misma línea.
Saldrá una muestra completa cuando se envíen 16 bits.
Los datos se envían en serie al otro extremo de la línea en donde se elimina el ruido captado
en la señal. Los datos recibidos son desplazados entonces al registro de desplazamiento receptor
con una señal de reloj. Una vez cada 16 bits, el registro de desplazamiento contiene una muestra
completa, que es leída y enviada al conversor digital/analógico, que a su vez convierte la
muestra de nuevo en un valor de tensión analógico.
El MIDI es un interfaz asíncrono que no utiliza ninguna señal de reloj, es una comunicación
asíncrona.
Cada interfaz de audio digital utiliza su propio protocolo, pero todos tiene una estructura
básica muy similar. Veamos ahora como se organizan los bits de audio y los datos en una
transmisión digital.
Los datos están agrupados en cuadros (frames), cada uno de los cuales se subdivide en dos
subframes uno para la muestra del canal izquierdo y otro para el derecho. Como ejemplo, vamos
a analizar a continuación, los elementos que conforman la trama digital del AES/EBU, desde
el primer elemento del cuadro hasta el último.
La información de usuario y de canal se forma uniendo sus correspondientes bits cada 192
cuadros.
La cantidad de bits que genera un archivo de audio digital puede ser demasiado grande
para algunas aplicaciones, sobre todo informáticas. Ya hemos visto que la cantidad de
información es proporcional a la calidad de la conversión (fz de muestreo y bits). Cuanto mayor
sea la frecuencia de muestreo y los bits de resolución mejor será la calidad de audio, pero,
mayor también la cantidad de bits a almacenar o a trasmitir. Como vimos en el ejemplo anterior,
un solo segundo de audio en calidad CD ocupa nada menos que 176.400 Bytes con lo que una
canción típica de 4 minutos puede ocupar 40MB y tardar más de media hora en descargar de
internet. Es una cantidad de bits demasiado alta, por lo se necesitan compresores capaces de
reducir esta información, para que el archivo musical ocupe menos memoria. No confundir con
los compresores de dinámica que modifican los niveles de la señal.
Con los algoritmos de compresión como el MP3 podemos variar la calidad de la compresión
y el nivel de reducción de datos. Pero, tenemos un compromiso entre la calidad sonora y la
cantidad de información. Cuanta mayor compresión apliquemos, tendremos una menor
cantidad de bits que almacenar, pero, una peor calidad sonora. El grado de compresión del MP3
se determina con el flujo binario resultante, se puede seleccionar entre 64Kbps (muy baja
calidad) y 320Kbps (máxima calidad). El bitrate más extendido actualmente es de 128Kbps
que equivale a una reducción de datos de 11:1, es decir, el archivo comprimido ocupará 11
veces menos que el original. Por eso en un CD pueden caber hasta 11 discos comprimidos en
MP3. A más de 192Kbps, no se aprecian importantes pérdidas de calidad en comparación con
el CD.
o Elimina la redundancia estéreo. La mayoría de los sonidos se graban con el mismo nivel
en los dos canales del estéreo por lo tanto están duplicados, no es necesario guardar un
mismo sonido dos veces, se puede reducir casi la mitad de los bits comprimiendo una vez
solo los sonidos que son iguales y luego las diferencia entre el canal izquierdo y el derecho.
o Filtrar las frecuencias por encima de los 16KHz, es una opción del compresor pero se
aplica mucho, aunque parezca drástico, es aceptable para muchos equipos domésticos y no
es apreciable por los oyentes.
o Reducción del tamaño de los códigos que aparecen a menudo, son como una tablas que
cambien un código largo por otro más corto y luego en la descompresión se restaura al
número original, es una codificación sin perdidas como las usadas en compresores de datos
(.zip .rar)
o Subgraves en mono, el oído humano no puede reconocer la dirección de procedencia de
los sonidos de muy baja frecuencia, entonces no tiene sentido que sean estéreo y se graben
en dos canales.
o El proceso más importante es el enmascaramiento, recordamos que con el
enmascaramiento el oído deja de escuchar un sonido cuando simultáneamente hay otro con
más nivel y con frecuencia muy próximas. Por ejemplo si en una canción suena un tono de
8Khz y otro más débil de 8,2KHz se podría quitar uno de los dos sin que se note el
resultado. El compresor elimina o reduce los bits de las frecuencias que son enmascaradas
por otras.
Algunos formatos de archivo de audio almacenan todos los bits generados por el
conversor A/D sin ningún tipo de compresión ni de pérdida de datos ni de calidad, solo añaden
a las muestras, unos cuantos de bits de información al principio del archivo. Son los llamados
formatos PCM o formatos sin compresión, tienen mayor calidad, son los más sencillos, pero,
con un flujo binario alto. Tienen el inconveniente de que producen archivos de enorme tamaño,
por eso son adecuados para archivar sonidos originales en grabaciones profesionales, pero no
para almacenar para el usuario o para distribuir por internet. Los bits de información de la
cabecera del archivo, son prácticamente la única diferencia entre los diferentes formatos de
archivos de audio:
o AIFF. Audio Interchange File Format. (*.aif) Extensión el .AIFF. Fue desarrollado por
Apple Inc. en 1988 es muy utilizado en las computadoras Apple Macintosh. Podríamos
decir que similar al WAV, pero propiedad de Apple. También graba audio sin comprimir
con frecuencias de muestreo y bits variable, basado en la codificación PCM. Tiene una
variante comprimida el AIFF-C con una relación de compresión de 6 a 1.
o Formatos específicos para sampler y equipos. Son archivos creados por fabricantes de
equipos para sus propios productos. Por ejemplo para loops o teclados samplers, alguno de
ellos Akai, Emu, Apple loops.
o Otros: BWF. Especial para cine y televisión, VOX para voces habladas…
Básicamente, consiste en cambiar cadenas de bits largas, por otras más cortas, y luego
en la descompresión deshacer el cambio. El nivel de compresión depende de la complejidad del
sonido y estilo de la canción, así partes con silencio o sencillas, se podrán comprimir mucho,
mientras que partes con muchas variaciones muy rápidas se comprimirán menos o nada. Las
partes en silencio se pueden reducir casi completamente. Cuando el nivel de compresión es
variable y por lo tanto también varía la tasa de bits, esto se conoce como compresión VBR (Tasa
de bit variable). No se puede ajustar la relación de compresión, el codificador decide la más
adecuada. La compresión sin perdidas es la que se usa en informática para comprimir archivos
de datos, por ejemplo, los famosos .ZIP ó .RAR. En sonido, cada vez se está extendiendo más
los formatos sin perdidas:
o FLAC.(*.flac) Free Lossless Audio Codec (Códec libre de compresión de audio sin
pérdida) es un formato del proyecto Ogg para codificar audio sin pérdida de calidad. FLAC
no reduce significativamente el tamaño de archivo, a lo sumo deja el archivo en la mitad
del tamaño original, ya que no elimina nada de la información contenida en el original.
Como norma se reduce entre el 40 y 50% según el tipo de sonido procesado. Es un formato
abierto y libre que puede utilizar cualquier reproductor o programa.
o WMA LossLess. Es la variante del conocido formato de Microsoft WMA, pero sin
perdidas. Poco extendida.
o Apple Lossless Audio Codec ( ALAC). Formato sin pérdidas de la compañía Apple.
o AIFF-C (*.aifc)
o Monkey’s Audio.(*.ape) Usado por programas en Windows y no recomendable para
reproductores portátiles.
o WMA. (windows media audio) este formato fue creado por Microsoft y está diseñado
con habilidades de gestión de derechos digitales para protegerlo de copia. Fuera de
ordenadores con Windows se usa poco y muchos reproductores no los reconoce.
o Ogg Vorbis. Es similar a MP3 pero de código abierto y libre de patentes, es decir que
cualquier fabricante de programas o equipos lo puede utilizar sin tener que pagar al
propietario de la marca como ocurre en el caso de la Mp3 a la MPEG o del WMA a
Microsoft, por eso se está empezando a utilizar en muchos programas, por ejemplo, en el
Streaming de Spotify . Es similar en características al MP3
o AAC Advanced Audio Coding (*.aac). El nivel de compresión es más alto que en MP3
con menores perdidas de calidad, el Codec es más avanzado y eficiente, se usa en
reproductores como el iPod, también pertenece a la familia MPEG es el sustituto oficial
del MP3. Los archivos M4P es una versión de AAC con gestión de derechos digitales para
evitar la copia no legal, se usa en las descargas de iTunes. Es un formato propietario,
cualquier reproductor o software que quiera utilizarlo tiene que pagar por el uso de la
patente.
o Otros: .mmf, para tonos de llamada de teléfonos móviles, RA y RM, formatos de Real
Audio
Formatos de proyectos.
Los editores de audio multipistas generan proyectos con extensiones de archivos propias de
cada compañía. Estos proyectos contienen archivos de audio, normalmente sin comprimir, pero
no debemos confundirlos con formatos de archivos de audio. Por ejemplo en Audacity crear
proyectos *. Aup, Logic son *.logic; Cubase proyectos *.cpr
Los archivos Midi *.mid no se consideran formatos de audio ya que estos almacenan datos
y ordenes en lugar de muestras de sonido. En la asignatura de Instalaciones hablaremos de estos
archivos.