Está en la página 1de 39

Audio digital

Introducción

Los primeros experimentos en audio digital datan de finales de los cincuenta, cuando Max
Mathews obtuvo en los laboratorios Bell los primeros sonidos generados por ordenador. En esta
época, la escasa potencia de las computadoras no permitía una velocidad suficiente para
digitalizar el sonido.

Los experimentos consistieron en obtener sonidos sintéticos, generando los números en el


ordenador.

Tras muchos experimentos que ayudaron a comprender mejor la naturaleza del sonido digital, el
primer grabador comercial, el Sony PCM-1, vio la luz en 1977.

El conversor era de 13 bits y utilizaba como soporte cintas de vídeo Beta (al año siguiente, el
modelo PCM-1600, ya utilizaba conversión de 16 bits).

En 1982 apareció el disco compacto, desarrollado conjuntamente por Sony y Philips, con un éxito
fulminante.

A principios de los ochenta aparecieron también los primeros sintetizadores digitales y los
primeros samplers “Síntesis y generación digital de sonido”.

Los primeros sistemas domésticos de grabación digital no llegaron hasta finales de los ochenta,
inicialmente con la cinta DAT (Digital Audio Tape), y posteriormente con el DCC (Digital Compact
Cassette), el MiniDisc, la grabación a disco duro, los CD-R (grabadores de discos compactos) y
varios formatos de multipistas digitales (Alesis, Tascam, etc.). Las tarjetas de sonido para
computadoras dotadas de conversores Análogo /Digital y Digital/Análogo, aparecidas en los
últimos años, han supuesto la definitiva democratización del sonido digital.

1
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
¿Qué es el audio digital?

Podríamos definir audio digital como la representación de una señal de audio mediante números,
en general codificados en forma binaria (es decir con ceros y unos, el lenguaje interno de los
ordenadores). Entendemos como señal de audio cualquier objeto sonoro audible, el viento, el
agua, nuestra voz, nuestra música preferida y evidentemente esos molestos "ruidos" nocturnos
de los vecinos que no nos dejan dormir. Cualquier sonido puede representarse en
números, al igual que cualquier imagen o gráfico.
En términos menos genéricos, también podemos llamar audio digital a la tecnología que permite
grabar, editar, mezclar y mazterizar una señal de audio completamente en el dominio digital.
Para ello existe un amplio surtido de aparatos y equipos que procesan la señal de audio en el
dominio digital, dominio que ofrece muchas más ventajas ya que es totalmente "tratable" por un
ordenador, es decir, permite un grado de manipulación sin precedentes.

Para la gran industria de la música, el audio digital nació de una necesidad muy concreta ;

Ahorrar tiempo de producción

Antes del audio digital, el método de grabación era lo que hoy en día se conoce como grabación
analógica, los impulsos del sonido se registraban en una bobina o cinta. La edición de esa
bobina era un proceso muy largo y tedioso, en el que la precisión y paciencia eran algo
obligado. Por otro lado, obtener un buen equipo analógico era algo realmente caro.

2
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
http://youtu.be/LkEfo4IVpjk (ENLACE DE VIDEO)

La cinta magnética es un tipo de medio o soporte de almacenamiento de datos que se graba


en pistas sobre una banda plástica con un material magnetizado, generalmente oxido de hierro o
algún cromato.

El tipo de información que se puede almacenar en las cintas magnéticas es variado, como video,
audio y datos.
Hay diferentes tipos de cintas, tanto en sus medidas físicas, como en su constitución química, así
como diferentes formatos de grabación, especializados en el tipo de información que se quiere
grabar.
Su uso también se ha extendido para el almacenamiento analógico de música (como el casete
de audio) y para vídeo, como las cintas de VHS.
La cita magnética dependiendo del equipo que la reproduce/graba recibe distintos nombres:
Se llama cinta de bobina abierta si es de magnetófono.
Casete cuando es de formato compacto utilizada en pletina o reproductores de cinta portátiles.
Cartucho cuando es utilizada por las cartucheras.

A partir de 1948 Les Paul,un Amigo de Crosby e invitado regular en sus shows trabajaba con
grabaciones sobrepuestas en disco. Adaptó la primera grabadora Ampex 200 adicionando
cabezas de reproducción para cubrir la necesidad de unir las grabaciones independientes de
instrumentos y solistas en una cinta magnética creando la primera Grabadora Multipistas Ampex,
3M, Scully Recording y otros fabricantes se ajustaron a las necesidades de los músicos e
ingenieros de grabación para crear máquinas de 1 a 4 pistas (tracks) hasta llegar a la versión de
24 pistas que se lanzó al mercado a principios de los 90 los frutos de la era de la grabación
análoga a través de estas máquinas de cinta trajo éxitos para The Beatles con Sgt. Pepper's
Lonely Hearts Club Band, entre otros artistas.
El ancho de cinta utilizado por cada mezcladora dependía del fabricante y del número de pistas
del equipo que abarcaba desde ¼” hasta 2”. Más adelante surgió la necesidad de modificar los
efectos de sonido como reverberación, coros y ecos o agregar más pistas al momento de editar,
surgió la necesidad de emplear máquinas con código de tiempo de acuerdo estándares de
fabricación y producción.
Hablando de creatividad de mezclas y producción de audio, los procesos que podían aplicarse
eran muy limitados comparados con los de hoy en día. Por poner
un ejemplo, si se requería una reverberación concreta el músico debía registrar su interpretación
en la sala que producía esa reverberación.

La introducción del audio digital ha revolucionado, sin duda alguna, toda la industria de la
música, las empresas que construyen instrumentos, los creadores o músicos, los procedimientos
de edición y mezcla, y desde luego el soporte; es decir lo que nosotros oímos en casa: un CD de
audio o los tan famosos MP3.

La tecnología del audio digital ha dado lugar a toda una nueva legión de instrumentos musicales
que prometen un grado de libertad de creación de sonidos sin precedentes (solo superada por
al síntesis virtual). Estos nuevos instrumentos han propiciado la existencia de nuevos estilos
musicales que dependen en gran parte de esa tecnología. Un ejemplo muy corriente puede ser
lo que se conoce popularmente como música "dance" que no sólo se produce con instrumentos
digitales sino que parte de la composición es un puzzle de otras grabaciones digitales realizadas
3
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
por terceros y mezcladas hasta formar una nueva composición.

El músico tradicional ha tenido que adaptarse a esos cambios.

Cuando nacieron los primeros instrumentos digitales los músicos eran reacios a utilizarlos (el
sintetizador el instrumento musical con más rechazo de toda la historia).
Muchos pensaban que eran máquinas malditas que pretendían sustituir o imitar instrumentos
tradicionales. No les faltaba parte de razón. El audio digital son fotografías digitales de sonido,
por lo que no hacia falta tratar de imitar un piano, ya que tenemos la foto del sonido de un piano.

La primera consecuencia fue la drástica reducción de costes de grabación.

Para grabar un piano hacen falta micrófonos. Los micrófonos deben situarse correctamente
según el ambiente y color que pretendemos dar a ese piano.
Eso representa horas de pruebas y corrección de pequeñas imperfecciones producidas por el
solapamiento de las señales de los micros.

Si utilizamos un instrumento digital con un buen sonido de piano, sólo requerimos dos cables,
izquierdo y derecho y siempre sonará igual de bien sea cual sea el entorno acústico.
Aunque los primeros instrumentos digitales eran muy caros, hoy en cualquier ordenador incluye
un instrumento digital, la tarjeta de sonido, que es muy limitada en comparación con los grandes
sintetizadores de la industria , pero extremadamente más avanzada que los primeros
instrumentos digitales.

4
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
En el entorno del estudio de grabación, el audio digital también ha supuesto un importante
avance. Ya no hace falta guardar celosamente las bobinas master (para que el paso del tiempo
no las merme) el audio digital es indestructible, sólo puede destruirse deteriorando el medio en el
que se almacena; un CD, un disco duro, etc.... También han desaparecido los tediosos procesos
de cortar y pegar (hechos literalmente con tijeras y cola).

Ahora existe la edición no lineal que como veremos más adelante puede ser destructiva o no. La
ambientación de la mezcla ha pasado a ser una realidad palpable.

Donde antes existían habitaciones enormes


con paredes móviles para recrear reverberaciones.....

5
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Ahora existen pequeños equipos de no más de 5kg que incluyen ambientes de salas y halls
famosos; podríamos cantar con el ambiente de en la opera de Sydney, aunque eso sólo existirá
en nuestro cerebro, ya que en realidad estaríamos solos delante de un ordenador.
Existen otros detalles menores, como el hecho de que por primera vez el músico puede grabar
parte de su música en casa y luego seguir en un estudio, transfiriendo digitalmente las pistas.
Esto ofrece una libertad de mezclas y producción de audio increíbles: un usuario sin recursos
puede acudir a un estudio y seguir editando sin perder la calidad original.

Por último, tenemos el soporte digital, es decir el medio en el que recibimos el producto musical
acabado.

Donde ante teníamos los discos de vinilo o las cintas de cassette, ahora tenemos el CD /DVD y el
minidisc.

Desde el punto de vista de fiabilidad, estos soportes no fallan (¿cuantas veces se nos ha
enganchado una cinta en el cabezal?) y físicamente son más duros y compactos, para que
dejen de funcionar hay que destruir el medio, no basta con una rayada.

Soporte digital y analógico

Veamos con las diferencias más importantes entre el soporte analógico y el digital:

Soporte Analógico

Degradable:

Cuantas más veces se usa, mayor degradación se obtiene. Los datos se almacenan físicamente
sobre un sustrato que es mucho más alterable con el paso del tiempo.

Lineal:

El audio se graba secuencialmente en el tiempo y con el mismo orden de ejecución, de principio


a fin.

Calidad de audio:

La calidad de un sistema de grabación analógico resulta inferior a la mínima calidad de audio


ofrecida por un sistema digital.

En la práctica, un sistema analógico rara vez supera los 70dB de relación señal ruido (SNR).

Un grabador profesional analógico puede alcanzar arriba de los 85 dB SNR.

Una tarjeta como la fast track posee una relación señal ruido de 96dB a 16bits y 144db a 24bits.

6
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Inicialmente, no es importante saber qué es la relación señal ruido, sino simplemente
tener constancia de las distintas cifras que miden esta importante característica de las tarjetas

Por otro lado, deberíamos evitar una sensación de triunfalismo absoluto del audio digital frente al
analógico. En buen técnico de sonido puede lograr que una canción suene increíblemente bien
en sistemas analógicos, de hecho tenemos toda la industria de la música para demostrarlo.
Aunque el medio analógico sufre muchos problemas de calidad e inestabilidad, los grandes
profesionales de producción saben como solucionar estos problemas.

¿Qué problemas?

Por ejemplo, la diafonía e imperfecciones de la mecánica. Los distintos canales de una


grabadora analógica suelen mezclarse, es decir, parte de la señal de un canal también se
percibe en otro canal. El propio medio analógico provoca que parte de la señal de un canal se
"cuele" en el otro canal. Un método para evitar este problema consiste en utilizar cintas más
anchas, en las que las pistas ocupan más espacio físico. Por otro lado, las imperfecciones de la
mecánica empleada para la reproducción sonora dan lugar a problemas de wow, flutter, tremolo,
etc. Otras notables diferencias son la separación entre los canales izquierdo y derecho, la
relación entre la señal y el ruido de fondo, la linealidad de la respuesta en frecuencias y de fase,
la relación entre el nivel más bajo y el más alto.

Edición destructiva: La edición de las grabaciones de audio en el mundo analógico es totalmente


destructiva, baste un sólo ejemplo para comprobarlo. Algo tan sencillo como copiar un fragmento
del estribillo, significa grabar ese fragmento en otra cinta, reproducir esta mientras la original
inicia la grabación a partir del punto deseado. La edición en el mundo analógico es siempre
destructiva e incluso a veces se destruye parte del propio medio en el que reside la grabación, la
cinta o bobina (en operaciones de copia en las que se requiere cortar físicamente la cinta). Por
otro lado, el tiempo invertido en la edición es extremadamente elevado así como los costes en
términos el precio en términos de pruebas fallidas y errores humanos.

Soporte Digital

No degradable:

Una grabación de audio digital es una cadena gigante de 0 y 1 perfectamente ordenados.


Es imposible que "el paso del tiempo" convierte un 0 a un 1, es decir que pueda alterar esa
cadena. Como mucho, es posible que una mala manipulación del soporte (por ejemplo el CD)
provoque que durante un instante aparezcan artefactos o ruidos que originalmente no estaban.
Lo que nunca ocurrirá es que el audio de ese soporte digital vaya apagándose , perdiendo brillo
con el paso del tiempo.
La durabilidad de los datos es eterna, puesto que pueden ser almacenados en cualquier
dispositivo de almacenamiento, como puede ser un disco duro, una memoria, etc., y
recuperados en cualquier momento Lineal / No-lineal (acceso aleatorio): Si en el mundo
analógico el tiempo es algo fijo e invariable (una canción se registra de principio a fin) en el
mundo digital no tiene porque ser así.

Existe un soporte digital llamado DAT que está basado en cinta analógica aunque en ella se
registran 0 y 1 como un en CD pero con una calidad superior a éste. En este caso, la grabación y

7
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
reproducción es lineal. Si deseo ir al final de la canción, debo pulsar el botón Fast Foward y
esperar a que la cinta llegue a su punto. Considerando el disco duro de nuestro ordenador como
soporte digital (archivos WAV, aiff o MP3) llegamos a la inequívoca conclusión de que es un
soporte no lineal. Los 0 y 1 de las canciones que registramos se almacenan por todo el disco
duro sin orden alguno. El acceso a cualquier parte de esta canción (una vez grabada) es
instantáneo, no hay tiempo de espera, dicho de otra forma, se tarda tanto en reproducir desde el
inicio de la canción como, en mitad de ella: apenas unos milisegundos.

(ADAT)

Calidad de audio:

La calidad de audio del soporte digital, es mayor que la del analógico. La respuesta de frecuencias, es
decir el espectro de frecuencias que el grabador digital es capaz de grabar es mucho mayor que el
analógico, aunque en el caso del mundo digital la teoría y la práctica siguen caminos que pueden ser muy
distintos, es decir, la calidad teórica de un sistema de audio a 24 bits es superior a la calidad que ofrece
en la realidad, aunque esta realidad mermada es muy superior a la analógica; sea como sea, el audio
digital siempre puede tener más calidad que el analógico.

Diafonía imperceptible o casi nula:

En los grabadores de audio digital, nunca ocurrirá que monitorizando una pista aislada podamos oír parte
de la señal de sus pistas adyacentes. Cada pista de ese grabador digital registra y reproduce sus propias
cadenas gigantes de 0 y 1. Es imposible que el ordenador se equivoque y sume 0 y 1 de distintas pistas.

Edición no destructiva:

El último aspecto es quizás el mas interesante dentro de la vertiente creativa del sonido. Por primera vez es
posible crear audio. La música siempre ha tenido efectos como reverberación, retardos, distorsiones y
ecualización, pero por primera vez estamos ante el nacimiento de nuevos efectos de indescriptibles
resultados. En la película MATRIX, cuando Neo es desconectado del mundo "Real" produce un interesante
grito de dolor.

Imaginemos a Andy Wachowski (director de MATRIX) diciéndole al técnico de audio que desea un grito
humano que vaya convirtiéndose progresivamente en un grito digital, una voz que denote la existencia de
un mundo digital, la sensación que debe percibir el espectador es la de que Neo abandona el mundo de
los vivos para adentrase en el mundo de la máquina MATRIX.

Ese efecto de sonido que apenas dura 3 segundos, es materialmente imposible de recrear sin la
tecnología de procesado de audio digital. Si el grito de Neo original no hubiera sido grabado digitalmente
en forma de 0 y 1, nunca se habría podido aplicar ese grado de manipulación.

8
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
El procesado de estos efectos puede ser destructivo, es decir alterando la grabación original (los 0 y 1)
son manipulados y alterados o bien no destructiva en el que los cálculos se realizan a tiempo real, es decir,
"mientras el audio suena". En este caso el archivo original se mantiene intacto.

Características del audio digital


El principio fundamental del audio digital consiste en discretizar las señales sonoras continuas (como las
emitidas por un micrófono) para convertirlas en secuencias de números. La desratización de estas señales
se lleva a cabo en dos niveles diferentes, el temporal y el de la amplitud. En la figura 2.1 se muestra una
señal continua, discretizada sólo en el tiempo (cuadros blancos) y en el tiempo y la amplitud (puntos
negros). Cuanto menor sea la cuadrícula, mayor similitud existirá entre la señal original y la señal
digitalizada.

9
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Comparación con el cine y el vídeo digital
Para aclarar algunos conceptos, haremos una analogía con el cine y el vídeo digital. En ambos medios,
existe una discretización temporal (incluso en el caso del cine que no es un medio digital).

En el cine, la unidad de discretización temporal es el fotograma (24 fotogramas/segundo), mientras que en


el vídeo esta unidad se suele denominar con el término inglés frame (dependiendo del sistema, este valor
suele ser de 25 ó 30 frames/segundo). Esto correspondería, en el audio, a la discretización temporal.

Pero en el caso del vídeo digital se producen dos discretizaciones adicionales. La segunda convierte cada
frame en una matriz de puntos (por ejemplo 800x600), y la tercera asigna un número (de entre un conjunto
finito de valores) a cada punto, de forma que cada uno de estos números corresponde a un color y un
brillo determinado.

Es obvio que cuantos más puntos apliquemos, y cuantos más números utilicemos para cada punto, mayor
será la similitud entre la señal analógica original y la señal digitalizada. Si disponemos de pocos puntos, la
imagen aparecerá cuadriculada, y si el número de valores posibles para cada punto es pequeño,
perderemos matices en los colores y en los brillos. En la figura 2.2 se muestran estos casos. Algo parecido
sucede con el sonido.

10
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Frecuencia de muestreo

La palabra muestreo es el equivalente del término inglés sampling, y se utiliza para indicar la
acción de tomar muestras a intervalos de tiempo regulares.

Para digitalizar un sonido es necesario muestrearlo, pero ¿con qué frecuencia?

El proceso de captura de audio a soporte digital ser conoce como "muestreo" (sampling, en el
ámbito de los DJ).

Esta operación de codificación del audio analógico a 0, 1 tiene lugar a tiempo real, es decir
mientras la señal de audio analógico (audio "real") se reproduce. En los grabadores de audio
digital, tanto en sistemas dedicados como en las tarjetas de sonido populares, existe un
componente llamado conversor AD (analógico-digital, es decir el componente que se encarga
de convertir señales eléctricas a cadenas binarias). El proceso inverso, es decir la reproducción
utiliza un conversor DA (digital-analógico). El conversor aplica una "rejilla" de tiempo al audio y
captura el audio comprendido en las casillas de la rejilla. Podemos utilizar un ejemplo muy
sencillo. Si queremos grabar un atleta que corre durante" x" metros en una pista olímpica,
necesitamos una cámara que corra junto a éste (imagina la clásica cámara montada en raíles).

Esta cámara capturará 25 fotos (frames, en el argot) por segundo. ¿25 y no 98 o 4.7? 25 fotos por
segundo es más que suficiente para engañar al ojo humano y hacerle creer que esta sucesión de
fotos es un movimiento real de un señor corriendo. Para capturar el audio de ese corredor
necesitamos un micrófono y un grabador de audio que "fotografíe" el sonido. Para engañar al
oído, necesitamos más de 25 fotos por segundo, bastantes más...44.100 fotos por segundo, para
ser exactos.

En el mundo del audio no se utiliza la expresión fotos por segundo, sino que se habla de la
Frecuencia de Muestreo. Una frecuencia de muestreo de 44.100 se conoce como 44.1 kHz (Kilo
Hercios). Esta frecuencia de muestreo permitiría no diferenciar la fuente un sonido que se
produce en la habitación de al lado, oiríamos a un señor hablando y no sabríamos si es real o
una grabación que se está reproduciendo. Si la frecuencia de muestreo fuera menor, por ejemplo
22.050 kHz, ese señor tendría una voz muy opaca, como si hablase con una mano tapándose la
boca. Nos parecería muy raro, no seria una voz natural. ¡No podrían engañarnos!.

11
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Teorema de Nyquist

Existe una relación matemática que relaciona la frecuencia máxima registrable (es decir, hasta
qué frecuencia podremos grabar) en función de la frecuencia de muestreo. Estamos hablando
del teorema de Nyquist y básicamente nos dice que si queremos grabar una señal de audio que
llega hasta "x" frecuencia, debemos utilizar una frecuencia de muestreo mínima de "2x", es decir
el doble de la frecuencia más alta originada en la señal que deseamos grabar. Por ejemplo, si
queremos grabar una señal de audio que llega hasta los 20 KHz, Nyquist nos dice que
necesitamos una frecuencia de muestreo mayor o igual a 40kHz. Todos los CD del mercado
reproducen audio con una frecuencia de muestreo de 44.1kHz, es decir, pueden reproducir
perfectamente señales de audio con frecuencias de hasta 22050Hz (que es justamente el límite
de frecuencias teórico que podemos oír los humanos; los elefantes poseen un limite inferior por
debajo de los 10Hz y las hormigas mayor a 22kHz). La radio digital emplea una frecuencia de
muestreo de 32kHz (hasta los 16000Hz) frente a los 96kHz del estándar DVD (hasta los
48000Hz).

Según Nyquist, es posible repetir con exactitud una señal de audio si la frecuencia de muestreo
es como mínimo el doble de la frecuencia de la componente de mayor frecuencia.

Para comprender este fenómeno observemos la figura que representa una señal sinusoidal de 30
Hz. (el ciclo se repite 30 veces por segundo)

¿Que ocurre si la muestreamos a una frecuencia de 20 Hz?

En este caso, estaremos tomando el valor de la onda original cada 0,05 segundos (corresponden
a los seis cuadros de la figura). La nueva señal obtenida juntando los puntos muestreados tiene
un período aparente de 0,1 segundos, ¡es decir una frecuencia de 10 Hz, lo cual no se
corresponde en absoluto con la señal original!

http://youtu.be/Fy9dJgGCWZI (ENLACE DE VIDEO)

¿Cual sería la mínima frecuencia de muestreo correcta?

El teorema del muestreo o teorema de Nyquist, afirma que para muestrear correctamente una
señal de X Hz, se requiere como mínimo una frecuencia de muestreo de 2X Hz.

En nuestro ejemplo anterior, una frecuencia de 60 Hz hubiese pues bastado para muestrear
correctamente la señal original.

12
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
El oído humano es capaz de detectar frecuencias sonoras de hasta aproximadamente 20.000 Hz,
por lo que, para muestrear correctamente cualquier sonido se necesitará una frecuencia de
muestreo superior o igual a 40.000Hz. ¡De aquí proceden los famosos 44.100 Hz. utilizados en
los discos compactos!

Tabla de sampling rate utilizados en diferentes medios.

Para audio
8000 Teléfonos, adecuado para la voz humana pero no para la reproducción
muestras/s musical. En la práctica permite reproducir señales con componentes de hasta
3,5 kHz.
22050 Radio En la práctica permite reproducir señales con componentes de hasta 10
muestras/s kHz.
32000
Vídeo digital en formato miniDV.
muestras/s
44100 CD, En la práctica permite reproducir señales con componentes de hasta 20
muestras/s kHz. También común en audio en formatos MPEG-1 (VCD, SVCD, MP3).
47250 Formato PCM de Nippon Columbia (Denon). En la práctica permite reproducir
muestras/s señales con componentes de hasta 22 kHz.
48000 Sonido digital utilizado en la televisión digital, DVD, formato de películas, audio
muestras/s profesional y sistemas DAT.
50000 Primeros sistemas de grabación de audio digital de finales de los 70 de las
muestras/s empresas 3M y Soundstream.
96000 ó
192400 HD DVD, audio de alta definición para DVD y BD-ROM (Blu-ray Disc).
muestras/s
2 822 400
SACD, Direct Stream Digital, desarrollado por Sony y Philips.
muestras/s

Resolución de bits

Hasta aquí, hemos resuelto la primera parte teórica de la digitalización, consistente en obtener
una serie de muestras a intervalos regulares. Falta todavía la segunda parte, que consiste en
asignar a cada una de estas muestras un valor numérico que pueda ser manejado por una
computadora. Para ello, volveremos momentáneamente al ejemplo del vídeo digital.

La resolución de color de una imagen (y de las tarjetas de vídeo) se mide en bits. Así, una
imagen de 8 bits, podrá incluir 256 colores diferentes, mientras que una de 24 bits podrá
representar más de 16 millones de colores. Con el sonido sucede algo parecido: cuantos más
bits apliquemos, más niveles o escalones tendrá el sonido digitalizado y más parecido será en
consecuencia al sonido analógico original (que al ser continuo, poseía un número infinito de
niveles).
13
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Ya sabemos que necesitamos tomar 44100 "fotos" del sonido por segundo, pero ¿estas fotos
cómo se almacenan?. En forma de bits, cadenas de 0 y 1 totalmente manejables por el
ordenador. La cantidad de bits que se utilizan para representar la muestra del audio es la
resolución de la muestra.

Una resolución de 8 bits (1 byte) permite manejar valores de entre 0 a 255 (256 valores). Dicho
de otra forma, para representar una señal máxima de 255 necesitaré 8 dígitos binarios (0 o 1) y
en este ejemplo, 255 es 1111111 en binario (8 dígitos 1). Una palabra de 16 bits (2 bytes)
maneja un valor máximo de 65535 (65536 si contamos el 0 como valor),
1111111111111111=65535.

De esta forma, cada uno de las 44100 capturas realizadas contienen un valor codificado en "x"
bits. Cuanto mayor sea la resolución, más calidad tendrá la grabación. Tanto la frecuencia de
muestreo como la resolución tienen incidencia directa en la calidad de la grabación y
reproducción de audio digital.

La resolución, por su parte, también tiene incidencia directa en el rango dinámico o relación
señal-error de la grabación (abreviada S/R o S/E en inglés y se mide en dB o decibeles).
Existe una relación que indica que esta relación S/N es igual al resultado de multiplicar la
resolución de bits por 6.

Una grabación a 8 bits posee una relación S/N de 54dB, una de 16 bits 96dB y 144dB a 24 bits.
Tengamos en cuenta que estos dB son valores teóricos y que en la práctica bajan
sustancialmente debido a los componentes analógicos de los grabadores tarjetas de sondo,
etc...

Lo normal es que un grabador a 16 bits alcance los 90-92dB y lo extraordinario es que


efectivamente nos entregue una S/N de 96dB. Para nosotros, los humanos, un rango dinámico de
entre 90 y 100dB es suficiente.

Estas cifras salen del propio rango dinámico humano, la diferencia entre el umbral de dolor y el
umbral de audición.

Existe una relación matemática entre los bits y la relación señal-error o rango dinámico: S/N =
6x(resolución de bits)

Rango dinámico

Si en un sistema digital consideramos la amplitud máxima como 2bits y la amplitud mínima como
1, tendremos que un sistema de conversión de 8 bits posee un rango dinámico de
aproximadamente 48 dB, mientras que en uno de 16 bits, el rango dinámico es de 96 dB.

Dado que el umbral de dolor no se sitúa hasta alrededor de los 130 dB, sería deseable que un
sistema de alta fidelidad pudiese alcanzar este rango dinámico.

Para ello serían necesarios unos 22 bits de resolución. Todos sabemos que no es éste el
estándar que se ha adoptado, que ha quedado establecido en 16 bits.

14
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Por ello, todo sistema digital convencional posee un rango dinámico máximo de 96 dB (valor
teórico que en la práctica se ve disminuido por factores de circuitería).

Estándares del audio digital

En la actualidad existen unos protocolos para la digitalizaciòn y reproducción de los archivos


digitalmente manipulados, en nuestro caso, los archivos de audio.

CD-DA del estándar Libro rojo

Se trata del estándar de CD fundamental. En un segundo de sonido del estándar Libro rojo hay
75 marcos/sectores y cada marco/sector alberga 2.352 bytes de datos de ordenadores
equivalentes. Además, un CD del estándar Libro rojo sólo tiene una sesión y no puede contener
más de 99 pistas de audio digitales.

CD-ROM del estándar Libro amarillo

Este estándar es todavía la solución de almacenamiento en masa más aceptada y económica


incluso en la industria informática. La mayoría de CD-ROM de software de aplicación, incluidos
los discos de instalación de Windows 95, Windows NT, MS Office, etc. son CD del estándar Libro
amarillo. Al igual que ocurre con el estándar Libro rojo y los estándares posteriores, habrá como
máximo 99 pistas en un CD.

CD-EXTRA (o CD mejorado)CD-EXTRA

Es un tipo de CD híbrido que incluye pistas de audio y de datos en un disco. En un disco CD-
EXTRA del Libro azul hay exactamente DOS sesiones. La primera sesión debe contener sólo
pistas CD-DA del estándar Libro rojo, 98 pistas como máximo; la segunda sesión debe contener
sólo una pista de datos CD-ROM del estándar Libro amarillo. Lo que se pretende es que dichos
discos se puedan leer en reproductores de CD normales, ya que estos reproductores no leen
discos multisesión, es decir, sólo reconocen lo que hay en la primera sesión. Cuando se
introducen estos discos en las unidades de CD-ROM que leen discos multisesión, éstas pueden
acceder a la pista de datos de los discos.

Se pueden encontrar varios discos CD-EXTRA en el mercado, ya que se trata de un formato ideal
para álbumes de audio interactivos.

CD de modo mixto

El CD de modo mixto, que es muy parecido al CD-EXTRA, cuenta con pista de datos y pistas CD-
DA múltiples en un sólo disco. Sin embargo, la distribución es distinta, puesto que sólo hay UNA
sesión en el disco. Dentro de esta sesión, la primera pista DEBE ser una pista de datos y las
pistas posteriores serán pistas CD-DA.

Este formato de discos va dirigido especialmente a las unidades de CD-ROM. El objetivo es que
los ordenadores host ejecuten programas en la parte de datos del disco que reproducirá las
pistas de audio, pero tenga en cuenta que el ordenador NO PUEDE leer datos mientras se está
reproduciendo el sonido.

15
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Normalmente, no existe un logotipo específico para identificar dicho disco, pero encontrará este
formato en diversos videojuegos entre los que se incluyen Tomb Raider, Age of Empires, etc.

Errores del audio digital; ALIASING, ERRORES DE CUANTIZACIòN Y JITTER

Muestreo con frecuencias inferiores; El aliasing.


En todo sonido complejo, como el que produce un instrumento de cuerda, las frecuencias que se
generan pueden ir más allá de los 20.000 Hz en forma de armónicos que, aunque no nos son
audibles, están presentes. Cuando se digitaliza un sonido que contiene frecuencias superiores a
las que puede codificar, según Nyquist, se produce el fenómeno del aliasing, que convierte esas
frecuencias no cuantizables en otras que sí lo son, pero que no están presentes en el sonido
original, lo que introduce unos artefactos indeseables.

La imagen más clara para entender el aliasing es recordar lo que ocurre cuando vemos la rueda
de un carro en un película del oeste; aunque el carro va hacia delante vemos la rueda girar en
sentido inverso. No hay concordancia entre el periodo de rotación de la rueda y la frecuencia de
"muestreo" del cine (24 imágenes por segundo). Para evitar este problema hay que añadir un
filtro paso-bajo que corte por encima de la frecuencia que se corresponda con la mitad de la
frecuencia de muestreo. Este filtro es conocido como filtro anti-aliasing. Como un filtro paso-bajo
teórico con una pendiente infinita no existe y, además, generan problemas de desplazamiento de
fase en las frecuencias cercanas al corte (igualmente indeseables)
Si decidimos muestrear a 20.000 Hz, deberíamos filtrar la señal original, eliminando todos sus
componentes por encima de 10.000 Hz. Esto no siempre es posible si no se dispone del
hardware adecuado, ya que la mayoría de tarjetas de sonido no permiten modificar el filtro de
entrada. Existe una solución para realizar todo este proceso por software, consistente en:

• Muestrear a 44.100 Hz

• Filtrar por software (DAW) el sonido obtenido, a la mitad de la frecuencia deseada (e.g.
10.000 Hz)

• Reconvertir por software (DAW) el sonido a la frecuencia deseada (e.g. 20.000 Hz)

Parece complicado? como veremos, la mayoría de editores de sonido facilitan bastante esta
tarea.

http://youtu.be/xS69cf_Izk8 (LINK DE VIDEO) Ejemplo de aliasing en una forma de onda diente


de sierra (la frecuencia puede ser un poco molesta al oído)

http://youtu.be/yB_egSmvshM (LINK DE VIDEO) Ejemplo de aliasing.

16
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Errores de cuantizaciòn.

Otro problema con el que nos encontramos, inherente al sistema de digitalización, es que,
cuando la amplitud de una muestra no se ajusta a un valor múltiplo de 6 dB, el bit que ocupa se
resuelve por proximidad, con lo se introducen constantes redondeos que añaden distorsión.
Ésta es especialmente audible (y, por ende, desagradable) en pasajes con muy baja amplitud
(cola de reverberaciones, pasajes muy suaves de un instrumento…).

No sólo la digitalización añade estos errores de cuantización. Con la señal ya digitalizada


realizamos todo tipo de operaciones, mezclamos pistas, aplicamos plug-ins, cambiamos la
ganancia, etc. Todos estos procesos se realizan con operaciones matemáticas que hacen que
las muestras individuales se redondeen hasta el bit más cercano, añadiendo la consecuente
distorsión. La solución, paradójicamente, es la de añadir un cierto tipo de ruido digital, a muy
bajos niveles, para que sea éste el que se elimine fundamentalmente en el proceso de redondeo.
Este proceso se conoce como dithering y añade el mínimo nivel de ruido digital necesario para
minimizar los problemas por redondeo.

Se pueden mejorar los resultados de los algoritmos del dithering con técnicas de noise shaping,
es decir, añadiendo el ruido en aquellas zonas para las que el oído humano es menos sensible,
haciendo que el ruido añadido sea prácticamente inaudible. Aunque es importante resaltar que,
en teoría, deberíamos aplicar dithering en todos los procesos sujetos a errores de cuantización,
en la práctica el ruido que se obtiene en la cadena de grabación es suficientemente adecuado
como para usarlo. Por otra parte, los programas que hay en el mercado suelen aplicarlo cada
vez que se realiza un proceso con la señal (normalizaciones, plug-ins).

Es especialmente aconsejable no usar la normalización salvo al final, cuando hayamos


procesado completamente el material, ya que hay que tener en cuenta que, cada vez que lo
hacemos, elevamos tanto el nivel de la señal como el del ruido y, además, añadimos nuevo ruido
con el dithering aplicado. Es realmente un error del que debemos huir. Un proceso en el que
aplicar dithering es extremadamente recomendado es cuando reducimos la resolución de un
material, por ejemplo de 24 bit a 16 bit. En el mercado hay algunos procesadores con gran
prestigio y unos resultados sorprendentes: UV22 de Apogee, POW-r de POW-r Consortium o IDR
de Waves Audio.

Como consejo, siempre que se pueda, se recomienda trabajar a 24 bit, desde la grabación hasta
justo la obtención del fichero masterizado. El incremento que se tiene del margen dinámico
permite que los ruidos introducidos por los errores de cuantización sean realmente
despreciables. Sólo habría que aplicar dithering al pasar el archivo master a 16 bit para ir a CD.

Jitter.

La toma de muestras se realiza según la frecuencia de muestreo, fn muestras por segundo. Eso
significa que, teóricamente, la separación temporal entre muestras debería ser de 1/fn segundos.
Esto, en la práctica, no siempre es así, introduciendo un tercer tipo de distorsión: la dependiente
de los errores de wordclock, conocida como jitter.

17
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
El wordclock es una señal de reloj que viaja junto con la señal de audio digital (aunque también
puede viajar de forma independiente) y que marca la pauta de cuándo deben procesarse las
muestras, tanto en grabación como en reproducción. Cuando las muestras sufren pequeños
retrasos o adelantos, respecto al momento en que deberían ser procesadas, generan una
modificación de las frecuencias que codifican, produciéndose unas fluctuaciones o
modulaciones, análogas en cierta manera, a las que se producen en una cinta cuando la
velocidad de giro de la misma no es constante. Es un efecto muy sutil, difícil de describir, pero
que se manifiesta en una pérdida de definición y una imagen estéreo más pobre.

Un sistema digital con un buen equipo externo de reloj, que suministre wordclock y sincronice
todos los equipos, es la mejor garantía para evitar este problema, especialmente en el momento
de la conversión A/D. Con posterioridad, se pueden "recolocar" las muestras, pero ya no
representarán la realidad muestreada y el indeseable efecto lo arrastraremos en toda la cadena.

DAW o Estación de trabajo de audio digital

(Digital Audio Workstation) es un sistema electrónico dedicado a la grabación y edición de audio


digital por medio de un software de edición de audio; y del hardware compuesto por una
computadora con características especiales y una interfaz de audio digital, encargada de
realizar la conversión analógica-digital y digital-análogo dentro de la estación de trabajo.

EAD
Una estación de trabajo de audio digital
Las son utilizadas actualmente en casi toda la Producción discográfica a nivel mundial y para la
post-producción de sonido para cine, televisión y videojuegos. Debido a su relativa facilidad de
adquisición, están presentes tanto a nivel profesional como a nivel consumidor, dando origen a
los famosos Home Studios o estudios caseros.
Por otro lado el término DAW es utilizado para referirse al género de software utilizado dentro de
la estación de trabajo. Así, en vez de clasificar los programas como editores de audio, se los
clasifica como DAW o estaciones de trabajo, incurriendo en un error dado que el software hace
parte de la estación y no es la estación de trabajo completa.

Partes de la EAD o estación de trabajo


Una estación de trabajo de audio digital es la suma de tres componentes básicos los cuales se
comunican entre si con otros dispositivos para poder realizar las tareas solicitadas por el usuario.
Estos componentes son:

18
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
El Host o equipo host.
Es la computadora encargada de brindar el procesamiento de los algoritmos digitales dentro del
software de edición y así mismo, el encargado de hospedar la interfaz de sonido y el software de
edición.

Los host actuales poseen una gran capacidad de procesamiento interno, lo que ha posibilitado
el desarrollo de editores de audio mas potentes y mas variados en cuanto a herramientas de
edición y procesamiento. Si bien el host es el encargado de procesar digitalmente el audio, no es
él quien produce el sonido, puesto que los procesos que se llevan a cabo en el host son
operaciones binarias que necesitan ser convertidas por la interfaz de sonido a variaciones de
voltaje análogas a la variaciones de presión que percibimos como sonido.

La interfaz de sonido.
La interfaz de sonido es la encargada de realizar la conversión analógica-digital y digital-análogo
durante el proceso de reproducción y grabación del audio. La interfaz puede contener múltiples
entradas y salidas análogas y digitales dependiendo de las características de fabricación. Las
salidas de la interfaz se conectan a unos monitores de audio que generan las variaciones de
presión necesarias para percibir el sonido y, por otro lado, las entradas se conectan a
micrófonos, amplificadores, instrumentos musicales o todo aquello que necesite ser ingresado al
Software.

Las interfaces de sonido profesionales suelen tener mayores tasas de muestreo y mayor
profundidad de bits al momento de convertir la señal, garantizando una perdida mínima de
información durante el proceso. Así mismo se caracterizan por poseer entradas y salidas MIDI

19
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
para automatizar o "tocar" instrumentos virtuales dentro del software de edición de audio.
Entradas y salidas de sincronismo, envió y retorno de equipos de procesamiento auxiliar como
ecos, compresores, generadores de reverberación, entre otros, con el fin de brindar al usuario la
mayor cantidad de opciones de creación y soporte disponibles.
AVID “Mbox PRO”, AUDIO INTERFACE .

Ejemplo de una configuración de una tarjeta de audio “Symphony I/O” de la marca


“Apogee” para el sistema protools.

Symphony I/O | Studio 8x8


Configuration sample: Pro Tools HD audio mode

El software

El software de edición de audio es el centro del la EAD debido a que es el encargado de


coordinar el procesamiento del host con la interfaz de sonido, además de brindar una interfaz de
usuario gráfica para coordinar este proceso, debe ser capaz de comunicarse con otro tipo de
hardware externo como consolas digitales de mezcla, instrumentos MIDI, micrófonos por USB,
entre otros.
El software de edición es el equivalente, en gran parte, a las antiguas consolas de mezcla,
puesto que es dentro del software dónde se gestionan las sumas y restas de señal que luego
serán procesadas por el host y convertidas por la interfaz para su escucha final. Los editores de
audio, además, deben ser compatibles con el sistema operativo del host y con las funciones de
la interfaz para poder coordinar el proceso de edición. Algunos editores poseen soporte para la
reproducción de video para el trabajo de sonido audiovisual.

20
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
A continuación unos ejemplos de algunos de los software con mas popularidad en el mercado

Pro Tools

Es una estación de trabajo de audio digital (Digital Audio Workstation o DAW, en inglés), una
multiplataforma de grabación multipista de audio y midi, que integra hardware y software.
Actualmente, por sus altas prestaciones, es el estándar de grabación en estudios profesionales,
usado mundialmente.
La empresa AVID (anteriormente DIGIDESIGN), es la desarrolladora del programa Pro Tools.
Además elabora algunos de los mejores softwares de audio del mercado, por lo que su calidad y
sólida fiabilidad son ampliamente reconocidos. Esto ha llevado a este potente software de
producción musical y post-producción audiovisual a convertirse en uno de los referentes de esta
industria.
El estigma de Pro Tools era que sólo podía usarse con un hardware específico, y no admitía otras
marcas, pero desde la versión 7, se abrió el código del software para poder ser utilizado con
interfaces de audio de la empresa M-Audio (anteriormente Midiman), la versión 9 y posteriores,
admiten hardware de cualquier marca siempre y cuando maneje el driver de tipo ASIO para los
equipos de Microsoft y el driver CORE AUDIO para los Macintosh; así mismo, el resto de
componentes de ambos equipos también tienen que ser compatibles. Para ello, podemos
encontrar un listado de compatibilidades técnicas en la misma página web de AVID.

21
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Logic

Logic Pro proporciona los instrumentos, los sintetizadores, los efectos audio y los grabadores de
voz para la síntesis de la música. Los efectos de audio incluyen las distorsiones, procesadores
dinámicos y ecualizadores. El diseño del espacio , por ejemplo, simula la acústica del audio en
diversos ambientes, tales como producir ecos. Logic Pro puede trabajar con los teclados MIDI y
las superficies de control para la entrada de sonido. También ofrece editar en tiempo real la
música, el soporte de la guitarra, abreviaturas del acorde y la notación del tambor.
Logic Pro y Express tienen mucha funcionalidad y virtualmente la misma interfaz. Logic Express
se limita al sonido, mientras que Logic Pro maneja varios canales, rodeando el sonido y
creándolo envolvente. Ambos pueden manejar hasta 255 pistas de audio, dependiendo del
funcionamiento del sistema (tiempo de la CPU , del rendimiento de procesamiento del disco duro
y de la búsqueda).
El uso de Logic Pro también ofrece capacidades adicionales, que pueden funcionar a través de
una LAN de Internet. Si la red es bastante rápida, se puede trabajar repartiendo el trabajo entre
varias CPUs. Esto permite que los usuarios combinen la energía de varias computadoras de
Macintosh de procesar los instrumentos y plug-ins incorporados del software..
Desde septiembre de 2007 está disponible la versión Logic Studio que integra la última versión
de Logic Pro (Logic 8), Soundtrack (software profesional de montaje de audio en vídeo) y
Mainstage (programa desarrollado para facilitar al músico interpretaciones en directo).

22
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Cubase

Cubase crea proyectos que permiten al operador editar archivos MIDI, pistas de audio crudo, y
otras informaciones asociadas como las letras de la canción, y presentarlos en un rango de
formatos incluyendo calificación musical, consola de edición, lista de eventos, etc. El operador
también puede mezclar varias pistas en formato estéreo .wav o .mp3 listas para grabarlas en un
CD.
Esta DAW trabaja mejor con tarjetas de audio externas así como también con los controladores
ASIO Steinberg Cubase 4 es probablemente uno de los más completos secuenciadores de audio
y MIDI en el mercado.

23
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Los conversores A/D y D/A, INTERFACES DE AUDIO.

Veamos ahora como funciona un sistema digitalizador de sonido.

El sistema se compone de dos conversores:

Un conversor analógico/digital a partir de ahora A/D en la entrada, y

Un conversor digital/analógico a partir de ahora D/A en la salida.

Ambos están controlados por un reloj digital que determina la frecuencia de muestreo.

Para evitar el aliasing se coloca en la entrada un filtro pasa-bajo, que elimina de la señal
analógica todos los componentes con frecuencias superiores a los 22.050 Hz.

En el proceso de digitalización, el conversor A/D genera un número binario (de 8 ó 16 bits) a


cada pulso del reloj. Este número es almacenado en la memoria o grabado en un disco duro.

Para la audición de esta señal digital, es necesaria la reconversión inversa, de forma que los
números almacenados son enviados a un conversor D/A que los convierte en voltajes, a la misma
frecuencia de reloj.

Esta señal analógica es suavizada mediante un nuevo filtro, amplificada y enviada a unos
altavoces, que con su vibración, convierten finalmente los voltajes en variaciones de presión de
aire.

24
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Edición de audio por computadora

Hemos visto cómo digitalizar un sonido procedente de diversas fuentes analógicas y almacenarlo
en la memoria o el disco duro de la computadora, pero el enorme potencial del audio digital por
ordenador no comienza a intuirse hasta que abrimos un potente editor gráfico de audio. El
paradigma de este tipo de aplicaciones es muy sencillo y varía muy poco de un programa a otro.
Básicamente consiste en aplicar procesos matemáticos a un sonido (o a una porción temporal),
con la ayuda de un entorno gráfico que permita seleccionar cómodamente los fragmentos a
tratar y que muestre los resultados tanto sonora como visualmente. Mediante estos procesos se
consigue corregir defectos en los sonidos originales, ensalzarlos, modificarlos ligeramente o
generar otros nuevos totalmente irreconocibles.

Todas estas posibilidades se fundamentan sobre una disciplina de investigación que combina la
ingeniería, la física y las matemáticas, y que cuenta con varias décadas de existencia: el
procesado digital de señal.

Utilización y posibilidades de un editor gráfico de audio digital

Simplificando, la forma de trabajar con estos programas es la siguiente: se carga o graba un


fichero de sonido digital (normalmente de tipo .wav o .aiff), o se digitaliza desde el mismo
programa, teniendo en cuenta la manera en la que se quiera muestrear la señal de audio.

Inmediatamente, la onda queda representada gráficamente en una ventana. Con el mouse se


selecciona un fragmento (igual que seleccionaría unas cuantas palabras contiguas en un
procesador de texto) o el fichero en su totalidad. Mediante opciones de menú o iconos se aplican
a este fragmento algunos de los procesos de modificación incluidos en el programa.

Una de las principales razones para valorar las prestaciones de estos programas es el número,
calidad y versatilidad de los efectos disponibles, pero existen otros factores importantes.

Pasemos a enumerar y describir brevemente algunos de ellos.

Soporte multiventana.

La posibilidad de tener varios ficheros de onda abiertos y visibles, es fundamental para poder
combinar fragmentos de diferentes procedencias. Todos los programas citados incorporan
sofisticadas formas de gestión de memoria que permiten presentar en pantalla muchos más
sonidos de los que podrían caber en la memoria RAM del equipo.

Deshacer (Undo).

Dado que los ficheros de sonido pueden llegar a ocupar decenas o centenares de Mb, el
guardar varios niveles de anulación puede en ocasiones ralentizar excesivamente la ejecución, o
resultar incluso inviable. En estos programas la opción de deshacer es configurable por el
usuario.
25
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Edición independiente de canales.

Los ficheros estéreo se muestran siempre en dos ventanas superpuestas. En ocasiones es


deseable poder seleccionar un fragmento de un único canal.

Zoom de visualización.

Para trabajar los fragmentos con mayor detalle es conveniente poder modificar la escala de
visualización. El zoom se puede aplicar a dos parámetros: el tiempo (eje horizontal) y la amplitud
(eje vertical). Todos los programas soportan varios niveles de zoom temporal, pero no todos
permiten zoom de amplitud. Esta última posibilidad es especialmente útil cuando se trabaja
sobre fragmentos de muy poco nivel (casi silenciosos), ya que de lo contrario estaremos viendo
una línea recta donde en realidad hay sonido.

Cambio de unidades temporales.

Existen normalmente tres unidades alternativas para medir las coordenadas temporales: tiempo
(ms), muestras y compases. Esta última es útil cuando estamos editando un fragmento musical
con un tempo preciso (que el usuario deberá indicar).

26
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Memoria de puntos clave, “MARKERS”

En un fichero largo es fácil perderse mientras se navega hacía delante y hacia atrás utilizando el
scroll horizontal. Por ello es muy útil poder colocar marcas en algunos puntos importantes (inicio
de un sonido, de una palabra, etc.). Actualmente la mayoría de los softwares profesionales
cuentan con esta herramienta.

Reproducción de listas.

Este punto está relacionado con el anterior: una vez colocadas varias marcas, es posible editar
una lista de reproducción para alterar el orden de ejecución de los fragmentos, y repetir u omitir
algunos de ellos. Esta es una forma rápida y cómoda de realizar modificaciones temporales, sin
necesidad de reorganizar cada vez millones de muestras. Algunos programas automatizan
además ciertos procesos relacionados con las listas como, por ejemplo, eliminar (borrar) todos
los fragmentos de silencio de un fichero y crear una lista de reproducción con los mismos
tiempos del sonido original.

Importación/exportación de otros formatos de onda.

Los programas para Windows trabajan principalmente con el formato .wav, pero en ocasiones es
necesario importar y/o exportar formatos diferentes. El número de formatos soportados varía de
un programa a otro, actualmente la mayoría de los softwares profesionales pueden importar
diferentes formatos de audio.

Posibilidad de salvar configuraciones de efectos.

Muchos de los efectos aplicables comportan varios parámetros configurables. La posibilidad de


salvar en disco cualquier conjunto de parámetros simplifica enormemente el trabajo.

27
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Programación de nuevos efectos.

El siguiente paso en la personalización de un programa es la posibilidad de crear nuevos


efectos. Esto es bastante más complejo pues no sólo requiere ciertas nociones de programación,
sino un profundo conocimiento del procesado digital de señal.

Capacidad de síntesis.

Además de todas las posibilidades de procesado de archivos de sonido ya existentes, estos


programas ofrecen algunas opciones para crear sonidos sintéticos, es decir, partiendo de cero.

Dibujo a mano alzada.

Dibujar ondas de sonido (con cierto control sobre los resultados) no es tarea fácil, pero en
algunas ocasiones es la forma más sencilla de resolver algún problema. La modificación de la
forma de onda mediante el ratón, es por ejemplo un método eficaz para eliminar clics u otros
ruidos muy breves.

Envío a samplers (Generic Sample Dump Standard).

Esta opción es útil únicamente para los poseedores de un sampler externo, ya que permite la
transmisión de ficheros de audio a través de un cable MIDI utilizando el protocolo Generic
Sample Dump Standard.

28
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Activación vía MIDI.

Mediante esta opción se pueden disparar ficheros de onda (o fragmentos) a partir de mensajes
MIDI, enviados, por ejemplo, desde un programa secuenciador, con lo que es posible sincronizar
un tema MIDI con fragmentos de audio real (voces, guitarras, etc.

Clasificación de las herramientas de procesado digital


de sonido

Las posibilidades de modificación del sonido digital almacenado en un fichero de la


computadora son interminables. Para estudiarlas de una forma concisa, pero clara y
comprensible, en lugar de seguir los menús de opciones de un determinado programa,
intentaremos establecer una taxonomía que nos permita organizar estos efectos de una forma
coherente, así como explicar someramente algunos de los principios básicos de procesado de
señal involucrados. Una clasificación de los efectos más frecuentes sólo puede ser aproximada,
ya que muchos de ellos requieren de una combinación de operaciones que los hace partícipes
de varias categorías diferentes. Aun así, los dividiremos inicialmente en tres grandes grupos: los
efectos que se aplican al tiempo, los que modifican la amplitud, y los que se aplican a la
frecuencia y al timbre.

Efectos simples en el dominio temporal


En la mayoría de programas estos procesos suelen estar en la opción de menú Edit.

29
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Copiar, cortar y pegar.

Ocultan pocos secretos: se selecciona un fragmento con el ratón y se elimina o se inserta en otro
lugar.
En el estudio analógico (y en el cine), estas operaciones se han realizado durante décadas,
cortando y pegando fragmentos de cinta magnética, pero a pesar de esa aparente sencillez, en
el dominio digital estas operaciones no deben realizarse sin ciertos cuidados para evitar clics y
ruidos.

Cuando eliminamos o insertamos un fragmento, no deberíamos dejar una discontinuidad


excesiva entre las nuevas muestras contiguas.

La forma más sencilla de preservar esta continuidad es, seleccionar fragmentos con inicio y final
nulos. Algunos programas se pueden configurar para que cuando seleccionemos un fragmento,
la selección se redondee hasta los ceros más próximos. Una opción complementaria, que no
suele estar en otros tipos de programas, es la de Trim (que podríamos traducir como podar), que
consiste en eliminar todo excepto la zona seleccionada.

Reverse, o darle la vuelta a un sonido.

El producto de esta herramienta es invertir el modo de reproducción de los eventos de audio


seleccionados en el DAW, es también un efecto que se viene realizando en cinta magnética
desde hace décadas.

30
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Efectos simples sobre la amplitud

Todos los efectos aquí descritos realizan diversas multiplicaciones a cada muestra de un
fragmento.

Modificar ganancia.

Consiste en multiplicar cada una de las muestras por un valor real. Si el valor está comprendido
entre 0 y 1 el nivel sonoro disminuye, mientras que a partir de 1 aumenta. Se puede aplicar para
potenciar sonidos que se han grabado con un nivel excesivamente bajo.

Puerta de ruido (noise gate).

Silencia las muestras por debajo de determinado valor umbral, introducido como parámetro.
La imagen muestra el efecto de aplicar una puerta de ruido del 10% (silencia las muestras con
una amplitud inferior al 10% del valor máximo posible). Este efecto permite eliminar el ruido de
fondo, aunque como veremos más adelante, existen formas más sofisticadas de reducción de
ruido, ya que este sistema sólo puede eliminar el ruido en los fragmentos en los que no hay
música. También se ha utilizado mucho en los últimos años para procesar pistas de batería2, con
lo que se consiguen ataques y decaimientos más bruscos.
 

Normalizar

es un caso particular de modificación de ganancia, que consiste en obtener la máxima amplitud


posible sin que se produzca distorsión. Esto se consigue recorriendo la zona seleccionada y
guardando su amplitud máxima. Una vez obtenida ésta, se multiplican todas las muestras del
fragmento por el cociente máxima amplitud posible / máxima amplitud del fragmento.

31
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Aplicar envolventes.

Estos programas permiten que el usuario dibuje envolventes con un número variable de puntos, y
posteriormente realizan el producto de la envolvente y la señal seleccionada.

Fade in y fade out.

Son dos envolventes particulares, que normalmente cuentan como opciones de menú propias,
por lo mucho que se utilizan.

La primera (fundido de entrada), es una envolvente con valor inicial cero y valor final uno, que se
aplica al inicio de un fragmento, mientras que la segunda (fundido de salida), se inicia con uno y
termina con cero, y se aplica normalmente al final de un fragmento.
 

Invertir.

No debe confundirse con la opción reverse, ya que con esta operación se realiza una reflexión
respecto al eje horizontal. De esta forma los valores positivos pasan a ser negativos y viceversa,
con lo se consigue un cambio de fase. Es un efecto muy sutil que se percibe mejor cuando la
inversión se aplica a un único canal de un sonido estéreo.

A diferencia de los anteriores que son multiplicativos, el efecto restante opera de forma aditiva.

DC Bias Offset.

Algunas tarjetas de sonido introducen un error permanente al digitalizar, que ocasiona un


desplazamiento del cero. Puede comprobarlo grabando un fragmento de silencio y observando
los resultados en un editor que ofrezca la suficiente resolución vertical. Si la línea recta
correspondiente al fragmento de silencio grabado no se corresponde exactamente con la línea
del cero, la tarjeta presenta un error de desplazamiento (que podrá ser positivo o negativo).
Estos programas incorporan un comando que calcula automáticamente el desplazamiento y
corrige la señal, restándole este mismo valor.

Efectos simples aplicables a la frecuencia

Existen varias operaciones sencillas que comportan modificaciones frecuenciales, y la


comprensión de todas ellas es fundamental para poder trabajar con soltura con el sonido digital.

Modificación de la frecuencia de muestreo

Supongamos que tenemos un sonido digitalizado a 44.100 Hz. Si le cambiamos la frecuencia de


muestreo a 22.050 sin modificar el sonido en sí, el resultado sonará una octava por debajo. Esta
operación equivale a reproducir una cinta o un disco de vinilo a velocidades diferentes de la
original. Un LP de 33 r.p.m. reproducido a 45 r.p.m. sube la frecuencia en un 135 %.

32
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Frecuencias superiores hacen que el sonido resultante sea más agudo, mientras que valores
inferiores lo tornan más grave. En la computadora, este efecto se consigue modificando tan sólo
el valor de frecuencia en la cabecera del fichero, sin modificar para nada los datos. Esta
operación conlleva además la modificación de la duración del sonido (a una frecuencia doble, el
sonido durará la mitad).

Resample

Con este término, que podría traducirse por remuestreo, se designa la operación consistente en
modificar la frecuencia de muestreo de un fichero, sin alterar la frecuencia del sonido. Esto se
consigue normalmente eliminando o repitiendo algunas muestras. Para pasar por ejemplo, de
44.100 Hz a 22.050, se elimina directamente una muestra de cada dos, mientras que para el
realizar el cambio inverso, cada muestra es duplicada. En realidad, para obtener una mayor
calidad se realiza una interpolación, de forma que si una muestra vale 1000 y la siguiente 1020,
la que se añade tomará el valor 1010 (cuando el cociente de las dos frecuencias no es un valor
entero, las matemáticas involucradas se complican un poco más, pero el principio sigue siendo
el mismo). Utilizaremos esta opción cuando queramos reducir el tamaño (y la calidad) de un
fichero.

Transposición

El término musical transponer se utiliza para subir o bajar una nota o una melodía. En el
tratamiento digital de sonido, transponer significa modificar la altura, pero manteniendo la
frecuencia de muestreo. El resultado sonoro es similar al de la modificación de la frecuencia de
muestreo pero el efecto es en realidad una combinación de los dos anteriores. El valor de la
transposición se puede indicar como un porcentaje, o bien como un intervalo musical (subir dos
semitonos, etc.). Estas operaciones comportan también la variación de la duración del sonido
(más breve cuanto más agudo, más largo cuanto más grave).

Conviene indicar, por último, que mediante otros tipo de recursos matemáticos es también
posible modificar la altura de un sonido sin modificar su duración y, al contrario, modificar la
duración preservando la altura.

33
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Protocolos de comunicación para audio digital.

Un protocolo de audio digital es un protocolo de comunicación (un estándar) que permite


transmitir en tiempo real la señal digital entre dos sistemas digitales.
Los protocolos más utilizados son:

Protocolo AES/EBU.
Utiliza una interfaz RS-422 de dos canales con líneas balanceadas que acaban en conectores
XLR-3 o D-sub (conector multipin que utilizan, por ejemplo, los cables SCSI).

Protocolo AES3-ID.
La interfaz AES3 también conocida en Europa como AES/EBU(Audio Engineering Society/
European Broadcasting Union) es una interfaz de comunicación (estandarizada) pensada para
transmitir en tiempo real señales digitales de audio, sin compresión entre dispositivos de audio
preparados para ello (que cumplen los requisitos).

Especificaciones Hardware

Se requiere el siguiente cableado.


3 conductores de 110-ohmios con par trenzado y conector XLR.
2 conductores de 50-ohmios ó 75-ohmios de cable coaxial y conector BNC.
Nivel de señal: 3 a 10V, con codificación BMC y una resolución de 24 bits.

Conector BNC.

34
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Especificación de protocolo

La interfaz AES3 fue inicialmente diseñada para albergar y transportar datos digitales sin
compresión PCM. Aunque por su morfología puede transportar otros tipos de señales como DAT
a 48KHz o formato CD a 44,1KHz. La portadora es entonces capaz de transportar datos a
distintas frecuencias de muestreo, gracias a que recupera la señal de reloj mediante codificación
BMC.

Protocolo S/PDIF.
Utiliza el formato de interfaz digital desarrollado por Sony y Phillips. En esencia, es una versión
del protocolo AES/EBU, sin embargo, utiliza no balanceada y, por tanto, conectores RCA o fibras
ópticas. Este protocolo se utiliza con el formato DAT y en los lectores de CD.

Aplicaciones

S/PDIF, inicialmente utilizado en los lectores de CD (dispositivo desarrollado conjuntamente por


los ingenieros de Sony y Philips), ha extendido su uso a la mayoría de los dispositivos de audio
modernos; como reproductores de DVD (en sus salidas de audio), Minidisc, decodificadores
TDT, las tarjetas de sonido de los ordenadores más modernos y, en general, cualquier dispositivo
que cuente con "salida óptica". Es también muy utilizado en los sistemas de audio en los
automóviles, donde sustituye al cableado habitual de cobre por un único cable de fibra óptica,
inmune al ruido eléctrico.

Diferencias principales entre AES/EBU y S/PDIF


AES/EBU SPDIF
Cableado Par trenzado (110 Coaxial (75 ohmios) o fibra óptica
ohmios) o coaxial (75
ohmios)
Conector XLR de 3 pines o D-Sub RCA, BNC o Toslink
de 25 pines
Nivel de señal 3 a 10 V 0,5 a 1 V
Codificación BMC BMC
Información de Texto de identificación Información de protección de copia SCMS
subcódigo ASCII
Resolución máxima 24 bits 20 bits (24 bits opcionales)

Protocolo SDIF-2.
Utiliza un formato de interfaz digital Sony, con líneas desbalanceadas de 75 ohms y conectores
BNC.

Esta interfaz utiliza para transportar información tres cables coaxiales. En el primero de ellos lleva
la señal del canal izquierdo (que puede o no ser audio, recordemos que estamos en una interfaz
digital que transporta secuencias de números binarios en cualquiera de sus formas, luego por
otro cable de los tres transporta la señal del canal derecho, y por último también transporta en el
tercer cable la señal de reloj de palabra (word clock). Al ser tres cables y uno de ellos
independiente, nos encontramos con una conexión desbalanceada.

35
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Esto trae el problema de la distancia. Llegado un punto en la historia del audio digital, todos los
beneficios del mismo como sus desventajas conocidas quisieron introducirse al mundo
profesional y requiriendo grandes distancias, pero al encontrarnos con una conexión
desbalanceada esto no era posible, por lo que el protocolo requería tres cosas:

Trabajar en un único cable


Trabajar en largas distancias
Permitir la transmisión de información adicional

Con estas necesidades surge el protocolo AES que luego seguiría siendo modificado hasta llegar
a lo que hoy conocemos como AES/EBU o AES3.

Protocolo MADI.

El protocolo MADI, siglas de multichannel audio digital interface (interfaz multicanal de audio
digital), es un estándar profesional de transmisión de datos para señales de audio digital de más
de 56 canales en un solo cable. El protocolo MADI está documentado en los estándares
AES10-1991 y ANSI s4.43-1991.

Interfaz multicanal MADI AES10.

El protocolo MADI, como se define en el estándar AES10, permite la conexión de hasta 64


canales de audio (datos cuantificados linealmente) de 24 bit de resolución y hasta 196kHz de
muestreo, transmitidos en serie en un único cable de transmisión coaxial de 75 ohmios con
conectores BNC, permitiendo una transmisión a distancias mayores a 50 m y de hasta 2 km. por
fibra óptica.
Las muestras de audio pueden tener una cuantización máxima de 32 bit. Además, en este
protocolo se siguen manteniendo los bits de validez, usuario, status y paridad del AES3. MADI
permite conectar estos 64 canales de audio con un solo par de cables. La tasa binaria de datos
es de 100 Mbit/s y corresponde a una conexión sincrónica.

36
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Ejemplo de una configuración para protocolo madi.

37
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Desde hace algún tiempo, los ingenieros de sonido en vivo se están empezando a habituar a las
soluciones de conectividad con múltiples canales MADI, que es una forma fiable y relativamente
sencilla de enviar todas las señales del sistema de mezcla a un grabador multipista, o también
reproducir todas las pistas grabadas en un concierto para hacer un sound-check virtual (es
decir, sin los músicos en el escenario). Así, los computadores portátiles se están convirtiendo en
una pieza habitual en los conciertos. Sin embargo, era necesario tener una tarjeta/interfaz
ExpressCard o instalar una placa PCI directamente en el PC. Entretanto, los MacBook ya
prescinden del slot ExpressCard (porque, teóricamente la interfaz Thunderbolt permite el mismo
tipo de conexión con un adaptador), con lo que la configuración del computador se hacía
complicada. Ahora DiGiCo trae la solución con su interfaz portátil UB MADI, que se conecta
directamente a cualquier puerto USB 2.0.

La interfaz DiGiCo UB MADI puede recibir 48 canales de grabación y reproducción en cualquier


flujo MADI (AES10) o coaxial (AES EBU) estéreo.
La modalidad Plug’n’Play ofrece una demora de sólo 4 segundos para que el audio comience a
fluir por la interfaz sin necesidad de reiniciar la computadora.

Con el rendimiento del FPGA derivado del modelo SD7, su procesador dual de 500MHz y las
características del estándar USB 2.0 permite utilizar 48 canales full dúplex.

La interfaz UB MADI es compatible con todos los sistemas operativos Windows y Mac, con Intel
Core Duo o modelos superiores. Para poder grabar 48 canales a 24 bits se requiere un disco con
buen rendimiento y, por supuesto, con mínima fragmentación.

38
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx
Protocolo MIDI.

Protocolo OpenSound Control (OSC).


Open Sound Control es un protocolo de comunicaciones que permite comunicar instrumentos de
música, computadoras y otros dispositivos multimedia (por ejemplo móviles o PDA's equipados
con bluetooth) pensado para compartir información musical en tiempo real sobre una red.
Aparece como reemplazo del MIDI, siendo muy superior en características y capacidades.
Características principales del protocolo:
■ Ampliable, dinámico. Esquema de nombres simbólicos tipo URL
■ Datos numéricos simbólicos y de alta resolución
■ Lenguaje de coincidencia de patrones (pattern matching) para especificar múltiples
receptores de un único mensaje
■ Marcas de tiempo (time tags) de alta resolución.
■ Mensajes “empaquetados” para aquellos eventos que deben ocurrir simultáneamente
■ Sistema de interrogación para encontrar dinámicamente las capacidades de un servidor
OSC y obtener documentación.

39
Vya Training
victoria #86 col. Centro
www.vyatraing,com.mx

También podría gustarte