Está en la página 1de 176

AUDIO PRODUCTION

AND CRITICAL
LISTENING
Technical Ear Training

JASON COREY

Traducción: Andrés Pérez Vargas


INTRODUCCIÓN

La práctica de la ingeniería de audio es tanto un arte como una ciencia. Para


tener éxito en la producción de audio, un ingeniero idealmente debe poseer
tanto una comprensión de los conceptos teóricos como habilidades de
escucha crítica altamente desarrolladas relacionadas con la grabación y
producción de sonido. Cada proyecto de grabación tiene su propio conjunto
de requisitos y los ingenieros no pueden confiar en un conjunto de
procedimientos de grabación para cada proyecto. Como tal, deben confiar en
una combinación de conocimientos técnicos y habilidades de escucha para
guiar su trabajo.
Aunque el conocimiento técnico de la electrónica analógica, el
procesamiento de señales digitales, el análisis de señales de audio y los
aspectos teóricos del equipo de audio es fundamental para una comprensión
sólida de los principios de la ingeniería de audio, muchas de las decisiones que
se toman durante un proyecto de grabación, como la elección del micrófono y
ubicación, balance de mezcla, niveles de fader y procesamiento de la señal, se
basan únicamente en lo que se escucha. Como tal, a menudo es la capacidad
de navegar por las impresiones subjetivas del audio lo que permite a los
ingenieros mejorar con éxito la calidad del sonido.
Cada acción realizada por un ingeniero en relación con una señal de
audio tendrá algún efecto en el sonido que escucha el oyente, por sutil que
sea, y un ingeniero debe tener un oído afinado y atento a los detalles más finos
del timbre y la calidad del sonido. La mayoría de estas decisiones subjetivas
responden a los objetivos artísticos de un proyecto, y los ingenieros deben
determinar, en función de lo que escuchan, si una elección técnica está
contribuyendo o restando valor a estos objetivos. Los ingenieros necesitan
saber cómo los parámetros técnicos de los dispositivos de hardware y software
de audio afectan los atributos sónicos percibidos.
Además de poseer experiencia técnica y teórica, los ingenieros de audio
exitosos poseen la capacidad de diferenciar los detalles tímbricos, dinámicos y
técnicos del sonido. Pueden traducir sus impresiones auditivas en juicios y
alteraciones técnicas apropiadas. A veces denominados “Golden Ears”, estos
profesionales de audio altamente experimentados poseen la extraordinaria
capacidad de enfocar su atención auditiva, lo que resulta en un control
eficiente y preciso de las señales de audio. Son oyentes expertos, individuos
que poseen habilidades de escucha crítica altamente desarrolladas y que
pueden identificar detalles finos del sonido y emitir juicios consistentes sobre
lo que escuchan (Stone, 1993). Estos ingenieros experimentados identifican las
deficiencias que deben resolverse y las características que deben resaltarse en
una señal de audio.
Los ingenieros pueden desarrollar y mejorar gradualmente las
habilidades auditivas críticas con el tiempo a medida que trabajan en el campo
del audio, pero existen métodos sistemáticos que pueden acortar el tiempo
necesario para lograr un progreso significativo en el entrenamiento auditivo.
Como René Quesnel informó en su tesis doctoral, los estudiantes de grabación
de sonido que completaron un entrenamiento técnico sistemático del oído
superaron a los profesionales del audio con experiencia en tareas como
identificar la frecuencia y los ajustes de ganancia de la ecualización
paramétrica (Quesnel, 2001). Normalmente, el desarrollo de las habilidades
auditivas de un ingeniero de audio ocurre en el trabajo. Aunque alguna vez fue
común que los ingenieros principiantes trabajaran con ingenieros más
experimentados y aprendieran de ellos en el contexto de la experiencia
práctica, la industria del audio ha experimentado cambios drásticos y el
modelo de aprendiz está desapareciendo gradualmente de la práctica de la
ingeniería de audio. A pesar de esta evolución en la industria del audio, las
habilidades auditivas críticas siguen siendo tan importantes como siempre,
especialmente cuando vemos una disminución de la calidad del audio en
muchos formatos de audio de consumo. Este libro presenta algunas ideas para
desarrollar habilidades auditivas críticas y potencialmente reducir el tiempo
que lleva desarrollarlas.
Surgen una serie de preguntas a medida que comenzamos a considerar
las habilidades auditivas críticas relacionadas con la grabación y producción de
sonido:
• ¿Qué habilidades auditivas poseen los ingenieros de sonido,
productores, tonmeisters y músicos experimentados que les permitan
hacer grabaciones, mezclar sonido para películas o ecualizar sistemas de
sonido mejor que un ingeniero novato?
• ¿Qué pueden escuchar los legendarios ingenieros y productores, que
tienen habilidades extraordinarias para identificar y manipular timbres
sónicos, que la persona promedio no puede?
• ¿Cómo escuchan los profesionales del audio e identifican
consistentemente características o cambios extremadamente sutiles en
una señal de audio?
• ¿Cómo se traducen los oyentes expertos entre sus percepciones del
sonido y los parámetros de control físico disponibles para ellos?
• ¿Cómo pueden los oyentes no expertos adquirir habilidades similares,
permitiéndoles identificar los parámetros físicos de una señal de audio
necesarios para lograr un efecto de percepción deseado?
• ¿Qué aspectos específicos del sonido deberían estar atentos a los
ingenieros de audio novatos?
Se ha escrito una cantidad significativa sobre los aspectos técnicos y
teóricos del sonido, la reproducción del sonido y la percepción auditiva, pero
este libro se centra en el desarrollo de las habilidades auditivas críticas
necesarias para la práctica exitosa de la ingeniería de audio.
Para facilitar el proceso de formación, los módulos de software que
acompañan al libro permiten al lector practicar escuchando los efectos de
diferentes tipos de procesamiento de señales de audio. Los módulos de
práctica de software permiten una progresión a través de varios niveles de
dificultad y proporcionan la formación práctica necesaria en el desarrollo de
habilidades técnicas de escucha.

Atributos del audio


El objetivo principal de este libro y el software que lo acompaña es explorar la
escucha crítica en lo que respecta a los tipos típicos de procesamiento de
señales de audio. A diferencia de las habilidades auditivas musicales o el
solfeo, el entrenamiento técnico del oído se centra en los efectos sónicos de
los tipos más comunes de procesamiento de señales utilizados en los sistemas
de grabación y reproducción de sonido, como la ecualización, el
procesamiento dinámico y la reverberación. El conocimiento de los efectos
sónicos del procesamiento de señales de audio, junto con la capacidad de
discriminar entre pequeños cambios en la calidad del sonido, permite a los
ingenieros realizar cambios efectivos en el sonido reproducido según sea
necesario. Las habilidades de escucha crítica altamente desarrolladas
permiten que un ingeniero identifique no solo los efectos del procesamiento
deliberado de señales, sino también los artefactos no intencionales o no
deseados, como ruido, buzz, hum y distorsión. Una vez que se identifican estos
sonidos indeseables, un ingeniero puede trabajar para eliminar o reducir su
presencia.
El libro está organizado de acuerdo con las herramientas comunes de
procesamiento de audio disponibles para el ingeniero de audio. En este libro,
exploraremos los siguientes atributos de audio principales y dispositivos
asociados:
• Equilibrio espectral: ecualización paramétrica
• Atributos espaciales: delay y reverberación
• Control de rango dinámico: compresión / limitación y expansión
• Sonidos o cualidades de sonido que pueden restar valor a las
grabaciones: distorsión y ruido
• Puntos de corte de extractos de audio: edición de origen y destino

Objetivos del libro


Hay tres objetivos principales de este libro y software:
1. Facilitar el mapeo isomorfo de los parámetros técnicos y las cualidades
percibidas del sonido. El mapeo isomórfico es un vínculo de parámetros
técnicos y de ingeniería con atributos de percepción auditiva. Los
ingenieros deben poder diagnosticar los artefactos sónicos
problemáticos en una grabación y comprender sus causas. En audio, los
ingenieros están traduciendo entre parámetros de control físico (es
decir, frecuencia en hercios, nivel de sonido en decibelios) y la
percepción de una señal de audio (es decir, timbre, volumen).
2. Para aumentar la conciencia de las características sutiles y los atributos
del sonido, y promover una mayor capacidad para diferenciar entre
cambios mínimos en la calidad del sonido o el procesamiento de la señal.
3. Para aumentar la velocidad con la que se pueden identificar las
características del sonido, traducir entre percepciones auditivas y
parámetros de control de procesamiento de señales, y decidir qué
parámetros físicos deben cambiarse en una situación determinada.
Para lograr estos objetivos, los Capítulos 2, 3, 4 y 5 se enfocan en tipos
específicos de procesamiento de audio y artefactos: ecualización,
reverberación y delay, procesamiento dinámico y distorsión y ruido,
respectivamente.
El capítulo 2 se centra en el balance espectral de una señal de audio y
cómo influye el filtrado y la ecualización paramétrica. El balance espectral es
el nivel relativo de varias bandas de frecuencia dentro de la banda de audio
completa (de 20 a 20 000 Hz), y este capítulo se centra específicamente en los
ecualizadores paramétricos.
Las propiedades espaciales del sonido reproducido incluyen el
panorama de las fuentes, la reverberación, el eco y el delay (con y sin
retroalimentación). El Capítulo 3 examina los métodos de entrenamiento para
los atributos espaciales.
El procesamiento dinámico se usa ampliamente en música grabada. Los
efectos de procesamiento de audio, como la compresión, la limitación, la
expansión y la compuerta, ofrecen medios para esculpir las señales de audio
de formas únicas y variables en el tiempo. La compresión de rango dinámico
puede ser uno de los tipos de procesamiento más difíciles de usar para un
ingeniero principiante. En muchos algoritmos, los parámetros controlables
están interrelacionados hasta cierto punto y afectan la forma en que se usan y
se escuchan. El Capítulo 4 analiza el procesamiento dinámico y ofrece
ejercicios de práctica sobre los artefactos auditivos producidos por estos
diferentes efectos.
La distorsión se puede aplicar intencionalmente a una grabación o
elementos dentro de una grabación como un efecto, como con guitarras
eléctricas, pero los ingenieros de grabación generalmente intentan evitar la
distorsión no intencional, como la sobrecarga de una etapa de ganancia
analógica o un convertidor analógico a digital. El Capítulo 5 explora tipos
adicionales de distorsión, como la reducción de la tasa de bits y la codificación
perceptiva, así como otros tipos de artefactos sonoros que restan valor a una
grabación de sonido, a saber, ruidos extraños, clics, estallidos, buzz y hum.
El capítulo 6 se centra en los puntos de corte de los extractos de audio
e introduce un tipo novedoso de práctica de entrenamiento auditivo basado
en el proceso de edición de origen-destino. El acto de encontrar puntos de
edición también puede agudizar la capacidad de diferenciar los cambios en los
puntos de corte en el nivel de milisegundos. El módulo de software adjunto
imita el proceso de encontrar un punto de edición comparando el punto final
de un clip con el punto final de un segundo clip de música idéntica.
Finalmente, el Capítulo 7 examina las técnicas de análisis para sonido
grabado. Aunque existen tradiciones establecidas del análisis teórico de la
música, no existe un método estandarizado para analizar grabaciones desde
un punto de vista tímbrico, de calidad de sonido, de imagen espacial, estético
o técnico. Este capítulo presenta algunos métodos para analizar grabaciones
musicales y presenta algunos ejemplos de análisis de grabaciones disponibles
comercialmente.
Han habido contribuciones significativas al campo del entrenamiento
técnico del oído que aparecen en artículos de conferencias y revistas,
incluyendo "Selección y entrenamiento de sujetos para pruebas auditivas en
equipos de reproducción de sonido" de Bech (1992); "Entrenamiento versus
práctica en tareas de evaluación de atributos de audio espacial" de Kassier,
Brookes y Rumsey (2007); "Timbre Solfege: un curso de comprensión auditiva
técnica para ingenieros de sonido" de Miskiewicz (1992); “Un método para
capacitar a los oyentes y seleccionar el material del programa para las pruebas
auditivas” de Olive (1994); y "Entrenador de oído tímbrico: entrenamiento
interactivo y adaptable de las habilidades auditivas para la evaluación del
timbre" (1996). Este libro se basa en investigaciones anteriores y presenta
métodos para la práctica y el desarrollo de habilidades auditivas críticas en el
contexto de la producción de audio.
El autor asume que el lector ha completado algún estudio a nivel de
pregrado en teoría y práctica de grabación de sonido y tiene una comprensión
de los temas básicos de la teoría del audio como decibelios, ecualización,
dinámica, micrófonos y técnicas de microfoneo.

El software de acompañamiento
Debido a la naturaleza algo abstracta de la simple lectura sobre escucha crítica,
se han incluido varios módulos de software con este libro para ayudar al lector
a practicar la audición de varios tipos de procesamiento de señales que se
describen aquí. Los módulos de práctica de software que lo acompañan son
interactivos, lo que permite al usuario ajustar los parámetros de cada tipo de
procesamiento y recibir retroalimentación auditiva inmediata, imitando lo que
sucede en el estudio de grabación y mezcla. Aunque algunos de los módulos
simplemente proporcionan ejemplos de procesamiento de sonido, otros
ofrecen ejercicios que implican la coincidencia y la identificación absoluta de
los parámetros de procesamiento de oído. El beneficio de los ejercicios de
emparejamiento radica principalmente en brindar la oportunidad de confiar
completamente en lo que se escucha sin tener que traducirlo a una
representación verbal de un sonido.
El uso de grabaciones digitales para la práctica de entrenamiento
auditivo tiene una ventaja sobre las grabaciones analógicas o los sonidos
acústicos en el sentido de que las grabaciones digitales se pueden reproducir
varias veces exactamente de la misma manera. En el libro se sugieren algunas
grabaciones de sonido específicas, pero hay otras ubicaciones para obtener
muestras de sonido útiles para enfocarse en diferentes tipos de
procesamiento. Al momento de escribir este artículo, las muestras de un solo
instrumento y los stem de mezcla se pueden descargar de muchos sitios web,
como los siguientes:
http://bush-of-ghosts.com/remix/bush_of_ghosts.htm
www.freesound.org
www.realworldremixed.com/download.php
www.royerlabs.com
Además, los programas de software como Logic y GarageBand de Apple
incluyen bibliotecas de sonidos de un solo instrumento que pueden servir
como fuentes de sonido en los módulos de práctica del software.
Este libro no se enfoca en modelos específicos de software o hardware
de procesamiento de audio disponibles comercialmente, pero trata cada tipo
de procesamiento como típico de lo que se puede encontrar entre los
dispositivos y software de audio profesionales. Los módulos de procesamiento
de audio que están disponibles comercialmente varían de un modelo a otro, y
el autor siente que la capacitación discutida en este libro y aplicada en los
módulos de software sirve como un punto de partida sólido para el
entrenamiento del oído y puede extrapolarse a la mayoría de los modelos
comerciales.
Lo que este libro no intenta hacer es brindar recomendaciones para la
configuración de procesamiento de señales o técnicas de micrófono para
diferentes instrumentos o configuraciones de grabación. Es imposible tener un
enfoque único para la producción de audio, y el objetivo es ayudar al lector a
escuchar más críticamente y con más detalles para dar forma a cada grabación
individual.
Todos los módulos de software se incluyen en el CD-ROM adjunto, y las
actualizaciones del software se publicarán periódicamente en la página web
del autor: www.personal.umich.edu/~coreyja.
https://sites.google.com/a/umich.edu/jason-corey/technical-ear-
training?authuser=0
https://webtet.net/apcl/#/
Capítulo 1
LISTENING

Estamos expuestos al sonido a lo largo de cada momento de cada día sin


importar si le prestamos atención o no. Los sonidos que escuchamos nos dan
una idea no solo de sus fuentes, sino también de la naturaleza de nuestro
entorno físico que nos rodea como los objetos, paredes y estructuras. Ya sea
que nos encontremos en un entorno altamente reverberante o en una cámara
anecoica, la calidad del sonido reflejado o la falta de reflejos nos informa sobre
las propiedades físicas de nuestra ubicación. El entorno que nos rodea se
vuelve audible, incluso si no está creando sonido en sí mismo, por la forma en
que afecta el sonido, a través de patrones de reflexión y absorción.
Así como una fuente de luz ilumina los objetos que la rodean, las fuentes
de sonido nos permiten escuchar la forma general y el tamaño de nuestro
entorno físico. Debido a que estamos orientados principalmente hacia los
estímulos visuales, puede ser necesario un esfuerzo constante y dedicado para
enfocar nuestra conciencia en el dominio auditivo. Como sabe cualquiera que
trabaje en el campo de la ingeniería de audio, el esfuerzo que se necesita para
enfocar nuestra conciencia auditiva bien vale la satisfacción de adquirir
habilidades auditivas críticas. Aunque simple en concepto, la práctica de
enfocar la atención en lo que se escucha de una manera estructurada y
organizada es un desafío para lograr de manera consistente.
Hay muchas situaciones fuera de la producción de audio en las que se
pueden desarrollar las habilidades auditivas. Por ejemplo, al caminar por un
sitio de construcción, se pueden escuchar sonidos impulsivos como
martillazos. Los ecos, el resultado de esos impulsos iniciales que se reflejan en
los exteriores de los edificios cercanos, también se pueden escuchar poco
tiempo después. El momento, la ubicación y la amplitud de los ecos nos
proporcionan información sobre los edificios cercanos, incluidas las distancias
aproximadas a ellos.
Al escuchar en una gran sala de conciertos, notamos que el sonido
continúa y se desvanece lentamente después de que una fuente deja de sonar.
La degradación gradual del sonido en un gran espacio acústico se denomina
reverberación. El sonido en una sala de conciertos puede ser envolvente
porque parece provenir de todas las direcciones, y el sonido producido en el
escenario se combina con el sonido reverberante que llega de todas las
direcciones.
En una ubicación completamente diferente, como una sala de estar
alfombrada, un instrumento musical sonará notablemente diferente en
comparación con el mismo instrumento que se toca en una sala de conciertos.
Las características físicas como las dimensiones y los tratamientos superficiales
de una sala de estar determinan que sus características acústicas sean
marcadamente diferentes a las de una sala de conciertos; el tiempo de
reverberación será significativamente más corto en una sala de estar. La
proximidad relativamente cercana de las paredes reflejará el sonido hacia el
oyente en milisegundos de la llegada del sonido directo y casi con la misma
amplitud.
Esta pequeña diferencia en el tiempo de llegada y la amplitud casi igual
de sonido directo y reflejado en los oídos de un oyente crea un cambio en el
contenido de frecuencia del sonido que se escucha, debido a un filtrado del
sonido conocido como filtrado de peine. El revestimiento del piso también
puede influir en el equilibrio espectral: un piso alfombrado absorberá algunas
frecuencias altas y un piso de madera reflejará las frecuencias altas.
Al observar el paisaje sonoro circundante, el oyente puede querer
considerar preguntas como las siguientes:
• ¿Qué sonidos están presentes en un momento dado?
• Además de los sonidos más obvios, ¿hay algún sonido constante,
constante y sostenido, como el ruido de la manipulación del aire o el
zumbido de las luces, que generalmente se ignoran?
• ¿Dónde se encuentra cada sonido? ¿Son las ubicaciones claras y
distintas o difusas y ambiguas?
• ¿Qué tan lejos están las fuentes de sonido?
• ¿Qué tan ruidosos son?
• ¿Cuál es el carácter del espacio acústico? ¿Hay ecos? ¿Cuál es el tiempo
de caída de la reverberación?

Puede ser informativo analizar de forma auditiva la música


grabada que se escucha en cualquier momento, ya sea en una tienda,
club, restaurante o ascensor. Es útil pensar en preguntas adicionales en
tales situaciones:
• ¿Cómo se ve afectado el timbre del sonido por el sistema y el entorno a
través del cual se presenta?
• ¿Todos los elementos del sonido son claramente audibles? Si no es así,
¿qué elementos son difíciles de escuchar y cuáles son los más
destacados?
• Si la música le resulta familiar, ¿el balance parece el mismo que el que
se ha escuchado en otras situaciones auditivas?

La escucha activa es fundamental en la ingeniería de audio y


podemos aprovechar los momentos en los que no estamos trabajando
específicamente en un proyecto de audio para aumentar nuestra
conciencia del panorama auditivo y practicar nuestras habilidades
críticas de escucha. Caminar por la calle, sentarnos en un café y asistir a
un concierto de música en vivo nos ofrecen oportunidades para
perfeccionar nuestras habilidades auditivas y así mejorar nuestro
trabajo con el audio. Para un estudio más detallado de algunas de estas
ideas, consulte el libro de 2006 de Blesser y Salter, Spaces Speak, Are
You Listening?, donde amplían la escucha de espacios acústicos en una
exploración detallada de la arquitectura auditiva.

Los ingenieros de audio se preocupan por capturar, mezclar y dar


forma al sonido. Ya sea que grabe sonido acústico, como el de
instrumentos musicales acústicos que se reproducen en un espacio
acústico en vivo, o que cree sonidos electrónicos en un medio digital,
uno de los objetivos de un ingeniero es dar forma al sonido para que sea
más apropiado para la reproducción a través de altavoces y auriculares
y lo mejor comunica las intenciones de un artista musical. Un aspecto
importante de la grabación de sonido que un ingeniero busca controlar
es el equilibrio relativo de los instrumentos o las fuentes de sonido, ya
sea mediante la manipulación de señales de audio grabadas o mediante
la ubicación del micrófono y el conjunto. La forma en que se mezclan y
equilibran las fuentes de sonido en una grabación puede tener un efecto
tremendo en la sensación musical de una composición. El equilibrio
musical y espectral es fundamental para el impacto general de una
grabación.
A través del proceso de dar forma al sonido, no importa qué
equipo se esté utilizando o cuál sea el objetivo final, el enfoque principal
del ingeniero es simplemente escuchar. Los ingenieros necesitan
analizar constantemente lo que escuchan para evaluar una pista o una
mezcla y ayudar a tomar decisiones sobre ajustes adicionales al
equilibrio y procesamiento. Escuchar es un proceso activo, que desafía
al ingeniero a permanecer continuamente consciente de cualquier
característica, cambio o defecto percibido sutil o no tan sutil en una
señal de audio.
Desde el productor hasta el tercer ingeniero asistente, la escucha
activa es una prioridad para todos los involucrados en cualquier proceso
de producción de audio. No importa cuál sea su función, practique
pensar y escuchar los siguientes elementos en cada proyecto de
grabación:
• Timbre. ¿Hay un micrófono en particular en el lugar adecuado para una
aplicación determinada? ¿Necesita ser igualado? ¿Es apropiado el
timbre general de una mezcla?
• Dinámica. ¿Los niveles de sonido varían demasiado o no lo suficiente?
¿Se puede escuchar cada fuente de sonido a lo largo de la pieza? ¿Hay
momentos en los que una fuente de sonido se pierde o se cubre con
otros sonidos? ¿Hay alguna fuente de sonido que esté dominando a
otras?
• El balance general. ¿Tiene sentido el equilibrio de los instrumentos
musicales y otras fuentes de sonido para la música? ¿O hay demasiado
de un componente y no suficiente de otro?
• Distorsión / recorte. ¿Hay algún nivel de señal demasiado alto que cause
distorsión?
• Ruido extraño. ¿Hay un zumbido o zumbido de un cable o conexión
defectuosa o problema de tierra?
• Espacio. ¿Está bien la reverberación / delay / echo?
• Panorámica. ¿Cómo sale el balance izquierdo / derecho de la mezcla de
los altavoces?

1.1 ¿Qué es el entrenamiento técnico del oído?


Así como el entrenamiento del oído musical o el solfeo es una parte integral
del entrenamiento musical, el entrenamiento técnico del oído es necesario
para todos los que trabajan en audio, ya sea en un estudio de grabación, en
refuerzo de sonido en vivo o en el desarrollo de hardware / software de
audio. El entrenamiento técnico del oído es un tipo de aprendizaje
perceptual centrado en los atributos tímbricos, dinámicos y espaciales del
sonido en relación con la grabación y producción de audio. En otras
palabras, se pueden desarrollar habilidades de escucha mejoradas que
permitan a un ingeniero analizar y confiar en las percepciones auditivas de
una manera más concreta y consistente. Como escribió Eleanor Gibson, el
aprendizaje perceptual se refiere a “un aumento en la capacidad de extraer
información del entorno, como resultado de la experiencia y la práctica con
la estimulación que viene de ella” (Gibson, 1969). Esta no es una idea nueva
y, a través de años de trabajo con audio, los ingenieros de grabación
generalmente desarrollan fuertes habilidades auditivas críticas. Al prestar
más atención a tipos específicos de sonidos y comparar diferencias
sucesivamente más pequeñas entre sonidos, los ingenieros pueden
aprender a diferenciar las características de los sonidos. Cuando dos
oyentes, un experto y un novato, con idéntica capacidad auditiva, reciben
señales de audio idénticas, es probable que un oyente experto pueda
identificar características específicas del audio que un oyente novato no
reconocerá. A través de la práctica enfocada, un ingeniero novato
eventualmente puede aprender a identificar sonidos y cualidades de sonido
que originalmente eran indistinguibles.
Un subconjunto del entrenamiento técnico del oído incluye el
entrenamiento del oído "tímbrico" que se centra en el timbre del sonido.
Uno de los objetivos de seguir este tipo de entrenamiento es volverse más
hábil para distinguir y analizar una variedad de timbres.
El timbre se define típicamente como la característica del sonido que no es
el tono o el volumen, lo que permite al oyente distinguir dos o más sonidos.
El timbre es un atributo multidimensional del sonido y depende de una
serie de factores físicos como los siguientes:
• Contenido espectral. Todas las frecuencias presentes en un sonido.
• Equilibrio espectral. El equilibrio relativo de frecuencias individuales
o rangos de frecuencia.
• Envolvente de amplitud. Principalmente el tiempo de ataque (o
inicio) y decaimiento del sonido general, pero también el de los
armónicos individuales.
Una persona sin una formación específica en audio o música
puede distinguir fácilmente entre el sonido de una trompeta y un violín
incluso si ambos tocan el mismo tono con el mismo volumen: los dos
instrumentos suenan diferentes. En el mundo del sonido grabado, los
ingenieros a menudo trabajan con diferencias de timbre mucho más
sutiles que no son del todo obvias para un oyente casual. Por ejemplo,
un ingeniero puede estar comparando el sonido de dos
preamplificadores de micrófono diferentes o dos frecuencias de
muestreo de audio digital. En este nivel de sutileza, un oyente novato
puede no escuchar ninguna diferencia, pero es responsabilidad del
ingeniero experimentado poder tomar decisiones basadas en detalles
tan sutiles.
El entrenamiento técnico del oído se enfoca en las características
y artefactos sónicos que son producidos por varios tipos de
procesamiento de señales comúnmente usados en ingeniería de audio,
como los siguientes:
• Ecualización y filtrado
• Reverberación y delay
• Procesamiento dinámico
• Características de la imagen estéreo
También se enfoca en funciones, características y artefactos sónicos no
deseados o no deseados que pueden producirse a través de equipos
defectuosos, conexiones de equipos particulares o configuraciones de
parámetros en equipos como ruido, hum o zumbido y distorsión no lineal
involuntaria.
A través de una escucha concentrada y enfocada, un ingeniero debe
poder identificar características sónicas que pueden impactar positiva o
negativamente una mezcla de audio final y saber cómo las impresiones
subjetivas del timbre se relacionan con los parámetros de control físico. La
capacidad de concentrarse rápidamente en los detalles sutiles del sonido y
tomar decisiones sobre ellos es el objetivo principal de un ingeniero.
El proceso de grabación de sonido ha tenido un profundo efecto en el
desarrollo de la música desde mediados del siglo XX. La música se ha
transformado de una forma de arte que solo se podía escuchar a través de una
interpretación en vivo a una en la que una interpretación grabada se puede
escuchar una y otra vez a través de un medio de almacenamiento y un sistema
de reproducción. Las grabaciones de sonido pueden simplemente documentar
una interpretación musical, o pueden desempeñar un papel más activo en la
aplicación de un procesamiento de señal específico y una escultura tímbrica a
los sonidos grabados. Con una grabación de sonido estamos creando un
escenario sonoro virtual entre nuestros altavoces, en el que se ubican los
sonidos instrumentales y vocales. Dentro de este escenario virtual, los
ingenieros de grabación pueden colocar cada instrumento y sonido.
Con el entrenamiento técnico del oído, nos enfocamos no solo en
escuchar características específicas del sonido, sino también en identificar
características sonoras específicas y tipos de procesamiento que hacen que
una característica sea audible. Una cosa es poder saber que existe una
diferencia entre una grabación ecualizada y no ecualizada, pero otra muy
distinta es poder nombrar la alteración específica en términos de frecuencia
central, Q y ganancia. Así como los expertos en arte visual y diseño gráfico
pueden identificar matices y matices de color sutiles por su nombre, los
profesionales del audio deberían poder hacer lo mismo en el dominio auditivo.
Los ingenieros de sonido, los diseñadores de hardware y software y los
desarrolladores de los últimos codificadores perceptivos confían en las
habilidades auditivas críticas para ayudar a tomar decisiones sobre una
variedad de características del sonido y el procesamiento del sonido. Muchas
características se pueden medir de forma objetiva con equipos de prueba y
señales de prueba como el ruido rosa y los tonos sinusoidales.
Desafortunadamente, estas medidas objetivas no siempre brindan una imagen
completa de cómo sonará el equipo para los oídos humanos usando señales
musicales. Algunos investigadores como Geddes y Lee (2003) han señalado
que los niveles altos de distorsión no lineal medida en un dispositivo pueden
ser menos perceptibles para los oyentes que los niveles bajos de distorsión
medida, dependiendo de la naturaleza de la distorsión y los métodos de
prueba empleados. Lo contrario también puede ser cierto, ya que los oyentes
pueden percibir con fuerza niveles bajos de distorsión medida.
Este tipo de situación puede ser cierto para otras especificaciones de
audio, como la respuesta de frecuencia. Los oyentes pueden preferir un
altavoz que no tenga una respuesta de frecuencia plana a uno que sí la tenga
porque la respuesta de frecuencia es solo una medida objetiva del sonido total
producido por un altavoz. En otras áreas del diseño de productos de audio, el
ajuste final de los algoritmos de software y los diseños de hardware a menudo
lo realizan oyentes expertos. Por lo tanto, no se puede confiar únicamente en
las mediciones físicas y, a menudo, son las percepciones auditivas las que
determinan el veredicto sobre la calidad del sonido.
Los profesionales que trabajan con sonido grabado a diario comprenden
la necesidad de escuchar cambios sutiles en el sonido. Es importante saber no
solo cómo se produjeron estos cambios, sino también las formas de utilizar las
herramientas disponibles para remediar cualquier característica problemática.
1.1.1 Mapa isomorfo
Los profesionales que trabajan con sonido grabado a diario comprenden
la necesidad de escuchar cambios sutiles en el sonido. Es importante
saber no solo cómo se produjeron estos cambios, sino también las
formas de utilizar las herramientas disponibles para remediar cualquier
característica problemática. Uno de los principales objetivos de este
libro es facilitar el mapeo isomórfico de los parámetros técnicos y de
ingeniería a los atributos de percepción; para ayudar a vincular las
percepciones auditivas con el control de las propiedades físicas de las
señales de audio.
Con la tecnología de grabación de audio, los ingenieros tienen
control sobre los parámetros técnicos que corresponden a los atributos
físicos de una señal de audio, pero a menudo el principiante no tiene
claro cómo asignar una sensación percibida al control de los parámetros
objetivos del sonido. Un ecualizador paramétrico, por ejemplo,
generalmente nos permite controlar la frecuencia, la ganancia y la Q.
Estos atributos físicos, tal como están etiquetados en un dispositivo, no
tienen una correlación natural u obvia con los atributos de percepción
de una señal de audio y, sin embargo, los ingenieros los utilizan para
afectar la percepción de un oyente de una señal. ¿Cómo sabe un
ingeniero cómo suena un aumento de 6 dB a 315 Hz con una Q de 2? Sin
una amplia experiencia con ecualizadores, estos números tendrán poco
significado en términos de cómo afectan el timbre percibido de un
sonido.
Existe un isomorfismo entre los equipos de audio que se utilizan
normalmente para realizar una grabación y el tipo de sonido que un
ingeniero escucha y desea obtener. Un ingeniero puede formar vínculos
mentales entre características particulares de la calidad del sonido y
tipos específicos de procesamiento de señales o equipos. Por ejemplo,
un ingeniero de audio novato puede entender lo que significa el término
relación de compresión en teoría, pero el ingeniero puede no saber
cómo ajustar ese parámetro en un compresor para alterar
efectivamente el sonido o no entender completamente cómo cambia el
sonido cuando ese parámetro es equilibrado. Un componente
importante de la enseñanza de la ingeniería de audio es ilustrar el
mapeo entre los conceptos de ingeniería y su efecto respectivo en el
sonido que se escucha. La enseñanza de estos conceptos requiere el uso
de ejemplos de audio y también una formación específica para cada tipo
de procesamiento. El entrenamiento auditivo es tan importante como
conocer la funcionalidad del equipo disponible. Letowski, en su artículo
“Desarrollo de habilidades auditivas técnicas: solfeo de timbre” (1985),
originalmente acuñó el término solfeo de timbre para designar el
entrenamiento que tiene similitudes con el entrenamiento auditivo
musical pero que se centra en el equilibrio espectral o el timbre.
Si un ingeniero usa palabras como brillante o turbio para describir
la calidad de un sonido, no está claro exactamente qué características
físicas son responsables de una cualidad subjetiva particular; podrían ser
frecuencias específicas, resonancias, procesamiento dinámico,
reverberación artificial o alguna combinación de todos estos y más. No
hay ninguna etiqueta en un ecualizador que indique cómo afectar estos
parámetros subjetivos. Asimismo, las descripciones subjetivas por su
naturaleza no siempre son consistentes de persona a persona o entre
situaciones. Un tambor con un sonido “brillante” puede significar un
exceso de energía alrededor de 4 a 8 kHz en una situación o una
deficiencia de alrededor de 125 Hz en otra. Es difícil ser preciso con
descripciones subjetivas de sonido, pero la ambigüedad se puede
reducir si todos están de acuerdo con el significado exacto de los
adjetivos que se utilizan.
Continuando con el ejemplo, un ecualizador requiere que se elija
una frecuencia específica para realzar o cortar, pero un adjetivo verbal
elegido para describir un sonido solo puede dar una indicación imprecisa
de que la frecuencia real está en el bajo, medio o alto rango de
frecuencia. Es fundamental desarrollar un mapa interno de frecuencias
específicas para los atributos de percepción de una señal, y cómo suena
un aumento o corte en frecuencias específicas. Con la práctica, es
posible aprender a estimar la frecuencia de una deficiencia o exceso de
energía en el espectro de potencia de una señal de audio y luego
ajustarla de oído.
A través de años de práctica, los ingenieros de audio profesionales
desarrollan métodos para traducir entre sus sensaciones auditivas
percibidas y los parámetros técnicos que pueden controlar con el equipo
disponible para ellos. También desarrollan una conciencia muy afinada
de los detalles sutiles presentes en las grabaciones de sonido. Aunque
puede que no exista un lenguaje común entre los ingenieros de
grabación para describir estímulos auditivos específicos, los ingenieros
que trabajan a un nivel muy alto han ideado su propia traducción
personal entre el sonido que escuchan e imaginan y las herramientas de
procesamiento de señales disponibles. La comparación de exámenes
audiológicos entre ingenieros profesionales y novatos probablemente
no demostraría habilidades auditivas superiores en los profesionales
desde un punto de vista clínico y objetivo. Algo más está sucediendo: los
profesionales están más avanzados en su capacidad para concentrarse
en el sonido.
Idealmente, un ingeniero de grabación debería tener tanto
dominio de un estudio de grabación y su capacidad de procesamiento
de señales asociado como un músico profesional tiene el dominio de su
instrumento. Un violinista profesional sabe exactamente cuándo y
dónde colocar sus dedos en las cuerdas y exactamente qué efecto
tendrá cada movimiento de arco en el sonido producido. Hay un
conocimiento íntimo y una anticipación de un sonido incluso antes de
que se produzca. Un ingeniero de audio debe tener este mismo nivel de
conocimiento y sensibilidad de procesamiento y modelado de sonido
antes de buscar un parámetro de procesador de efectos, posición de
fader o modelo de micrófono. Es importante saber cómo va a sonar un
aumento de 3 dB a 4 kHz o un aumento en la relación de compresión
incluso antes de que se aplique a una señal de audio. Siempre habrá
ocasiones en las que una combinación única de procesamiento de señal
y opciones de equipo no será evidente de inmediato, pero es muy
ineficiente que un ingeniero adivine continuamente cómo sonarán los
tipos estándar de procesamiento de señal de estudio. Al saber de
antemano lo que tendrá un cambio de parámetro particular en la calidad
del sonido de una señal grabada, un ingeniero puede trabajar de manera
más eficiente y eficaz. Trabajando a un nivel tan alto, un ingeniero es
capaz de responder a la calidad del sonido muy rápidamente, similar a
la velocidad con la que los músicos se responden entre sí en un conjunto.
Un estudio de grabación puede considerarse como un
instrumento musical que es "tocado" por un ingeniero de grabación y
un productor. Un ingeniero tiene una participación e influencia directa
en el resultado artístico de cualquier grabación musical en la que esté
involucrada. Al ajustar los equilibrios y dar forma a los espectros, un
ingeniero enfoca la escena sónica para los oyentes, guiándolos hacia una
experiencia musicalmente satisfactoria que expresa las intenciones del
artista musical.
1.1.2 Aumento de la conciencia
El segundo objetivo del entrenamiento técnico del oído es aumentar
nuestra conciencia de los detalles sutiles del sonido y desarrollar nuestra
capacidad para discernir e identificar por minuto cambios en los
parámetros físicos. Un ingeniero o productor de grabación
experimentado puede centrar su atención en detalles del sonido que
pueden no ser evidentes para un oyente inexperto. A menudo, el
proceso de realizar una grabación de principio a fin se basa en cientos,
si no miles, de decisiones sobre aspectos técnicos de la calidad del
sonido y el timbre. Cada decisión contribuye a un proyecto terminado e
influye en otras elecciones. Estas decisiones abarcan una amplia gama
de opciones y niveles de sutileza, pero generalmente incluyen:
• Modelo de micrófono, ubicación y orientación de cada
instrumento que se está grabando.
• Modelo de preamplificador y ajustes de ganancia para cada
micrófono.
• Nivel de grabación: debe establecerse lo suficientemente alto
para reducir el ruido y el error de cuantificación, y lo
suficientemente bajo para evitar sobrecargar una etapa de
ganancia.
• Modelo de ecualizador y ajustes de parámetros de ecualización
específicos para cada señal de micrófono.
• Ruido: que puede adoptar muchas formas, pero en general es
cualquier sonido que no esté destinado a formar parte de una
grabación. Los ejemplos incluyen clics / estallidos producidos por
dispositivos electrónicos analógicos o digitales, siseo de cinta,
error de cuantificación, ruido de manejo del aire (que puede tener
la forma de un ruido sordo y, por lo tanto, no aparente de
inmediato), sonidos externos y ambientales como el tráfico y el
metro, zumbido de 50 o 60 Hz.
• Calidad tímbrica: principalmente contenido de frecuencia y
equilibrio espectral. Cada componente analógico, desde el
micrófono hasta la entrada del dispositivo de grabación, así como
cada etapa de conversión y Re-cuantificación de analógico a
digital, tendrá algún efecto en la calidad tímbrica del audio.
• Rango y procesamiento dinámicos: sonido, musical o de otro tipo,
tendrá un cierto rango de fuerte (fortissimo) a suave (pianissimo),
y este rango se puede alterar mediante el procesamiento
dinámico, como compresores y expansores.
• Equilibrar o mezclar niveles de señales de micrófono grabadas.
• Características espaciales: incluye reverberación, eco, reflejos,
delays, así como la panorámica y el posicionamiento de las
fuentes de sonido dentro de la imagen estéreo o envolvente.
Un ingeniero toma decisiones sobre estos y otros parámetros
técnicos que afectan la calidad de audio percibida y el timbre de una
señal de audio.
Puede ser tentador considerar estos cambios sutiles como
insignificantes, pero debido a que se suman para formar un todo
coherente, el efecto acumulativo hace que cada etapa sea crítica para
un proyecto terminado. Ya sea la calidad de cada componente de un
sistema de sonido o cada decisión tomada en cada etapa de un proyecto
de grabación, el efecto aditivo es notable y sustancial. Las elecciones
realizadas al principio de un proyecto que degradan la calidad del sonido
no se pueden revertir más adelante en un proyecto. Los problemas de
audio no se pueden solucionar en la mezcla y, como tal, los ingenieros
deben escuchar atentamente todas y cada una de las decisiones sobre
la ruta de la señal y el procesamiento que se toman. Al escuchar a un
nivel tan concentrado, un ingeniero puede responder a la calidad del
sonido y el timbre rápidamente y en el momento, escuchando
problemas potenciales que pueden volver a acechar un proyecto en una
etapa posterior. Para usar una analogía, los pintores usan colores de
pintura específicos y pinceladas de maneras sutiles que se combinan
para producir imágenes terminadas poderosas. De manera relacionada,
los ingenieros de grabación deben poder escuchar y concentrarse en
características sónicas específicas que, cuando se toman en su conjunto,
se combinan, mezclan y se apoyan entre sí para crear mezclas finales de
sonidos más poderosas y significativas.
1.1.3 Aumento de la velocidad de detección
Finalmente, el tercer objetivo es aumentar la velocidad con la que
podemos identificar y decidir sobre los parámetros de ingeniería
apropiados para cambiar. Una sesión de grabación y mezcla puede
ocupar una gran cantidad de tiempo, dentro de la cual se pueden
realizar cientos de ajustes sutiles y no tan sutiles. Cuanto más rápido un
ingeniero pueda localizar cualquier característica sónica que deba
cambiarse, más efectivo será un período de tiempo determinado. La
capacidad de emitir juicios rápidos sobre la calidad del sonido es
fundamental durante las sesiones de grabación y mezcla. Por ejemplo,
durante una sesión de grabación, se puede consumir un tiempo valioso
al comparar y cambiar micrófonos.
Se prevé que una mayor sensibilidad en un área de escucha crítica
(como la ecualización) facilitará una mayor conciencia y sensibilidad en
otras áreas (como la compresión y la reverberación) como resultado de
la mejora general de las habilidades de escucha. Debido a que una parte
importante de la ingeniería de audio (grabación, mezcla, masterización)
es un arte en el que no hay respuestas correctas, este libro no brinda
consejos sobre la "mejor" configuración de ecualización, compresión o
reverberación para diferentes situaciones. Lo que puede ser la
ecualización perfecta para un instrumento en una situación puede no
ser adecuado para otra. Sin embargo, lo que este libro intenta hacer es
guiar al lector en el desarrollo de habilidades auditivas que luego
ayudarán a identificar áreas problemáticas en la calidad del sonido. Un
ingeniero novato puede no darse cuenta cuando hay un problema con
la calidad del sonido o puede tener alguna idea de que hay un problema,
pero es posible que no pueda identificarlo específicamente o saber
cómo resolverlo. Las habilidades auditivas críticas altamente
desarrolladas ayudan al ingeniero a identificar las características del
timbre y la calidad del sonido de manera rápida y eficiente.
Los tipos de procesamiento de señal estándar incluyen
ecualización (paramétrica, gráfica y filtros), compresión / limitación,
expansión / compuerta, reverberación, delay, chorus, flanger y cambios
de ganancia. Dentro de cada una de estas categorías de procesamiento
de señales, se encuentran disponibles numerosas marcas y modelos a
varios rangos de precios y niveles de calidad. Si consideramos los
compresores por un momento, sabemos que varias marcas / modelos
de compresores realizan la misma función básica: hacen que los sonidos
fuertes sean más silenciosos. La mayoría de los modelos de compresores
tienen funcionalidades comunes que les otorgan características sónicas
generales similares, pero la forma exacta en que realizan la reducción
de ganancia varía de un modelo a otro. Las diferencias en la electrónica
analógica o en los algoritmos de procesamiento de señales digitales
entre los compresores crean una variedad de resultados sonoros, y cada
marca y modelo tendrá un sonido único. A través de la experiencia de
escuchar, los ingenieros aprenden que existen variaciones en la calidad
del sonido entre diferentes marcas y modelos, y elegirán un modelo
determinado debido a su calidad de sonido específica.
Es común encontrar versiones enchufables de software de
muchos dispositivos de procesamiento de señales analógicas. A
menudo, la imagen de la pantalla de un complemento que modela un
dispositivo analógico será casi idéntica a la placa frontal del dispositivo.
A veces, debido a que los dos dispositivos parecen idénticos, puede ser
tentador pensar que también suenan idénticos. Desafortunadamente,
no siempre suenan igual, pero es posible engañarse pensando que el
sonido se replica tan perfectamente como la representación visual del
dispositivo. Por lo general, la mejor opción es escuchar y determinar de
oído si los dos suenan tan similares como se ven. No siempre existe una
traducción directa entre la electrónica analógica y el código de
computadora que realiza el procesamiento de la señal digital
equivalente, y hay varias formas de crear modelos de circuitos
analógicos; por tanto, tenemos diferencias en la calidad del sonido.
Aunque cada modelo de procesamiento de señales tiene un
sonido único, es posible transferir el conocimiento de un modelo a otro
y poder utilizar un modelo desconocido de manera eficaz después de un
breve período de escucha. Así como los pianistas deben adaptarse a
cada piano nuevo que encuentran, los ingenieros deben adaptarse a las
diferencias sutiles y no tan sutiles entre los equipos que realizan una
función determinada.

1.2 Dando forma a los sonidos


Las grabaciones de música no solo pueden reconocerse por sus melodías,
armonías y estructura musicales, sino que también pueden reconocerse por
los timbres de los instrumentos creados en el proceso de grabación. A
veces, el timbre es la característica más identificativa de una grabación. En
la música grabada, un ingeniero y un productor dan forma a los sonidos que
se capturan para adaptarse mejor a una composición musical. El moldeado
del timbre se ha vuelto increíblemente importante en la música grabada, y
en su libro The Producer as Composer: Shaping the Sounds of Popular Music
(2005), Moorefield describe cómo los equipos de grabación y
procesamiento de sonido contribuyen al proceso de composición. El timbre
se ha convertido en un factor tan importante en la música grabada que se
puede utilizar para identificar una canción antes de que la tonalidad musical
o la melodía tengan tiempo de desarrollarse lo suficiente. En su artículo
titulado "Ponle nombre a esa melodía: identificación de grabaciones
populares a partir de extractos breves", Schellenberg et al. (1999)
encontraron que los oyentes podían identificar correctamente piezas
musicales cuando se les presentaban extractos de solo una décima de
segundo de duración. Se sabe que las estaciones de radio de música
popular desafían a los oyentes reproduciendo un fragmento corto
(generalmente menos de un segundo) de una grabación conocida e
invitando a los oyentes a llamar e identificar el título y el artista de la
canción. Estos extractos son demasiado cortos para indicar la progresión
armónica o melódica de la música. Los oyentes confían en el timbre o
"mezcla" de características sonoras para hacer una identificación correcta.
Levitin, en This Is Your Brain on Music (2006), también ilustra la importancia
del timbre en el sonido grabado e informa que “Paul Simon piensa en
términos de timbre; es lo primero que escucha en su música y en la música
de los demás”.
Un efecto que el estudio de grabación ha tenido en la música es que
ha ayudado a músicos y compositores a crear paisajes sonoros que son
imposibles de realizar acústicamente. Los sonidos y las imágenes sonoras
que no se podrían haber producido acústicamente son más evidentes en la
música electroacústica y electrónica en la que los sonidos se originan a
partir de fuentes puramente electrónicas o digitales en lugar de a través de
la cuerda vibrante, la membrana o el flujo de aire de un instrumento
musical convencional. No obstante, las grabaciones de instrumentos
musicales puramente acústicos se pueden alterar significativamente con
equipos de procesamiento y complementos de estudio de grabación
estándar. El procesamiento electrónico de las propiedades espectrales,
espaciales y dinámicas del sonido grabado alteran las propiedades
originales de una fuente de sonido, creando nuevos sonidos que pueden no
existir como eventos puramente acústicos.
En el proceso de grabación y mezcla, un ingeniero puede manipular
cualquier número de parámetros, dependiendo de la complejidad de una
mezcla. Muchos de los parámetros que se ajustan durante una mezcla
están interrelacionados, de modo que al alterar una pista también se
influye en la percepción de otras pistas. El nivel de cada instrumento puede
afectar toda la sensación o el enfoque de una mezcla, y un ingeniero y un
productor pueden pasar incontables horas ajustando los niveles, hasta
incrementos de un cuarto de decibelio, para crear el equilibrio correcto. Por
ejemplo, un ligero aumento en el nivel de un bajo eléctrico puede tener un
impacto significativo en el sonido y la sensación musical de un bombo o
incluso una mezcla completa en su conjunto. Cada cambio de parámetro
aplicado a una pista de audio ya sea de nivel (ganancia), compresión,
reverberación o ecualización, puede tener un efecto en la percepción de
otros instrumentos individuales y de la música en su conjunto. Debido a
esta interrelación entre los componentes de una mezcla, un ingeniero
puede desear hacer pequeños cambios y ajustes incrementales,
construyendo y esculpiendo gradualmente una mezcla.
En este punto, todavía no es posible medir todas las cualidades de
audio percibidas con las herramientas de medición física actualmente
disponibles. Por ejemplo, el desarrollo de esquemas de codificación
perceptual como MPEG-1 Layer 3, más comúnmente conocido como MP3,
ha requerido el uso de paneles de escucha de expertos para identificar
artefactos y deficiencias sónicas producidas por procesos de reducción de
datos. Debido a que la codificación perceptiva se basa en modelos
psicoacústicos para eliminar componentes de una grabación de sonido que
se consideran inaudibles, la única prueba confiable para este tipo de
procesamiento es el oído humano. Los paneles pequeños de oyentes
capacitados son más efectivos que las muestras grandes de la población en
general porque pueden proporcionar juicios consistentes sobre el sonido y
pueden enfocarse en los aspectos más sutiles de una grabación de sonido.
Estudios, como los de Quesnel (2001) y Olive oil (1994, 2001),
proporcionan una fuerte evidencia de que entrenar a las personas para
escuchar atributos específicos del sonido reproducido marca una diferencia
significativa en su capacidad para reconocer de manera consistente y
confiable las características del sonido, y también aumenta la velocidad con
la que pueden identificar correctamente estas características. Los oyentes
que han completado el entrenamiento del oído tímbrico sistemático
pueden trabajar con audio de manera más productiva y eficaz.
1.3 Configuraciones del sistema de reproducción de sonido
Antes de examinar más de cerca las técnicas y filosofías críticas de la
escucha, es importante describir cómo son algunos de los sistemas de
reproducción de sonido más comunes. Los ingenieros de grabación se
preocupan principalmente por el sonido reproducido por los altavoces,
pero también es beneficioso analizar las fuentes de sonido acústico, como
veremos en el Capítulo 7.
1.3.1 Monoaural: reproducción de sonido de un solo canal
Un solo canal de audio reproducido a través de un altavoz se denomina
típicamente monoaural o mono (Fig. 1.1). Incluso si hay más de un altavoz,
se considera monoaural si todos los altavoces producen exactamente la
misma señal de audio. Los primeros sistemas de grabación, reproducción y
transmisión de sonido usaban solo un canal de audio, y aunque este
método no es tan común como lo era antes, todavía nos encontramos con
situaciones en las que se usa. La reproducción de sonido mono crea algunas
restricciones para un ingeniero de grabación, pero a menudo es este tipo
de sistema el que utilizan los fabricantes de altavoces para la evaluación
subjetiva y las pruebas de sus productos.

1.3.2 Estéreo: reproducción de sonido de dos canales


La evolución de los sistemas monoaurales, los sistemas de reproducción de
dos canales o estéreo permiten a los ingenieros de sonido una mayor
libertad en términos de ubicación, panorámica, amplitud y amplitud de la
fuente de sonido. El estéreo es la configuración principal para la
reproducción de sonido, ya sea que se utilicen altavoces o auriculares. La
Figura 1.2 muestra las ubicaciones ideales de oyentes y altavoces para
estéreo de dos canales.
1.3.3 Auriculares
La escucha de auriculares con audio de dos canales tiene ventajas y
desventajas con respecto a los altavoces. Con auriculares de precio
modesto (en relación con el precio de altavoces de calidad equivalente), es
posible lograr una reproducción de sonido de alta calidad. Los auriculares
de buena calidad pueden ofrecer más claridad y detalles que los altavoces,
en parte porque no están sujetos a los efectos acústicos de las salas de
escucha, como los reflejos tempranos y los modos de sala. Los auriculares
también son portátiles y se pueden llevar fácilmente a otros lugares donde
las características de los altavoces y la acústica de la sala pueden resultar
desconocidas para un ingeniero.
La principal desventaja de los auriculares es que crean una
localización interna para fuentes de sonido mono. Es decir, se percibe que
los sonidos mono con panorámica central se originan en algún lugar entre
los oídos porque el sonido se transmite directamente a los oídos sin
primero doblarse o reflejarse en la cabeza, el torso y el oído externo. Para
evitar la localización interna, las señales de audio deberían filtrarse con lo
que se conoce como funciones de transferencia relacionadas con la cabeza
(HRTF). En pocas palabras, los HRTF especifican el filtrado debido a la
presencia de orejas externas (pabellón auricular), cabeza y hombros, así
como diferencias de tiempo interaural y diferencias de amplitud interaural
para una ubicación de fuente de sonido determinada. Cada ubicación en el
espacio (elevación y acimut) tiene un HRTF único y, por lo general, se
muestrean muchas ubicaciones en el espacio al medir HRTF. También vale
la pena señalar que cada persona tiene un HRTF único basado en la forma
única del oído externo, la cabeza y la parte superior del torso. El
procesamiento HRTF tiene una serie de inconvenientes, como un efecto
negativo en la calidad del sonido y el equilibrio espectral y el hecho de que
no existe un HRTF universal que funcione perfectamente para todos.
1.3.4 Recomendaciones para auriculares
En el momento de escribir estas líneas, hay varios auriculares finos en el
mercado que son perfectamente adecuados para el entrenamiento técnico
del oído. Antes de comprar auriculares, se recomienda al lector que
escuche tantos modelos diferentes como sea posible. Al comparar el sonido
de diferentes auriculares utilizando grabaciones de música que son
familiares, es posible tener una mejor idea de las fortalezas y debilidades
de cada modelo. No hay auriculares perfectos y cada modelo tendrá un
sonido ligeramente diferente. Debido a que no todos los lectores están
cerca de las tiendas minoristas que tienen audífonos de alta calidad, aquí
se hacen algunas sugerencias a diferentes precios:
• Audio-Technica ATH-M50. Este modelo es un diseño cerrado, lo que
significa que bloquea una cantidad sustancial de sonido externo o de
fondo.
• Beyerdynamic DT770 Pro. Este modelo también tiene un diseño de
espalda cerrada con un cómodo ajuste circumaural.
• Grado. Hay una serie de modelos en la línea de auriculares Grado y
todos son diseños supraaurales, lo que significa que descansan
directamente en la oreja, en lugar de ser circumaurales, que rodean
la oreja. Además, todos son auriculares abiertos, lo que significa que
no bloquean el sonido exterior y, por lo tanto, pueden no ser
apropiados para escuchar en entornos donde hay un ruido de fondo
significativo. Los auriculares Grado tienen una excelente relación
calidad-precio, especialmente para los modelos de gama baja, a
pesar de que no son los auriculares más cómodos disponibles.
• Sennheiser HD 600 y HD 650. Ambos modelos son de diseño abierto
y están en el extremo superior del rango de precios de los
auriculares. También tienen un diseño circumaural, lo que los hace
cómodos de usar.
• Sony MDR 7506 y 7509. Estos modelos de Sony se han convertido en
un estándar de la industria para la monitorización en estudio.
1.3.5 Surround: reproducción de sonido multicanal
El sonido reproducido en más de dos altavoces se conoce como
multicanal, envolvente, ambisónico o notaciones más específicas que
indican el número de canales, como 5.1, 7.1, canal 3/2 y cuadrafónico.
El audio envolvente para aplicaciones de solo música ha tenido una
popularidad limitada y todavía no es tan popular como la reproducción
estéreo. Por otro lado, las bandas sonoras envolventes para cine y
televisión son comunes en los cines y se están volviendo más comunes
en los sistemas domésticos.
Hay muchas sugerencias y filosofías sobre el número exacto y la
disposición de los altavoces para los sistemas de reproducción de sonido
envolvente, pero la configuración más aceptada entre los investigadores
de audio es la de la Unión Internacional de Telecomunicaciones (UIT),
que recomienda una disposición de altavoces de cinco canales como se
muestra en la Figura. 1.3. Los usuarios de la configuración recomendada
por la UIT generalmente también utilizan un subwoofer opcional o un
canal de efectos de baja frecuencia (LFE) conocido como canal .1, que
reproduce solo las frecuencias bajas, generalmente por debajo de 120
Hz.
Con los sistemas de sonido multicanal, hay mucha más libertad para la
ubicación de la fuente de sonido dentro del plano horizontal de 360 °
que con el estéreo. También hay más posibilidades para una simulación
convincente de inmersión dentro de un espacio acústico virtual. La
transmisión de las señales adecuadas a los canales adecuados puede
crear una sensación realista de amplitud y envolvente. Como han
demostrado Bradley y Soulodre (1995), la envolvente del oyente (LEV)
en una sala de conciertos, un componente de la impresión espacial
depende principalmente de que los reflejos laterales fuertes lleguen al
oyente 80 ms o más después del sonido directo.
También existen algunos desafíos con respecto a la localización
del sonido para ciertas áreas dentro de un área de escucha multicanal.
La panorámica de las fuentes a ambos lados (entre 30 ° y 110 °) produce
imágenes de sonido que son inestables y difíciles de localizar con
precisión. Por otro lado, la presencia de un canal central permite que los
sonidos se bloqueen en el centro de la imagen de sonido frontal, sin
importar dónde se encuentre el oyente. Cuando las fuentes se desplazan
hacia el centro con solo dos altavoces al frente (izquierdo y derecho), la
ubicación percibida de la imagen depende de la ubicación del oyente.
Resumen
En este capítulo hemos explorado la escucha activa y su importancia en
los proyectos de grabación y en la vida cotidiana. Al definir el
entrenamiento técnico del oído, también identificamos algunos
objetivos hacia los que estamos trabajando a través del libro y los
módulos de práctica del software. Terminamos dando una descripción
general aproximada de los principales sistemas de reproducción de
sonido. A continuación, pasaremos a ideas y ejercicios más específicos
centrados en la ecualización.
Capítulo 2
BALANCE Y ECUALIZACIÓN ESPECTRAL

El balance espectral se refiere al contenido de frecuencia de una señal


de audio y la potencia relativa de cada frecuencia o banda de frecuencia
en el rango audible de frecuencias, de 20 a 20,000 Hz. Una señal de
audio con un balance espectral plano representaría todas las
frecuencias en la misma amplitud relativa. A menudo, los ingenieros de
audio describen el equilibrio espectral del sonido mediante parámetros
de ecualización, ya que el ecualizador es la herramienta principal para
alterar el equilibrio espectral del sonido. Un ingeniero puede aumentar
o cortar frecuencias específicas o rangos de frecuencias con un
ecualizador para resaltar detalles de bajo nivel o para compensar
resonancias no deseadas.
En el contexto de la grabación y producción de sonido, es más
probable que un balance espectral plano signifique que todo el rango de
frecuencias en una grabación de una fuente de sonido está
representado de manera apropiada para un proyecto de grabación
dado. Sin embargo, no siempre está claro qué queremos decir con
representar todas las frecuencias "de manera adecuada". ¿Significa que
queremos que las grabaciones de instrumentos musicales suenen
idénticas a cómo suenan acústicamente? ¿Es eso posible o incluso
deseable? En la grabación de música clásica, los ingenieros
generalmente se esfuerzan por lograr cierta similitud con las
presentaciones en vivo, pero en la mayoría de los otros géneros de
música, los ingenieros están creando imágenes de sonido que no existen
en una situación de presentación en vivo. Los sonidos y timbres se crean
y dan forma en el estudio de grabación y la estación de trabajo de audio
digital, lo que hace posible llevar el sonido grabado en muchas
direcciones artísticas posibles.
Aunque el ecualizador es la herramienta principal para alterar
directamente el equilibrio espectral, casi todos los dispositivos
electrónicos por los que pasa el audio alteran el equilibrio espectral de
una señal de audio en mayor o menor medida. A veces, esta alteración
del contenido de frecuencia es necesaria y completamente intencional,
como ocurre con el uso de ecualizadores y filtros. Otras veces, un
cambio en el equilibrio espectral es mucho más sutil o casi
imperceptible, como ocurre con los diferentes tipos de
preamplificadores de micrófono. Los equipos de audio antiguos a
menudo se buscan debido a las alteraciones únicas y agradables del
equilibrio espectral de una señal de audio. Los cambios en el equilibrio
espectral a veces son causados por distorsión, lo que da como resultado
que se agreguen armónicos a una señal de audio. Los ingenieros de
audio deben poder escuchar cómo cada pieza del equipo de audio está
alterando el contenido espectral de sus señales de audio para dar forma
al timbre de cada sonido para que sea más apropiado para una situación
determinada. La capacidad de distinguir aspectos sutiles pero críticos de
la calidad del sonido proviene de la experiencia de escuchar varios tipos
de procesamiento de audio y de formar vínculos mentales entre lo que
uno escucha y los parámetros que se pueden controlar en una señal de
audio. En esencia, los profesionales del audio con experiencia son como
analizadores espectrales humanos debido a su capacidad para
identificar y caracterizar el equilibrio de frecuencia del sonido
reproducido.
Aparte del uso de ecualizadores, el equilibrio espectral también
se puede alterar hasta cierto punto mediante el procesamiento
dinámico, que cambia la envolvente de amplitud de una señal y, por
consiguiente, su contenido de frecuencia, y al mezclar una señal con una
versión retardada de sí misma, que puede producir un filtrado de peine.
Aunque ambos métodos influyen en el equilibrio espectral, nos
centraremos en los dispositivos de procesamiento de señales cuya
función principal es alterar el contenido de frecuencia de una señal.
Un ingeniero busca la ecualización y el equilibrio espectral que
mejor se adapte a la música que se esté grabando. Por ejemplo, el
balance espectral apropiado para una grabación de batería de jazz
probablemente será diferente del de una grabación de batería de rock,
y un ingeniero de grabación experimentado, al escuchar dos de estas
muestras de audio, comprende y puede identificar diferencias tímbricas
específicas entre ellas.
Para determinar la ecualización o balance espectral que mejor se
adapte a una situación de grabación dada, un ingeniero debe tener
habilidades auditivas bien desarrolladas con respecto al contenido de
frecuencia y su relación con los parámetros físicos de ecualización:
frecuencia, ganancia y Q. Cada situación de grabación requiere opciones
de ingeniería específicas, y rara vez hay recomendaciones generales
para la ecualización que sean aplicables en múltiples situaciones. Al
abordar un proyecto de grabación, un ingeniero debe estar familiarizado
con las grabaciones existentes de un género musical similar o tener
alguna idea de los objetivos tímbricos de un proyecto para informar el
proceso de decisión durante la producción.
Un ingeniero monitorea el balance espectral de las señales de
micrófono individuales, así como el balance espectral general de
múltiples señales de micrófono combinadas en cada etapa de un
proyecto de grabación. Es posible utilizar un analizador espectral en
tiempo real para tener una idea del contenido de frecuencia y el
equilibrio de una señal de audio. Un ingeniero novato puede querer
emplear un analizador espectral en tiempo real para visualizar el
contenido de frecuencia de una señal de audio y aplicar ecualización en
función de lo que ve. Los ingenieros profesionales de grabación y mezcla
no suelen medir el espectro de potencia de una señal musical, sino que
confían en su percepción auditiva del equilibrio espectral durante el
transcurso de una pieza musical.1 Desafortunadamente, los analizadores

1
Los ingenieros de sonido en vivo, por otro lado, que están afinando un sistema de sonido para una
interpretación de música en vivo, a menudo usarán analizadores espectrales en tiempo real. La diferencia es
que tienen una referencia, que a menudo es ruido rosa o una grabación, y el analizador compara el espectro
de la señal de audio original (una referencia objetiva conocida) con la salida de los altavoces. El objetivo en
esta situación es un poco diferente de lo que es para grabar y mezclar porque un ingeniero de sonido en vivo
está ajustando la respuesta de frecuencia de un sistema de sonido para que la referencia de entrada y los
balances espectrales de salida del sistema sean lo más similares posible.
en tiempo real no ofrecen una imagen lo suficientemente clara. del
contenido de frecuencia de una grabación de música para depender de
él para tomar decisiones sobre cómo aplicar la ecualización a una señal
de música. Además, no hay una indicación clara de cómo “debería”
verse el gráfico espectral porque no hay una referencia objetiva.
Las señales musicales generalmente exhiben fluctuaciones
constantes, sean grandes o pequeñas, en frecuencia y amplitud de cada
armónico y sobretono presente. Debido a la naturaleza en constante
cambio de una señal musical típica, resulta difícil obtener una lectura
clara de la amplitud de los armónicos. Tomar una instantánea de un
diagrama espectral de un momento específico en el tiempo sería más
claro visualmente, pero no brinda una visión lo suficientemente amplia
de la forma espectral general de una señal de audio a lo largo del
tiempo. La situación se complica un poco más porque con cualquier
análisis espectral objetivo existe un compromiso entre la resolución de
tiempo y la resolución de frecuencia. Con los aumentos en la resolución
de tiempo, la resolución de frecuencia disminuye mientras que la
visualización de la respuesta de frecuencia se actualiza a una velocidad
tan rápida que es difícil ver los detalles con precisión mientras se
reproduce una señal de audio. Por lo tanto, las medidas físicas
actualmente disponibles no son apropiadas para determinar qué
ecualización aplicar a una señal musical, y se debe confiar en el sistema
auditivo para tomar decisiones sobre la ecualización.

2.1 Dar forma al equilibrio espectral


2.1.1 Ecualización
En su caracterización más básica, el equilibrio espectral puede referirse
al equilibrio relativo de graves y agudos, lo que se puede controlar con
controles de tono básicos en un sistema de sonido de consumo.
Normalmente, durante el proceso de grabación de un instrumento
musical acústico, un ingeniero puede tener control directo sobre el
equilibrio espectral del sonido grabado, ya sea una sola pista de audio o
una mezcla de pistas, a través de varios métodos diferentes. Aparte de
un ecualizador, la herramienta más directa para alterar el equilibrio de
frecuencia, existen otros métodos disponibles para controlar el
equilibrio espectral de una pista de audio grabada, así como factores
indirectos que influyen en el equilibrio espectral percibido. En esta
sección discutimos cómo los ingenieros pueden alterar directamente el
equilibrio espectral del sonido grabado, así como las formas en que el
equilibrio espectral puede alterarse indirectamente durante la
reproducción del sonido.
El método deliberado más obvio de dar forma al equilibrio
espectral de una señal de audio se logra con un ecualizador o filtro, un
dispositivo diseñado específicamente para cambiar la amplitud de las
frecuencias seleccionadas. Los ecualizadores se pueden utilizar para
reducir las resonancias de frecuencia particulares en una grabación de
sonido, ya que pueden enmascarar otros componentes de frecuencia de
un sonido grabado y evitar que el oyente escuche el sonido más
verdadero de un instrumento. Además de ayudar a eliminar regiones de
frecuencia problemáticas, los ecualizadores también se pueden utilizar
para acentuar o realzar ciertas bandas de frecuencia para resaltar las
características de un instrumento o mezcla. Existe una gran cantidad de
arte en el uso de la ecualización, ya sea para un sistema de altavoces o
una grabación, y un ingeniero debe confiar en lo que se escucha para
tomar decisiones sobre su aplicación. La elección precisa de frecuencia,
ganancia y Q es fundamental para el uso exitoso de la ecualización, y el
oído es el juez final de la idoneidad de un ajuste de ecualizador.
2.1.2 Elección y ubicación del micrófono
Otro método para alterar el equilibrio espectral de una señal de audio
es a través de un micrófono. La elección del tipo y modelo de micrófono
tiene un efecto significativo en el equilibrio espectral de cualquier
sonido que se esté grabando, ya que cada marca y modelo de micrófono
tiene una respuesta de frecuencia única debido a la electrónica interna
y la construcción física. Los micrófonos son análogos a los filtros o lentes
de una cámara; Los micrófonos afectan no solo al contenido de
frecuencia general, sino también a la perspectiva y claridad del sonido
que se "capta". Algunos modelos de micrófonos ofrecen una respuesta
de frecuencia muy cercana a la plana, mientras que otros se eligen
porque decididamente no son planos en su respuesta de frecuencia. Los
ingenieros a menudo eligen micrófonos debido a sus respuestas de
frecuencia únicas y cómo la respuesta de frecuencia se relaciona con la
fuente de sonido que se está grabando.
Durante el comienzo de una sesión de grabación, un ingeniero de
grabación y un productor comparan los sonidos de los micrófonos para
decidir cuáles usar para una grabación. Al escuchar diferentes
micrófonos mientras los músicos actúan, pueden decidir qué
micrófonos tienen las características sonoras más apropiadas para una
situación determinada. La elección tomaría en cuenta las características
del instrumento o la voz de un músico, el espacio en el que están
grabando y cualquier combinación que deba ocurrir con otros
instrumentos/voces que también están siendo captadas por el
micrófono.
Además de la respuesta de frecuencia de un micrófono, su
orientación física y ubicación con respecto a una fuente de sonido
también afectan directamente el equilibrio espectral de la señal de
audio, ya que entran en juego otros factores, como la respuesta polar
del micrófono, los patrones de radiación de una fuente de sonido, y la
relación entre el sonido directo y el sonido reverberante en una
ubicación determinada dentro de un espacio acústico. La ubicación de
un micrófono en relación con un instrumento musical puede tener un
efecto directo y claro sobre el equilibrio espectral del sonido captado. El
sonido irradiado por un instrumento musical no tiene el mismo
equilibrio espectral en todas las direcciones. Por ejemplo, el sonido que
emana directamente frente a una campana de trompeta contendrá un
nivel mucho más alto de armónicos de alta frecuencia que el sonido del
lado de la trompeta. Un ingeniero puede afectar la respuesta de
frecuencia de un sonido de trompeta grabado simplemente cambiando
la ubicación de un micrófono en relación con el instrumento. En este
ejemplo, hacer que el músico apunte la campana de la trompeta
ligeramente por encima o por debajo de un micrófono dará como
resultado un sonido un poco más oscuro que cuando la trompeta apunta
directamente a un micrófono.
Más allá de las complejas características de radiación de sonido
de los instrumentos musicales, los micrófonos en sí mismos
generalmente no tienen la misma respuesta de frecuencia para todos
los ángulos de incidencia del sonido. Incluso los micrófonos
omnidireccionales, que generalmente se considera que tienen la mejor
respuesta fuera del eje, tienen alguna variación en su respuesta de
frecuencia en varios ángulos de incidencia del sonido. El simple hecho
de cambiar el ángulo de orientación de un micrófono puede alterar el
equilibrio espectral de una fuente de sonido que se está grabando.
Los micrófonos direccionales, como los patrones polares
cardioide y bidireccional, producen un mayor nivel de frecuencias bajas
cuando se colocan cerca de una fuente de sonido, en un fenómeno
conocido como efecto de proximidad o realce de graves. La respuesta de
un micrófono varía en el rango de baja frecuencia de acuerdo con su
distancia a una fuente de sonido, dentro de un rango de
aproximadamente 1 m. Es importante estar atento a los cambios en la
respuesta de baja frecuencia como resultado de los cambios en la
distancia entre un músico y un micrófono. Este efecto se puede utilizar
con ventaja para lograr frecuencias bajas prominentes al tocar un
bombo de cerca, por ejemplo.
2.1.3 Factores indirectos que afectan el equilibrio espectral
Al trabajar en la configuración del equilibrio espectral de una pista o
mezcla, hay algunos factores que tendrán una influencia indirecta en
este proceso. Debido a que no existe una conexión directa entre el
centro de procesamiento auditivo del cerebro y los datos de audio
digital o la cinta magnética analógica, los ingenieros deben tener en
cuenta que las señales de audio se alteran en la ruta de transmisión
entre una grabadora y el cerebro. Tres factores principales influyen en
nuestra percepción del equilibrio espectral de una señal de audio en la
sala de control de nuestro estudio:
• Monitores / altavoces
• Acústica de la sala
• Niveles de sonido
La Figura 2.1 ilustra la ruta de una señal de audio desde la
energía eléctrica a la acústica, destacando tres de los principales
modificadores del equilibrio espectral.

Figura 2.1 La ruta de la señal que muestra la transmisión de una señal de audio como una señal eléctrica a un altavoz
donde se convierte en una señal acústica, modificada por una sala de escucha y finalmente recibida por el oído y procesada
por el sistema auditivo. Cada etapa resalta los factores que influyen en el equilibrio espectral de una señal, tanto físico
como perceptivo, a lo largo del camino.

2.1.3.1 Monitores y altavoces


Los monitores y los altavoces son como ventanas a través de las cuales los
ingenieros perciben y, por lo tanto, toman decisiones sobre las señales de
audio grabadas. Aunque los monitores no tienen un efecto directo sobre el
balance espectral de las señales enviadas a una grabadora, cada tipo y modelo
de monitor y altavoz ofrece una respuesta de frecuencia única. Debido a que
los ingenieros confían en los monitores para juzgar el equilibrio espectral de
las señales de audio, la respuesta de frecuencia y potencia de los monitores
puede alterar indirectamente el equilibrio espectral de las señales de audio. Al
escuchar una grabación a través de monitores que tienen una respuesta de
baja frecuencia débil, un ingeniero puede tener una tendencia a aumentar las
bajas frecuencias en la señal de audio grabada. Es común que los ingenieros
verifiquen una mezcla en tres o más conjuntos diferentes de monitores y
auriculares para formarse una concepción más precisa de cuál es el verdadero
equilibrio espectral de la señal de audio. Cada modelo de altavoz dará una
impresión ligeramente diferente y, al escuchar una variedad de monitores, los
ingenieros pueden encontrar el mejor compromiso. Más allá de la respuesta
de frecuencia inherente de un altavoz, casi todos los altavoces activos incluyen
filtros incorporados ajustables por el usuario, como filtros shelving de alta y
baja frecuencia, que pueden compensar cosas como la acumulación de baja
frecuencia cuando los monitores se colocan cerca de una pared. Por lo tanto,
cualquier decisión que se tome sobre el equilibrio espectral se verá
influenciada por el efecto acumulativo de la respuesta de frecuencia inherente
de un hablante agregado a cualquier filtrado aplicado por el usuario.
Los analizadores en tiempo real pueden proporcionar alguna indicación
de la respuesta de frecuencia de un altavoz dentro de una habitación, y se
pueden usar ecualizadores para ajustar una respuesta hasta que sea casi plana.
Un punto importante a tener en cuenta es que, a menos que se mida la
respuesta de frecuencia en una cámara anecoica, la respuesta que se presenta
no es puramente la del altavoz, sino que también incluirá resonancias y reflejos
de la sala. Cualquier tipo de medición de respuesta de frecuencia objetiva
realizada en una sala de escucha o en un estudio debe promediarse en
diferentes ubicaciones en el área de escucha. Como veremos en la siguiente
sección, las resonancias de frecuencia en una habitación son prominentes en
algunos lugares y menos en otros. Al medir la respuesta de frecuencia de
diferentes ubicaciones, promediamos el efecto de las resonancias
dependientes de la ubicación.
2.1.3.2 Acústica de la sala de control y la sala de escucha
Las dimensiones, el volumen y los tratamientos de la superficie de la
habitación en la que un ingeniero supervisa las señales de audio también
tienen un efecto directo en el audio que se escucha. Grupos como la Unión
Internacional de Telecomunicaciones (UIT) han publicado recomendaciones
sobre la acústica y las características de las salas de audición. La
Recomendación UIT-R BS.1116 (UIT-R, 1997) define una serie de parámetros
físicos y acústicos que pueden aplicarse a una sala de escucha para crear una
sala acústicamente neutra. Al principio, puede parecer que una habitación
anecoica libre de modos de habitación y reflejos sería ideal para escuchar
porque la habitación será esencialmente "invisible" acústicamente, pero una
habitación libre de reflejos no nos da un entorno realista que refleje el tipo de
habitación en que normalmente escuchamos música. El sonido que se origina
en los altavoces se propaga a una habitación, se refleja en los objetos y las
paredes y se combina con el sonido que se propaga directamente al oyente. El
sonido se irradia principalmente desde la parte frontal de un altavoz,
especialmente para altas frecuencias, pero la mayoría de los altavoces se
vuelven más omnidireccionales a medida que la frecuencia disminuye. El
sonido principalmente de baja frecuencia que se irradia desde la parte
posterior y los lados de un altavoz se reflejará en la posición de escucha por
cualquier pared que pueda estar detrás del altavoz. Independientemente del
entorno en el que estemos escuchando el sonido reproducido, escuchamos no
solo los altavoces sino también la habitación. En esencia, los altavoces y el
entorno de escucha actúan como un filtro, alterando el sonido que
escuchamos.
Los modos de habitación dependen de las dimensiones de una
habitación e influyen en el equilibrio espectral de lo que se escucha de los
altavoces en una habitación. Los modos de sala son en su mayoría
problemáticos en el rango de baja frecuencia, generalmente por debajo de 300
Hz. Las frecuencias de resonancia fundamentales que ocurren en una
dimensión (modos axiales) tienen longitudes de onda que son dos veces la
distancia entre paredes paralelas. Las paredes abiertas o inclinadas no reducen
los modos de habitación; sino que las frecuencias de resonancia se basan en la
distancia media entre paredes opuestas.
Debido a que las amplitudes de las resonancias de la sala varían según
la ubicación, es importante que un ingeniero camine y escuche en diferentes
ubicaciones dentro de una sala. La posición de escucha de una habitación
puede tener un nodo de onda estacionaria a una frecuencia particular. Sin
darse cuenta de este efecto acústico de baja frecuencia, un ingeniero de
mezcla puede aumentar la frecuencia que falta con un ecualizador, solo para
darse cuenta cuando escucha en una ubicación diferente en la habitación que
el aumento de frecuencia es demasiado grande.
Si un estudio de mezcla está adjunto a una habitación adyacente que
está disponible, a los ingenieros les gusta dar un paseo hasta la segunda
habitación, dejando la puerta contigua abierta y escuchar una mezcla, ahora
esencialmente filtrada a través de dos habitaciones. Al escuchar el equilibrio
de una mezcla desde esta nueva ubicación, un ingeniero puede aprender qué
componentes del equilibrio cambian desde esta nueva perspectiva, qué
sonidos siguen siendo prominentes y cuáles se pierden. Puede resultar útil
centrarse en qué tan bien se pueden escuchar las voces o el instrumento
principal desde un lugar de escucha distante.
Otra forma común y útil de trabajar es escuchar una mezcla en un
segundo y posiblemente tercer par de parlantes y auriculares, porque cada par
de parlantes nos dirá algo diferente sobre la calidad del sonido y el balance de
la mezcla. Un conjunto de altavoces puede dar la impresión de que la
reverberación es demasiado fuerte, mientras que otro puede parecer que no
hay suficientes graves. Entre los sistemas de monitoreo disponibles, se puede
encontrar un compromiso que uno espera permita que la mezcla final suene
relativamente óptima también en muchos otros sistemas. Los ingenieros
suelen decir que una mezcla se "traduce" bien para describir qué tan
consistente permanece una mezcla cuando se escucha en varios tipos y
tamaños de altavoces. Puede haber enormes diferencias resaltadas en una
mezcla audicionada en diferentes sistemas, dependiendo de cómo se hizo la
mezcla. Una característica de una grabación bien hecha es que se traducirá
bien en una amplia gama de sistemas de reproducción de sonido, desde
minisistemas hasta sistemas de altavoces a gran escala.
2.1.3.3 Niveles de sonido y balance espectral
El nivel de sonido de un sistema de reproducción de sonido juega un papel
importante en la percepción del equilibrio espectral. Los conocidos contornos
de igual volumen de Fletcher y Munson (1933) ilustran que no solo el sistema
auditivo humano tiene una amplia variación en su respuesta de frecuencia,
sino también que esta respuesta cambia según el nivel de reproducción del
sonido. En general, el oído es menos sensible a las frecuencias bajas y altas,
pero a medida que aumenta el nivel de sonido, el oído se vuelve más sensible
a estas mismas frecuencias, en relación con las frecuencias medias. Si se
mezcla a un nivel de sonido alto, como un nivel de presión de sonido promedio
de 100 dB y luego, de repente, el nivel se reduce mucho más, a 55 dB SPL, por
ejemplo, el equilibrio espectral percibido cambiará. Habrá una tendencia a
pensar que no hay suficientes bajas frecuencias en la mezcla. Es útil escuchar
una mezcla en varios niveles de reproducción y encontrar el mejor
compromiso en el equilibrio espectral general, teniendo en cuenta las
diferencias de respuesta de frecuencia del sistema auditivo humano en
diferentes niveles de reproducción.
2.2 Tipos de filtros y ecualizadores
Ahora que hemos discutido las formas de cambiar el balance espectral
directamente, así como los factores que son responsables de alterar nuestra
percepción del sonido reproducido, es hora de enfocarnos más
específicamente en los ecualizadores. Hay diferentes tipos de ecualizadores y
filtros, como filtros de paso alto, filtros de paso bajo, filtros de paso de banda,
ecualizadores gráficos y ecualizadores paramétricos, que permiten varios
niveles de control sobre el equilibrio espectral. Los filtros son aquellos
dispositivos que eliminan un rango o banda de frecuencias, por encima o por
debajo de una frecuencia de corte definida. Los ecualizadores, por otro lado,
ofrecen la capacidad de aplicar varios niveles de realce o atenuación en
frecuencias seleccionadas.
2.2.1 Filtros: paso bajo y paso alto
Los filtros de paso alto y paso bajo eliminan las frecuencias por encima o por
debajo de una frecuencia de corte definida. Por lo general, el único parámetro
ajustable es la frecuencia de corte, aunque algunos modelos ofrecen la
capacidad de controlar la pendiente de un filtro o la rapidez con que la salida
cae más allá de la frecuencia de corte. Las figuras 2.2 y 2.3 muestran curvas de
respuesta de frecuencia para filtros de paso bajo y paso alto, respectivamente.
En la práctica, los filtros de paso alto se emplean generalmente con más
frecuencia que los filtros de paso bajo. Los filtros de paso alto pueden eliminar
el ruido de baja frecuencia de una señal, y el ingeniero se asegura de que la
frecuencia de corte se establezca por debajo de la frecuencia más baja
producida por la señal del instrumento musical.
2.2.2 Ecualizadores gráficos
Los ecualizadores gráficos permiten controlar solo la cantidad de realce o corte
para un conjunto dado de frecuencias, generalmente con controles deslizantes
verticales en el panel frontal del dispositivo. Las frecuencias disponibles para
manipulación se basan típicamente en las frecuencias centrales de la
Organización Internacional de Normalización (ISO), como las frecuencias de
octava 31,5 Hz, 63 Hz, 125 Hz, 250 Hz, 500 Hz, 1000 Hz, 2000 Hz, 4000 Hz, 8000
Hz, y 16.000 Hz. También es posible que un ecualizador gráfico tenga un mayor
número de bandas con mayor resolución de frecuencia, como frecuencias de
1/3 de octava o 1/12 de octava. El ancho de banda o Q de cada aumento o
corte a menudo está predeterminado por el diseñador del ecualizador y, en
general, el usuario no puede cambiarlo. El ecualizador gráfico recibe su
nombre del hecho de que los controles deslizantes verticales forman la forma
de la curva de ecualización desde las frecuencias bajas a la izquierda hasta las
frecuencias altas a la derecha.
2.2.3 Ecualizadores paramétricos
Un término acuñado originalmente por George Massenburg en su artículo de
la convención de la Sociedad de Ingeniería de Audio de 1972, el ecualizador
paramétrico permite un control completamente independiente y sintonizable
de tres parámetros por banda: frecuencia central, Q y cantidad de aumento o
corte en esa frecuencia. La Q es inversamente proporcional al ancho de banda
del impulso o corte y se define específicamente de la siguiente manera:
Q =Fc/ancho de banda
Fc es la frecuencia central, el ancho de banda se define como f2 - f1. Las dos
frecuencias, f1 y f2, son los puntos en los que la respuesta de frecuencia es -
3dB por debajo del aumento máximo o + 3dB por encima del corte máximo.
Las figuras 2.4 y 2.5 ilustran las respuestas de frecuencia de dos ajustes
de ecualizador paramétrico diferentes.
En la práctica, encontramos que muchos ecualizadores están limitados
en la cantidad de control que brindan. Por ejemplo, en lugar de que Q sea
completamente variable, se puede cambiar entre tres puntos discretos, como
bajo, medio y alto. La selección de la frecuencia central también puede no ser
completamente variable y, en cambio, restringir un conjunto predeterminado
de frecuencias. Además, algunos ecualizadores no permiten el control
independiente de Q y están diseñados de tal manera que Q cambia de acuerdo
con la cantidad de ganancia con un aumento / corte mínimo que da el Q más
bajo (ancho de banda más amplio) y un aumento/corte máximo que da el Q
más alto (ancho de banda más estrecho).

2.2.4 Ecualizadores Shelving


A veces son confundidos con filtros de paso bajo y paso alto, los ecualizadores
shelving se pueden usar para alterar un rango de frecuencias en la misma
cantidad. Mientras que los filtros de paso alto y bajo solo pueden eliminar un
rango de frecuencias, los ecualizadores shelving pueden realzar o atenuar en
diversos grados un rango de frecuencias. Este rango de frecuencias se extiende
hacia abajo desde la frecuencia de corte para un shelving bajo, o se extiende
hacia arriba desde la frecuencia de corte para un filtro shelving alto.
Probablemente se utilicen con mayor frecuencia como controles de tono en
sistemas de sonido domésticos o de automóviles. Los consumidores pueden
alterar el equilibrio espectral de sus sistemas de reproducción de sonido
domésticos mediante el uso de controles de tono y control de "graves" y
"agudos", que suelen ser filtros shelving con una frecuencia fija. Los filtros
shelving altos aplican una cantidad determinada de realce o cortan por igual a
todas las frecuencias por encima de la frecuencia de corte, mientras que los
filtros shelving bajos aplican una cantidad determinada de realce o cortan por
igual a todas las frecuencias por debajo de la frecuencia de corte. En el estudio
de grabación, los filtros shelving se encuentran a menudo como una opción
conmutable en las bandas de frecuencia más baja y más alta en un ecualizador
paramétrico. Algunos modelos de ecualizador también ofrecen filtros de paso
alto y paso bajo además de filtros shelving.
A continuación se muestran ejemplos de la respuesta de frecuencia de
los filtros shelving en las Figuras 2.6 y 2.7.

2.3 Introducción a la práctica


Es fundamental para los profesionales del audio tener un agudo sentido del
equilibrio espectral y cómo se relaciona con los instrumentos individuales, así
como con las mezclas generales. Los ingenieros toman decisiones sobre el
equilibrio de los elementos musicales dentro de una grabación de audio, y el
equilibrio espectral de cada elemento individual dentro de la mezcla
contribuye a su capacidad de mezclarse y "adherirse" con otros elementos
para formar una imagen sonora clara y coherente. Para ayudar a desarrollar
habilidades auditivas críticas, se incluye un módulo de software para que el
lector practique escuchar el efecto sónico de varios parámetros de
ecualización.
El uso del módulo de práctica del software de entrenamiento técnico del
oído “TETPracticeEQ” es esencial para avanzar en la precisión y velocidad de
reconocimiento de la ecualización. En la Figura 2.8 se muestra una imagen de
la interfaz de usuario y a continuación se describe la funcionalidad del
software.

La clave para practicar con cualquiera de los módulos de software es


mantener tiempos de práctica cortos pero regulares diariamente o varias
veces a la semana. En las primeras etapas, las sesiones de práctica de 10 a 15
minutos probablemente sean las mejores para evitar fatigarse demasiado.
Debido a la cantidad de energía que se requiere para escuchar con mucha
concentración, practicar durante períodos de tiempo más largos (un par de
horas o más) generalmente se vuelve contraproducente y frustrante. Con el
tiempo, a medida que se acostumbre a este tipo de escucha concentrada, es
posible que desee aumentar el tiempo del período de práctica, pero
normalmente de 45 a 60 minutos será el límite útil superior para un período
de práctica determinado. La práctica regular durante períodos más cortos de
tiempo varias veces a la semana es mucho más productiva que las sesiones de
práctica prolongadas pero menos frecuentes. Obviamente, esto podría
convertirse en un compromiso de tiempo significativo, pero tomar incluso 5
minutos al día es probablemente más efectivo que tratar de acumular una
sesión de práctica de 2 horas una vez al mes.
El software producido para los ejercicios de este libro permite al lector
practicar con ajustes de ecualización generados aleatoriamente dentro de
ciertas limitaciones elegidas por el lector. Una captura de pantalla en la Figura
2.8 muestra el módulo de software para ecualización paramétrica. El objetivo
del módulo de práctica es identificar de oído la configuración de los
parámetros de ecualización elegidos por el software. Las siguientes secciones
describen las funciones principales del software y los parámetros de usuario
disponibles.
2.3.1 Tipos de práctica
Comenzando en la esquina superior izquierda de la ventana, justo debajo del
encabezado azul, hay una opción para seleccionar uno de los cuatro tipos de
práctica: Emparejamiento, Emparejamiento de memoria, Regreso a plano e
Identificación absoluta:
• Matching. Al trabajar en el modo Matching, el objetivo es duplicar la
ecualización que ha aplicado el software. Este modo permite cambiar
libremente entre la "Pregunta" y "Su respuesta" para determinar si la
ecualización elegida coincide con la ecualización desconocida aplicada
por la computadora.
• Matching Memory. Este modo es similar al modo Matching con una
diferencia principal: una vez que se cambia la ganancia o la frecuencia,
la "Pregunta" ya no está disponible para la audición. “Pregunta” y
“Bypass” están disponibles para ser escuchados libremente antes de
realizar cualquier cambio en el ecualizador. El modo Matching Memory
nos ayuda a emparejar sonidos por memoria y puede considerarse de
moderada a muy difícil según los otros parámetros de práctica que se
elijan, como el número de bandas, el límite de tiempo y la resolución de
frecuencia.
• Return to Flat. En este modo, el objetivo es invertir o cancelar la
ecualización elegida aleatoriamente aplicada a la señal de audio por la
computadora seleccionando la frecuencia correcta y aplicando una
ganancia igual pero opuesta a la que ha aplicado el software. Es similar
en dificultad a "Matching" pero requiere pensar de manera opuesta, ya
que el objetivo es eliminar la ecualización y devolver el sonido a su
equilibrio espectral original. Por ejemplo, si escucha un aumento de 12
dB a 2000 Hz, la respuesta correcta sería aplicar un corte de 12 dB a 2000
Hz, devolviendo así la señal de audio a su estado original y sonando
idéntica a la opción "Plano". Debido a que la ecualización utilizada es
pico/caída recíproca, es posible eliminar completamente cualquier
aumento o corte de frecuencia aplicando aumentos o cortes iguales
pero opuestos a las frecuencias respectivas. Cabe señalar que, si desea
probar estos ejercicios en un contexto diferente fuera de los módulos
de práctica de software incluidos, no todos los tipos de ecualizadores
paramétricos disponibles son recíprocos pico / caída y, por lo tanto, no
serán capaces de cancelar un impulso con un igual pero corte opuesto.
Esto no es una deficiencia, sino simplemente una diferencia en el diseño.
• Identificación Absoluta. Este modo de práctica es el más difícil y el
objetivo es identificar la ecualización aplicada sin tener la oportunidad
de escuchar lo que se elige la respuesta correcta. Solo se pueden
escuchar "Bypass" (sin ecualización) y "Question" (la ecualización
elegida al azar por la computadora).
2.3.2 Resolución de frecuencia
Hay dos resoluciones de frecuencia entre las que puede elegir:
• 1 octava: la más fácil de las dos opciones con 9 frecuencias posibles
• 1/3 de octava: el más difícil con 25 frecuencias posibles
Las frecuencias corresponden a las frecuencias de la Organización
Internacional de Normalización (ISO) que son comunes en todos los
ecualizadores gráficos disponibles comercialmente, como se enumera en la
Tabla 2.1. El software elige aleatoriamente entre estas frecuencias para aplicar
ecualización a la señal de audio. Los ejercicios que utilizan una resolución de
frecuencia de un tercio de octava son previsiblemente más difíciles que
aquellos con frecuencias de una octava. La lista de frecuencias de tercio de
octava incluye todas las frecuencias de octava con la adición de dos
frecuencias entre cada par de frecuencias de octava.
Es fundamental trabajar con frecuencias de octava hasta que se
destaque en la identificación de las nueve frecuencias de octava. Una vez que
estas frecuencias se solidifican, pueden comenzar los ejercicios con
frecuencias de tercio de octava. Las frecuencias de octava deben parecer
anclas sólidas en el espectro alrededor de las cuales puede identificar
frecuencias de tercio de octava.
Una estrategia clave para identificar frecuencias de tercio de octava es
identificar primero la frecuencia de octava más cercana. Con base en un
conocimiento sólido de las frecuencias de octava, puede identificar si la
frecuencia en cuestión es de hecho una de las frecuencias de nueve octavas.
Si la frecuencia en cuestión no es una frecuencia de octava, puede determinar
si está por encima o por debajo de la frecuencia de octava más cercana.

Por ejemplo, aquí hay dos frecuencias de octava específicas (1000 Hz y


2000 Hz) con las respectivas frecuencias vecinas de tercio de octava:

2500 Hz: vecino superior


2000 Hz: ancla de frecuencia de octava
1600 Hz: vecino inferior
1250 Hz: vecino superior
1000 Hz: ancla de frecuencia de octava
800 Hz: vecino inferior
2.3.3 Número de bandas
Puede elegir trabajar con una, dos o tres bandas de frecuencia. Esta
configuración se refiere al número de frecuencias simultáneas que se ven
afectadas en una pregunta determinada. Cuantas más bandas de frecuencia
simultáneas se elijan, más difícil será la pregunta. Es importante trabajar con
una banda de frecuencia hasta que se sienta cómodo con las frecuencias de
octava y tercio de octava. Pasar a dos o tres bandas es mucho más difícil y
puede resultar frustrante si no se desarrolla la confianza en una sola banda.
Cuando se trabaja con más de una banda a la vez, puede resultar
confuso saber qué frecuencias se han alterado. La mejor manera de trabajar
con dos o tres bandas es identificar primero la frecuencia más obvia y luego
comparar su respuesta con la pregunta del ecualizador. Si la frecuencia elegida
coincide de hecho con una de las frecuencias de la pregunta, esa frecuencia en
particular será menos notoria al cambiar entre la pregunta y su respuesta, y
las frecuencias restantes serán más fáciles de identificar. El software puede
aceptar las frecuencias en cualquier orden. Cuando se trabaja con menos de
tres bandas de frecuencia, solo están activos los faders del ecualizador más a
la izquierda.
2.3.4 Rango de frecuencia
Podemos limitar el rango de frecuencias comprobables desde el rango
completo de 63 Hz a 16,000 Hz a un rango tan pequeño como tres octavas. Se
anima a los usuarios a limitar el rango de frecuencia en las etapas iniciales a
solo tres frecuencias en el rango medio, como de 500 a 2000 Hz. Una vez que
se dominan estas frecuencias, el rango se puede expandir una octava a la vez.
Después de trabajar en el rango completo de frecuencias, es posible que
queden algunas frecuencias que aún le causan problemas. Por ejemplo, las
frecuencias bajas (en el rango de 63 Hz a 250 Hz) a menudo son más difíciles
de identificar correctamente cuando se practica con grabaciones de música,
especialmente con frecuencias de tercio de octava. Este rango de baja
frecuencia puede plantear problemas debido a una serie de posibles
condiciones. Primero, las grabaciones de música no siempre contienen niveles
consistentes en el rango de baja frecuencia. En segundo lugar, es posible que
el sistema de reproducción de sonido que está utilizando no sea capaz de
producir frecuencias muy bajas. En tercer lugar, si reproduce con precisión las
frecuencias bajas, los modos de sala (frecuencias resonantes dentro de una
sala) pueden estar interfiriendo con lo que oye. El uso de auriculares puede
eliminar cualquier problema causado por los modos de habitación, pero es
posible que los auriculares no tengan una respuesta de frecuencia plana o que
tengan una respuesta de baja frecuencia débil. Para obtener recomendaciones
sobre modelos de auriculares específicos, consulte la Sección 1.3.3.
2.3.5 Combinación de ganancia
La opción de combinación de ganancia se refiere a las posibles ganancias
(refuerzo o corte) que se pueden aplicar a una frecuencia determinada. Para
cada pregunta, el software elige aleatoriamente un aumento o corte (si hay
más de una posible ganancia) de la combinación de ganancia seleccionada y la
aplica a una frecuencia seleccionada al azar. Cuando solo hay una ganancia
posible, la ganancia saltará automáticamente a la ganancia apropiada cuando
se elija una frecuencia.
Como era de esperar, los cambios más grandes en la ganancia (12 dB)
son más fáciles de escuchar que los cambios más pequeños en la ganancia
(3dB). Los aumentos suelen ser más fáciles de identificar que los recortes, por
lo que es mejor comenzar con aumentos hasta que uno se vuelva competente
en su identificación. Es difícil identificar algo que se ha eliminado o reducido,
pero al cambiar de la versión ecualizada a la derivación, es posible escuchar la
frecuencia en cuestión reaparecer, casi como si se hubiera elevado por encima
de lo normal.
Cuando se trabaja con una banda y una combinación de ganancia que
incluye un realce y un corte, como +/- 6 dB, es posible que un corte bajo se
pueda confundir con un realce alto y viceversa. Una sensibilidad a los cambios
relativos en la respuesta de frecuencia puede hacer que un corte en el rango
de baja frecuencia suene como un impulso en el rango de alta frecuencia.
2.3.6 Q
La Q es un parámetro estático para cualquier ejercicio. La configuración
predeterminada de Q = 2 es el mejor punto de partida para todos los ejercicios.
Las Q más altas (ancho de banda más estrecho) son más difíciles de identificar.
2.3.7 Fuente de sonido
La práctica se puede realizar con ruido rosa, que se genera internamente en el
software, o con cualquier archivo de sonido de dos canales en formato AIFF o
WAV a velocidades de muestreo de 44,100- o 48,000 Hz. Promediado a lo largo
del tiempo, el ruido rosa tiene la misma potencia por octava, y su espectro de
potencia aparece como una línea plana cuando se grafica logarítmicamente.
También suena igualmente equilibrado de frecuencias bajas a altas porque el
sistema auditivo es sensible a las relaciones de octava (logarítmicas) entre
frecuencias en lugar de diferencias lineales. El rango de 20 a 40 Hz representa
una octava (una duplicación de la frecuencia) pero una diferencia de solo 20
Hz, mientras que el rango entre 10,000 Hz y 20,000 Hz también es una octava
pero una diferencia de 10,000 Hz. El sistema auditivo percibe ambos rangos
como el mismo intervalo: una octava. En ruido rosa, ambos rangos de octava
(20 a 40 Hz y 10,000 a 20,000 Hz) tienen la misma potencia. Al usar una señal
de audio que tiene la misma potencia en todo el espectro, podemos estar
seguros de que un cambio en una frecuencia probablemente será tan audible
como un cambio en cualquier otra frecuencia.
También existe la opción de escuchar la fuente de sonido en mono o
estéreo. Si un archivo de sonido cargado contiene solo una pista de audio (en
lugar de dos), la señal de audio se enviará solo por la salida izquierda. Al
presionar el botón mono, el audio se enviará a los canales de salida izquierdo
y derecho.
Es mejor comenzar con ruido rosa al comenzar cualquier ejercicio nuevo
y luego practicar con grabaciones de varios géneros e instrumentos. Cuanto
mayor sea la variedad de grabaciones de sonido utilizadas, más capaz será de
transferir las habilidades obtenidas en estos ejercicios a otras situaciones
auditivas.
2.3.8 Selección de ecualizador
En el software de la práctica, una señal de audio (ruido rosa o señal de archivo
de audio) se enruta a tres lugares:
• Directo sin ecualización, bypassed
• A través del ecualizador "Pregunta" elegido por la computadora
• A través del ecualizador de usuario ("Su respuesta")
Podemos seleccionar cuál de estas opciones audicionar. La selección de
Bypass nos permite escuchar la señal de audio original sin aplicar ninguna
ecualización. La selección denominada “Pregunta” nos permite escuchar la
ecualización que ha sido elegida aleatoriamente por el software y aplicada a la
señal de audio. La selección denominada “Su respuesta” es la ecualización
aplicada por el usuario, de acuerdo con los parámetros que se muestran en la
interfaz de usuario. Consulte la Figura 2.9, que muestra un diagrama de
bloques del módulo de práctica.

Figura 2.9 Un diagrama de bloques de la ruta de la señal para el módulo de práctica del entrenador del oído técnico para
la ecualización paramétrica.

2.3.9 Control de archivos de sonido


La sección Control de archivos de sonido de la interfaz incluye una pantalla de
forma de onda de la señal de audio. Puede seleccionar extractos del archivo
de audio completo haciendo clic y arrastrando la forma de onda. El archivo de
audio se repite automáticamente una vez que llega al final del archivo o al final
de la sección seleccionada. Simplemente haciendo clic en la forma de onda, la
forma de onda se selecciona desde la ubicación del clic hasta el final del
archivo.
2.3.10 Límite de tiempo
En el estudio de grabación o lugar de sonido en vivo, el tiempo es esencial. Los
ingenieros a menudo deben tomar decisiones rápidas y precisas sobre la
calidad del sonido y el procesamiento de la señal de audio. Para ayudar a
prepararse para estas situaciones del mundo real, se puede aplicar un límite
de tiempo en el módulo de práctica para que pueda practicar la identificación
de parámetros de ecualización con velocidad y precisión.
Los atajos de teclado incluidos en el software son ideales para indicar
rápidamente las respuestas cuando se usa el temporizador. Al trabajar en
ejercicios con más de una banda de frecuencia, la tecla de tabulación recorre
las bandas. Las flechas arriba / abajo se pueden usar para aumentar o disminuir
las frecuencias de octava. Alternativamente, las teclas numéricas
corresponden a frecuencias de octava (0 = 20 Hz, 1 = 63 Hz, 2 = 125 Hz, 3 = 250
Hz, 4 = 500 Hz, 5 = 1000 Hz, 6 = 2000 Hz, 7 = 4000 Hz, 8 = 8000 Hz y 9 = 16,000
Hz) y se puede usar para saltar a una frecuencia de octava inmediatamente.
Las flechas izquierda / derecha ajustan la ganancia de una banda seleccionada
en incrementos de 3 dB. Para ejercicios con solo una opción de ganancia (por
ejemplo, + 12dB), la ganancia se establece automáticamente cuando el control
deslizante de frecuencia se cambia de 20 Hz a cualquier otra frecuencia.
Regresar el control deslizante de frecuencia a 20Hz restablece la ganancia a
0dB. Para ejercicios con más de una opción de ganancia (p. Ej., +/- 12dB), la
ganancia permanece en 0dB hasta que el usuario la ajusta; no cambia
automáticamente cuando se cambia la frecuencia.
A veces, un límite de tiempo es útil porque nos obliga a responder con
nuestra primera impresión en lugar de dedicar demasiado tiempo a pensar y
repensar. Los ingenieros de grabación novatos que han pasado tiempo con el
módulo de práctica a menudo han informado que pensar demasiado en una
pregunta produce errores y que sus primeras impresiones suelen ser las más
precisas.
2.3.11 Atajos de teclado
• [barra espaciadora] alterna la selección del ecualizador según el tipo de
práctica:
o Matching: alterna entre Pregunta y Su Respuesta
o Matching Memory: alterna entre Pregunta y Su Respuesta, hasta
que se cambie un parámetro en el que se alterna entre Bypass y
Tu Respuesta
o Return to Flat: alterna entre Your Response y Derivación
o Identificación absoluta: alterna entre Pregunta y Bypass

• [enter] o [return] verifica la respuesta y pasa a la siguiente pregunta


• [q] escuchar Bypass
• [w] escucha la pregunta
• [e] escuche su respuesta
• Los números del 1 al 9 corresponden a frecuencias de octava de una
banda seleccionada (por ejemplo, 1 = 63 Hz, 2 = 125 Hz, 3 = 250 Hz, 4 =
500 Hz, 5 = 1000 Hz, 6 = 2000 Hz, 7 = 4000 Hz , 8 = 8000 Hz, 9 = 16 000
Hz)
• Las flechas arriba / abajo cambian la frecuencia de la banda seleccionada
• Las flechas izquierda / derecha cambian la ganancia de la banda
seleccionada
• [tabulador] selecciona la banda de frecuencia para modificar, si el
número de bandas es más de uno
• [esc] apaga el audio

2.4 Trabajar con el módulo de práctica EQ


Al abrir por primera vez el módulo de práctica de EQ, seleccione ruido rosa en
la Selección de monitor, encienda el audio y ajuste el nivel de salida a un nivel
de escucha cómodo. Asegúrese de que la selección del ecualizador esté
configurada en Your Response y desplácese por cada frecuencia de octava para
sentir el sonido de cada frecuencia. Una vez que cambie la frecuencia, la
ganancia saltará automáticamente a 12dB; esta es la configuración de
combinación de ganancia predeterminada al abrir el módulo de software.
Cambie entre Bypass (sin ecualización) y Your Response para comparar el
cambio en el timbre que se crea mediante un impulso en cada frecuencia.
Inicialmente, dedique algún tiempo a escuchar varias frecuencias, alternando
entre planas y ecualizadas. Después de familiarizarse con cómo suenan las
frecuencias de octava con ruido rosa, cargue un archivo de sonido y haga lo
mismo nuevamente, escuchando todas las frecuencias de octava.
Cuando escuche un archivo de sonido, comience a tomar nota de qué
instrumentos o componentes de sonidos de instrumentos se ven afectados por
cada frecuencia de octava en particular. Por ejemplo, 125 Hz pueden resaltar
los armónicos bajos en una caja o bajo. En el extremo superior del espectro, 8
kHz pueden producir armónicos de platillos nítidos. Si está escuchando una
grabación de conjunto barroco, puede encontrar que un aumento a 8 kHz hace
que un clavecín sea más prominente. Los aumentos en frecuencias específicas
a veces pueden sacar instrumentos individuales en una mezcla y, de hecho, los
ingenieros de masterización expertos utilizan esta capacidad para
proporcionar un reequilibrio sutil de una mezcla.
Cada grabación se verá afectada de forma ligeramente diferente por una
frecuencia determinada, incluso con instrumentación comparable.
Dependiendo del contenido de frecuencia y el balance espectral de cada
instrumento individual en una grabación, el efecto de un ajuste de ecualizador
será algo diferente de una mezcla a otra. Esta es una de las razones por las que
un ingeniero debe estar atento a lo que se requiere en cada grabación
individual, en lugar de confiar simplemente en lo que pudo haber funcionado
en grabaciones anteriores. Por ejemplo, el hecho de que un corte a 250 Hz
haya funcionado en un tambor en una grabación no significa que funcionará
en todas las grabaciones del tambor.
A veces, durante el proceso de grabación y mezcla, podemos
encontrarnos evaluando y cuestionando nuestras decisiones de
procesamiento y mezcla basadas en la lógica de lo que parece correcto desde
un punto de vista numérico. Por ejemplo, digamos que aplicamos un corte de
20 dB a 300 Hz en un instrumento individual. Puede haber la tentación de
evaluar la cantidad de ecualización y pensar que 20dB es demasiado, basado
en lo que parecería razonable (es decir, pensar para nosotros mismos, "Nunca
he tenido que hacer esto antes y parece una configuración extrema, así que
¿cómo puede ser correcto? ”) en lugar de lo que suena razonable. La valoración
de una decisión en función de lo que creemos adecuado no siempre coincide
con lo que claramente suena más apropiado. Al final, no importa cuán ridícula
pueda parecer una decisión de procesamiento de señal o mezcla siempre que
el resultado sonoro se adapte a la visión artística que tenemos para un
proyecto. Como ingeniero, podemos tener un efecto directo sobre la
impresión artística creada por la música grabada dependiendo de opciones
como el equilibrio y los niveles de mezcla, el timbre, la dinámica y el
procesamiento espacial. Los juicios sobre lo que es apropiado y adecuado
deben hacerse de oído sin juzgar los números de parámetros reales que se
eligen.
2.4.1 Sonidos de vocales
Varios investigadores han observado que asociar sonidos vocales específicos
con frecuencias de octavas puede ayudar a los oyentes a identificar
frecuencias debido a las frecuencias formantes presentes en cada sonido vocal
(Letowski, 1985; Miskiewicz, 1992; Opolko y Woszczyk, 1982; Quesnel, 2001;
Quesnel y Woszczyk, 1994; Slawson, 1968). Los siguientes sonidos de vocales
corresponden aproximadamente a frecuencias de octava:
• 250 Hz [u] como en boot
• 500 Hz [o] como en tow
• 1000 Hz [a] como en father
• 2000 Hz [e] como en bet
• 4000 Hz [i] como en beet
Hacer coincidir las resonancias de frecuencia con sonidos de vocales
específicos puede ayudar con el aprendizaje y la memoria de estas frecuencias
particulares. En lugar de intentar pensar en un número de frecuencia, a
algunos lectores les resultará útil hacer coincidir el sonido que están
escuchando con un sonido de vocal. El sonido de la vocal se puede vincular a
una frecuencia de octava específica.
2.5 Grabaciones recomendadas para la práctica
La siguiente lista identifica algunas grabaciones disponibles comercialmente
de varios géneros que son adecuadas para su uso como fuentes de sonido en
el módulo de práctica del software EQ. Representan ejemplos de grabaciones
de alta calidad que tienen un buen equilibrio espectral en un amplio rango de
frecuencias. Deben utilizarse versiones de calidad de disco compacto (es decir,
modulación de código de pulso lineal digital 44,1 kHz, AIFF o WAV de 16 bits)
para todos los ejercicios. Las versiones codificadas (como MP3, Windows
Media Audio o Codificación de audio avanzada) nunca deben usarse para
ejercicios de ecualización, incluso si se han convertido nuevamente a PCM.
Una vez que un archivo de audio ha sido codificado por percepción, su calidad
se ha degradado y no se puede recuperar convirtiéndolo de nuevo a PCM
lineal.
Anderson, Arild. (2004). “Straight” from The Triangle. ECM Records. (jazz
piano trio)
Blanchard, Terence. (2001). “On the Sunny Side of the Street” from Let’s
Get Lost. Sony. (jazz with vocals)
Earth, Wind & Fire. (1998). “September” from Greatest Hits. Sony. (R&B
pop)
Hellendaal, Pieter. (1991). “Concerto II—Presto” from 6 Concerti Grossi.
Perf. The European Community Baroque Orchestra. Channel Classics. (Baroque
orchestra)
Le Concert des Nations. (2002). “Marche pour la cérémonie” from
Soundtrack from the film Tous les matins du monde. Alia Vox Spain. (Baroque
orchestra)
Randall, Jon. (2005). Walking Among the Living. Epic/ Sony BMG Music
Entertainment. (roots music/bluegrass)
Steely Dan. (2000). “Gaslighting Abbie” from Two Against Nature. Giant
Records. (pop)
The Police. (1983). “Every Breath You Take” from Synchronicity. A&M
Records. (rock)
También hay algunos artistas que están haciendo que los tracks
multipista estén disponibles para su compra o descarga gratuita. GarageBand
y Logic de Apple también ofrecen grabaciones de instrumentos solistas que
pueden resultar útiles con el software.
Resumen
La ecualización es una de las herramientas más importantes de cualquier
ingeniero de audio. Es posible aprender a identificar resonancias y
antiresonancias de oído a través de la práctica. El módulo de práctica de
software incluido puede servir como una herramienta eficaz para el progreso
en el entrenamiento técnico del oído y la escucha crítica cuando se utiliza para
una práctica regular y constante.
Capítulo 3
ATRIBUTOS ESPACIALES Y REVERBERACIÓN

La reverberación se utiliza para crear distancia, profundidad y amplitud en las


grabaciones, ya sea que se capturen con micrófonos durante el proceso de
grabación o se agreguen más tarde durante la mezcla. En la grabación de
música clásica, los ingenieros se esfuerzan por lograr una representación
bastante natural de un conjunto musical en un escenario en un espacio de
actuación reverberante. En este tipo de grabación, los micrófonos se colocan
para capturar el sonido directo que llega directamente de los instrumentos, así
como el sonido indirecto reflejado desde un recinto circundante (paredes,
techo, piso, asientos). Los ingenieros buscan lograr un equilibrio apropiado de
sonido directo e indirecto ajustando las ubicaciones y ángulos de los
micrófonos.
El pop, el rock, la electrónica y otros estilos de música que utilizan
predominantemente instrumentos eléctricos y sonidos generados por
computadora no se graban necesariamente en espacios acústicos
reverberantes. Más bien, a menudo se crea una sensación de espacio presente
mediante el uso de reverberación artificial y delays, después de que la música
se ha grabado en un espacio acústico relativamente seco. La reverberación y
el delay artificiales se utilizan tanto para imitar espacios acústicos reales como
para crear espacios sonoros completamente antinaturales.
El delay y la reverberación ayudan a crear una sensación de profundidad
y distancia en una grabación, lo que ayuda a colocar algunas fuentes de sonido
más lejos (es decir, eclipsarlas) mientras que otros elementos menos
reverberantes permanecen al frente de un escenario de sonido de imagen
fantasma. Un ingeniero no solo puede hacer que los sonidos parezcan más
lejanos y crear la impresión de un espacio acústico, sino que también puede
influir en el carácter y el estado de ánimo de una grabación musical con un uso
cuidadoso de la reverberación. Además del control de profundidad y distancia,
la ubicación angular de las fuentes de sonido se controla a través del paneo de
amplitud. Cuando escucha por los altavoces, un ingeniero tiene esencialmente
dos dimensiones dentro de las cuales controlar la ubicación de una fuente de
sonido: distancia y ubicación angular (azimuth).
En conjunto, podemos considerar las propiedades de la ubicación de la
fuente de sonido dentro de un espacio acústico simulado, las cualidades de un
espacio acústico simulado, así como la coherencia y la continuidad espacial de
una imagen sonora colectivamente como los atributos espaciales de una
grabación.

3.1 Análisis de los atributos espaciales percibidos


El sistema auditivo extrae información sobre los atributos espaciales de una
fuente de sonido, ya sea que la fuente sea un instrumento musical acústico o
una grabación de un instrumento musical reproducido por altavoces. Los
atributos espaciales ayudan a determinar con distintos niveles de precisión el
azimut, la elevación y la distancia de las fuentes de sonido, así como la
información sobre el entorno o el recinto en el que se producen. El sistema
auditivo binaural se basa en las diferencias de tiempo interaural, las
diferencias de intensidad interaural y el filtrado por el pabellón auricular o el
oído externo para determinar la ubicación de una fuente de sonido (Moore,
1997). El proceso de localización de imágenes de sonido reproducidas por
altavoces es algo diferente de la localización de fuentes acústicas individuales,
y en este capítulo nos concentraremos en los atributos espaciales que son
relevantes para la producción de audio y, por tanto, la reproducción de sonido
por altavoces.
Los atributos espaciales incluyen el diseño percibido de las fuentes en
una imagen de sonido, las características del entorno acústico en el que se
colocan, así como la calidad general de una imagen de sonido producida por
los altavoces. Es fundamental para un ingeniero de grabación tener un sentido
altamente desarrollado para cualquier procesamiento espacial ya presente o
agregado a una grabación. Los efectos de panorama y espaciales tienen un
gran efecto sobre el equilibrio y la combinación de elementos en una mezcla,
lo que a su vez influye en la forma en que los oyentes perciben una grabación
musical. Por ejemplo, el uso de un tiempo de reverberación más largo puede
crear drama y emoción en una grabación de música al crear la impresión de
que la música emana de un gran espacio. Alternativamente, con el uso de
tiempos de reverberación cortos, un ingeniero puede crear una sensación de
intimidad o crudeza en la música.
La disposición espacial de las fuentes en una imagen de sonido puede
influir en la claridad y la cohesión de una grabación, ya que el
enmascaramiento espacial juega un papel en el resultado percibido.
Ocasionalmente, el uso de la reverberación en una grabación densa sonora
puede parecer inaudible o al menos difícil de identificar porque se mezcla y
está parcialmente enmascarado por el sonido directo. Al mezclar una pista con
una pequeña cantidad de reverberación, hay ocasiones en las que es útil
silenciar y reactivar cualquier reverberación adicional para escuchar su
contribución a una mezcla.
Al considerar los parámetros disponibles en la reverberación artificial,
como el decay time, el tiempo de predelay y las reflexiones tempranas,
también debemos tener en cuenta las impresiones subjetivas del
procesamiento espacial a medida que traducimos entre parámetros
controlables y sus resultados sónicos. Por ejemplo, normalmente no hay un
parámetro etiquetado como "distancia" en un procesador de reverberación,
por lo que si queremos hacer una fuente de sonido más distante, necesitamos
controlar la distancia indirectamente ajustando los parámetros de una manera
coordinada hasta que tengamos el sentido deseado de distancia. Un ingeniero
debe traducir entre parámetros objetivos de reverberación para crear la
impresión subjetiva deseada de la ubicación de la fuente y el entorno acústico
simulado. Es difícil separar el control de la distancia de la fuente de sonido de
la simulación de un entorno acústico, porque una parte integral del control de
la distancia es la creación de un escenario sonoro percibido dentro de una
mezcla, un entorno virtual del que parecen emanar los sonidos musicales.
La elección de los ajustes de los parámetros de reverberación depende
de varios factores, como la naturaleza de la transiente y el ancho de una fuente
de sonido seca, así como las características de caída y reflexión temprana de
un algoritmo de reverberación. Los ingenieros profesionales a menudo
identifican cualidades subjetivas de cada reverberación que los acercan a sus
objetivos específicos para cada mezcla en lugar de simplemente elegir ajustes
de parámetros que funcionaron en otras situaciones. Una combinación
particular de ajustes de parámetros para una fuente y reverberación
generalmente no se puede duplicar simplemente para obtener un efecto de
distancia y amplitud idéntico con una fuente o reverberación diferente.
Podemos beneficiarnos del análisis de propiedades espaciales desde
perspectivas objetivas y subjetivas, porque las herramientas tienen
parámetros objetivos, pero nuestro objetivo final en la grabación es lograr una
gran mezcla de sonido, no identificar configuraciones de parámetros
específicos. Al igual que con la ecualización, debemos encontrar formas de
traducir entre lo que escuchamos y los parámetros disponibles para el control.
Los atributos espaciales se pueden dividir en las siguientes categorías y
subcategorías:
• Colocación de fuentes de sonido directo / seco
• Características de los espacios acústicos y los escenarios sonoros de
imagen fantasma
• Características de una imagen sónica general producida por altavoces

3.1.1 Fuentes de sonido


3.1.1.1 Ubicación angular
También llamada acimut, la ubicación angular de una fuente de sonido es su
ubicación percibida a lo largo del plano horizontal en relación con los altavoces
izquierdo y derecho. Normalmente, es mejor distribuir las fuentes en la imagen
estéreo para que haya menos enmascaramiento y más claridad para cada
fuente de sonido. Los sonidos se pueden enmascarar entre sí cuando ocupan
un rango de frecuencia y una ubicación angular similares.
Cada señal de micrófono se puede panoramizar a una ubicación
específica entre los altavoces utilizando la panoramización convencional de
potencia constante que se encuentra en la mayoría de los mezcladores. La
panorámica también se puede lograr retrasando la salida de una señal a un
canal de altavoz en relación con la otra salida de altavoz. El uso de delay para
panoramizar no es común porque su efectividad depende en gran medida de
la ubicación del oyente en relación con los altavoces.
Equilibrar las señales de algunas técnicas de microfoneo estéreo
generalmente requerirá un panorama de cada par de señales de micrófono
totalmente a la izquierda y a la derecha. Las posiciones resultantes de las
fuentes de sonido que se encuentran frente a cada par de micrófonos
dependerán de la técnica de microfoneo estéreo utilizada y las ubicaciones
respectivas de cada fuente.

3.1.1.2 Distancia
Aunque la percepción humana de la distancia absoluta es limitada, la distancia
relativa de los sonidos dentro de una imagen estéreo es importante para dar
profundidad a una grabación. Es probable que los grandes conjuntos grabados
en espacios acústicamente en vivo exhiban una sensación natural de
profundidad, análoga a lo que escucharíamos como miembro de la audiencia
en el mismo espacio. Con grabaciones realizadas en espacios acústicamente
secos, como estudios, los ingenieros a menudo buscan crear profundidad
utilizando delays y reverberación artificial. Los ingenieros pueden controlar la
distancia de la fuente de sonido ajustando parámetros físicos como los
siguientes:
• Nivel de sonido directo. Los sonidos más silenciosos se consideran más
lejanos porque hay una pérdida de intensidad del sonido de 6 dB por
duplicar la distancia desde una fuente. Esta señal puede ser ambigua
para el oyente porque un cambio en el volumen puede ser el resultado
de un cambio en la distancia o un cambio en la potencia acústica de una
fuente.
• Nivel de reverberación. A medida que una fuente se aleja más del oyente
en una habitación o pasillo, el nivel de sonido directo disminuye y el
sonido reverberante permanece igual, lo que reduce la relación entre el
sonido directo y el reverberante.
• Distancia de los micrófonos a las fuentes de sonido. Mover los
micrófonos más lejos disminuye la relación directa a reverberante y, por
lo tanto, crea una mayor sensación de distancia.
• Ubicación y nivel del micrófono de la sala. Los micrófonos colocados en
el lado opuesto de una habitación o pasillo desde donde se encuentran
los músicos captan el sonido que es principalmente reverberante o
difuso. Las señales del micrófono de la sala pueden considerarse como
un retorno de reverberación en un mezclador.
• Filtrado de paso bajo de sonidos directos con micrófonos cercanos. Las
frecuencias altas se atenúan más que las frecuencias más bajas debido
a la absorción de aire. Además, las propiedades acústicas de las
superficies reflectantes de una habitación afectan el espectro del sonido
reflejado que llega a los oídos del oyente.

3.1.1.3 Extensión espacial


A veces, las ubicaciones de la fuente de sonido en una mezcla se definen con
precisión, mientras que otras veces la ubicación de la fuente de sonido es más
borrosa y más difícil de identificar. La extensión espacial describe el ancho
percibido de una fuente. Un concepto relacionado en la investigación de la
acústica de salas de conciertos es el ancho aparente de la fuente (Apparent
Source Width), que está relacionado con la fuerza, el tiempo y la dirección de
los reflejos laterales. Barron (1971) encontró que los reflejos laterales más
fuertes resultarían en un ASW más amplio.
La amplitud percibida de una imagen sonora producida por los altavoces
variará con la técnica de microfoneo utilizada y la fuente de sonido que se esté
grabando. Los micrófonos espaciados producen una fuente de sonido más
amplia porque el nivel de correlación entre las dos señales de micrófono se
reduce a medida que los micrófonos se separan más. Al igual que con la
acústica de una sala de conciertos, el ancho percibido de las fuentes
reproducidas a través de los altavoces también puede verse influenciado por
reflexiones tempranas, ya sea grabadas con micrófonos o generadas
artificialmente. Si se agregan reflexiones tempranas artificiales (en estéreo) a
una sola grabación de micrófono cercano de una fuente de sonido, el sonido
directo tiende a fusionarse perceptualmente con las reflexiones tempranas y
produce una imagen que es más amplia que el sonido seco por sí solo.
La extensión espacial de las fuentes de sonido se puede controlar
mediante parámetros físicos como los siguientes:
• Patrones de reflexión temprana que se originan en un espacio
acústico real o se generan artificialmente con reverberación
• Tipo de técnica de microfoneo estéreo utilizada: los micrófonos
espaciados generalmente producen una imagen espacial más
amplia que las técnicas de micrófono coincidentes

3.1.2 Espacios acústicos y escenarios sonoros


Un ingeniero puede controlar atributos espaciales adicionales, como las
características percibidas, las cualidades y el tamaño del entorno acústico en
el que se coloca cada fuente de sonido en una imagen estéreo. El entorno o
escenario de sonido puede consistir en un espacio acústico real capturado con
micrófonos de sala, o puede ser creado por reverberación artificial agregada
durante la mezcla. Puede haber un tipo común de reverberación para todos
los sonidos, o algunos sonidos pueden tener tipos únicos de reverberación
agregados para ayudar a diferenciarlos del resto de los instrumentos. Por
ejemplo, es bastante común tratar las voces o los instrumentos solistas con
una reverberación diferente a la del resto de un conjunto acompañante.

3.1.2.1 Carácter de decaimiento de la reverberación


El tiempo de decaimiento es uno de los parámetros más comunes en los
dispositivos de reverberación artificial. Al grabar instrumentos acústicos en un
espacio acústico en vivo, el tiempo de caída de la reverberación a menudo no
es ajustable, sin embargo, algunos espacios de grabación se han diseñado con
paneles en las superficies de paredes y techos que se pueden girar para
exponer varios materiales absorbentes o reflectantes de sonido, lo que
permite alguna variación en el tiempo de caída de la reverberación.
El tiempo de caída se define como el tiempo en el que el sonido continúa
persistiendo después de que el sonido directo deja de sonar. Los tiempos de
reverberación más largos suelen ser más audibles que los tiempos de
reverberación más cortos para un nivel de reverberación determinado. Los
sonidos transitorios como la batería o la percusión exponen el tiempo de caída
más que los sonidos sostenidos, lo que nos permite escuchar la tasa de caída
con mayor claridad.
Algunos algoritmos de reverberación artificial incorporarán modulación
en la caída para darle variación y, con suerte, hacer que suene menos artificial.
Un decaimiento perfectamente suave es algo que rara vez escuchamos en una
habitación real, y una reverberación artificial simplificada puede sonar
anormalmente suave.

3.1.2.2 Extensión espacial (ancho y profundidad) del escenario de sonido


Un escenario de sonido es el entorno acústico dentro del cual se escucha una
fuente de sonido, y debe diferenciarse de una fuente de sonido. El entorno
puede ser una grabación de un espacio real, o puede ser algo que se ha creado
artificialmente utilizando delay y reverberaciones artificiales.

3.1.2.3 Espacialidad
La espacialidad representa la percepción de las características físicas y
acústicas de un espacio de grabación. En la acústica de una sala de conciertos,
está relacionada con la envolvente, pero con solo dos altavoces en
reproducción estéreo, es difícil lograr una verdadera envolvente. Podemos
usar el término espacialidad para describir la sensación de espacio dentro de
una grabación.

3.1.3 Características generales de las imágenes estéreo


También se agrupan bajo atributos espaciales los elementos que describen las
impresiones y características generales de una imagen estéreo reproducida
por altavoces. Una imagen estéreo es la ilusión de la localización de la fuente
de sonido de los altavoces. Aunque solo hay dos altavoces para estéreo, el
sistema auditivo binaural humano permite la creación de imágenes fantasma
en ubicaciones entre los altavoces. En esta sección, consideramos las
cualidades generales de una imagen estéreo que son más generalizadas que
las específicas de la fuente y el escenario de sonido.

3.1.3.1 Coherencia y polaridad relativa entre canales


A pesar del uso generalizado de sistemas de reproducción estéreo y multicanal
entre los consumidores, la compatibilidad mono sigue siendo de vital
importancia, principalmente porque podemos escuchar música a través de
computadoras y teléfonos móviles con un solo altavoz. Verificar la
compatibilidad mono de una mezcla implica escuchar cambios en el timbre
que resultan de la interferencia destructiva entre los canales izquierdo y
derecho. En el peor de los casos con canales estéreo de polaridad opuesta, la
suma a mono cancelará una parte significativa de una mezcla. Cada proyecto
que mezcla un ingeniero debe verificarse para asegurarse de que los dos
canales de una mezcla estéreo no tengan polaridad opuesta. Cuando los
canales izquierdo y derecho son idénticos y de polaridad opuesta, se
cancelarán por completo cuando se sumen. Si ambos canales son idénticos,
entonces la mezcla es monofónica y no verdaderamente estéreo. La mayoría
de las mezclas estéreo incluyen alguna combinación de componentes mono y
estéreo. Podemos describir la relación entre los componentes de la señal en
los canales izquierdo y derecho de una mezcla como existente a lo largo de una
escala de correlación entre - 1 y 1:
• Izquierdo y derecho son idénticos - compuestos de señales que se
encuentran en el centro de la panorámica, con una correlación de 1
• La izquierda y la derecha no tienen nada en común: señales que se
desplazan hacia un lado o hacia el otro, o señales similares que tienen
una correlación de 0 entre canales
• Los canales izquierdo y derecho son idénticos, pero de polaridad
opuesta; las señales tienen una correlación de – 1
Los medidores de fase proporcionan una forma objetiva de determinar
la polaridad relativa de los canales estéreo, pero si no hay tales medidores
disponibles, un ingeniero debe confiar en sus oídos. Los canales izquierdo y
derecho de polaridad opuesta pueden identificarse escuchando una imagen
estéreo extremadamente amplia, de modo que cuando se sienta en la posición
de escucha ideal (ver Fig. 1.2), el sonido de los altavoces parece provenir de
los lados. Otra característica de los canales de polaridad opuesta es que la
imagen estéreo es inestable y tiende a moverse de forma exagerada con
pequeños movimientos de cabeza. La sección 3.7.3 ofrece más información
sobre la audición de canales de polaridad opuesta.
En ocasiones, un instrumento individual puede estar representado en
una mezcla por dos señales de polaridad idénticas pero opuestas, encuadradas
a derecha e izquierda. Si existe una señal de este tipo, es posible que un
medidor de fase no la registre con la fuerza suficiente para proporcionar una
indicación visual inequívoca. A veces, las salidas de línea estéreo de
instrumentos eléctricos son de polaridad opuesta o quizás se usó un cable de
inversión de polaridad durante la grabación por error. A menudo, las salidas
estéreo (izquierda y derecha) de instrumentos electrónicos no son realmente
estéreo sino mono. Cuando una salida es de polaridad opuesta, los dos canales
se cancelarán cuando se sumen a mono.

3.1.3.2 Continuidad espacial de una imagen de sonido de un altavoz a otro


Como atributo general, los ingenieros de mezcla consideran la continuidad y
el equilibrio de una imagen de sonido de un altavoz a otro. Una imagen estéreo
ideal estará equilibrada entre la izquierda y la derecha y no tendrá demasiada
o muy poca energía ubicada en el centro. A menudo, las mezclas de música
pop y rock tienen un fuerte componente central debido a la cantidad y la
fuerza de los instrumentos que suelen tener un panorama central, como el
bombo, la caja, el bajo y las voces. Es posible que las grabaciones de música
clásica y acústica no tengan una imagen central igualmente fuerte, y es posible
que haya una deficiencia en la cantidad de energía en el centro, lo que a veces
se denomina tener un "agujero en el medio". Los ingenieros se esfuerzan por
tener una distribución uniforme y continua de la energía del sonido de
izquierda a derecha.
3.2 Componentes básicos de la reverberación digital
A continuación, exploraremos dos procesos fundamentales que se encuentran
en la mayoría de las unidades de reverberación digital: time delay y
reverberación.

3.2.1 Time Delay


Aunque es un concepto simple, el time delay puede servir como un bloque de
construcción fundamental para una amplia variedad de efectos complejos. La
figura 3.1 muestra un diagrama de bloques de un solo retardo combinado con
una señal no retardada. La figura 3.2 muestra cómo se vería la salida del
diagrama de bloques si la entrada fuera un impulso.
Simplemente retrasando una señal de audio y mezclándola con la señal
no retrasada original, el resultado es un filtro de peine (para tiempos de
retardo más cortos) o eco (para tiempos de retardo más largos). Al agregar
cientos de versiones retardadas de una señal de forma organizada, se pueden
imitar patrones de reflexión temprana como los que se encuentran en espacios
acústicos reales. Los efectos de chorus y flanger se crean mediante el uso de
retardos que varían con el tiempo.
3.2.2 Reverberación
Ya sea que se origine en un espacio acústico real o en uno generado
artificialmente, la reverberación es un efecto poderoso que proporciona una
sensación de amplitud, profundidad, cohesión y distancia en las grabaciones.
La reverberación ayuda a mezclar las pistas grabadas para crear una imagen
de sonido unificada donde todos los componentes de una imagen residen en
un espacio acústico común. En el sonido reproducido, la reverberación puede
crear la ilusión de estar inmerso en un entorno que es diferente de nuestro
entorno físico.
Por otro lado, la reverberación, como cualquier otro tipo de
procesamiento de audio, también puede crear problemas en la grabación y
producción de sonido. La reverberación de nivel demasiado alto o de tiempo
de decaimiento demasiado largo puede destruir la claridad de los sonidos
directos o, como en el caso del habla, afectar la inteligibilidad de lo que se dice.
La calidad de la reverberación debe optimizarse para adaptarse al estilo
musical y artístico que se está grabando.
La reverberación y el delay tienen funciones importantes en la grabación
de música, como ayudar a los instrumentos y las voces en una mezcla de
grabación y "gel". Mediante el uso de la reverberación, un ingeniero puede
influir en el sentido de una mezcla de un oyente creando la ilusión de fuentes
actuando en un espacio acústico común. Se pueden agregar capas adicionales
de reverberación y delay para acentuar y resaltar solistas específicos.
El sonido de un instrumento de micrófono cerrado o de un cantante que
se reproduce a través de altavoces crea una sensación íntima o quizás incluso
incómoda para el oyente. Escuchar una grabación de este tipo a través de
auriculares puede crear la impresión de que un cantante está a solo unos
centímetros del oído, y esto no es algo que los oyentes estén acostumbrados
a escuchar acústicamente en una actuación de música en vivo. Las
presentaciones de música en vivo se escuchan típicamente a cierta distancia,
lo que significa que el sonido reflejado de las paredes, el piso y el techo de una
habitación se fusiona perceptivamente con el sonido que proviene
directamente de una fuente de sonido. Cuando se utiliza una ubicación
cercana del micrófono frente a un intérprete musical, a menudo es útil agregar
algo de delay o reverberación a la señal "seca" para crear cierta distancia
percibida entre el oyente y la fuente de sonido.
Los algoritmos de reverberación digital convencionales utilizan una red
de retardos, filtros de paso total y filtros de peine como sus componentes
básicos, según la idea original de Schroeder (1962) (figura 3.3). La ecualización
se aplica para alterar el contenido espectral de los reflejos y la reverberación.
En su forma más simple, la reverberación artificial es simplemente una
combinación de retrasos con retroalimentación o recursividad. Cada vez que
una señal pasa por el bucle de retroalimentación, su nivel se reduce en una
cantidad preestablecida para que su fuerza decaiga con el tiempo.

Se han diseñado algoritmos de reverberación más recientes para


convertir una respuesta de impulso de un espacio acústico real con la señal
"seca" entrante. Las unidades de hardware capaces de la reverberación basada
en convolución están disponibles comercialmente desde finales de la década
de 1990, y las implementaciones de software ahora se lanzan comúnmente
como complementos con software de estación de trabajo de audio digital. La
reverberación de convolución a veces se denomina reverberación de muestreo
porque una "muestra" de un espacio acústico (es decir, su respuesta de
impulso) se convoluciona con una señal de audio seca. Aunque es posible
calcular en el dominio del tiempo, el proceso de convolución generalmente se
completa en el dominio de la frecuencia para que el cálculo sea lo
suficientemente rápido para el procesamiento en tiempo real. La señal de
audio resultante de un reverberador de convolución es posiblemente una
reverberación de sonido más realista que lo que es posible con la
reverberación digital convencional. El principal inconveniente es que no hay
tanta flexibilidad o control de los parámetros de la reverberación de
convolución como es posible con la reverberación digital basada en filtros de
peine y todos los filtros.
En las unidades de reverberación digital convencionales, se dispone de
varios parámetros posibles que se pueden controlar. Aunque estos
parámetros varían de un fabricante a otro, algunos de los más comunes
incluyen los siguientes:
• Tiempo de caída de la reverberación (RT60) (decay time)
• Tiempo de retraso (delay time)
• Tiempo de prerretardo (predelay time)
• Algún control sobre los patrones de reflexión iniciales, ya sea eligiendo
entre conjuntos predefinidos de reflejos iniciales o controlando reflejos
individuales
• Frecuencia de corte del filtro de paso bajo
• Frecuencia de corte del filtro de paso alto
• Multiplicadores de tiempo de decaimiento para diferentes bandas de
frecuencia
• Compuerta (gate): umbral, tiempo de ataque, tiempo de retención,
tiempo de liberación o caída, profundidad.
Aunque la mayoría de los algoritmos de reverberación digital
representan modelos simplificados de la acústica de un espacio real, se utilizan
ampliamente en el sonido grabado para ayudar a aumentar el espacio acústico
grabado o para crear una sensación de amplitud que no existía en el entorno
de grabación original.

3.2.2.1 Tiempo de caída de la reverberación


El tiempo de reverberación se define como la cantidad de tiempo que tarda un
sonido en decaer 60 dB una vez que se apaga. Usualmente referido como
RT60, W.C. Sabine propuso una ecuación para calcularlo en un espacio acústico
real (Howard & Angus, 2006):
V = volumen en m³, S = área de superficie en m² para un tipo dado de material
de superficie y α = coeficiente de absorción de la superficie respectiva.
Debido a que el RT60 tendrá un valor mayor que cero incluso si α es 1.0
(100% de absorción en todas las superficies), la ecuación de Sabine
generalmente solo es válida para valores de α menores que 0.3. En otras
palabras, el inconveniente de la ecuación de Sabine es que incluso en una
cámara anecoica, se seguirá calculando un tiempo de reverberación, aunque
no se mediría acústicamente ninguna reverberación. Norris-Eyring propuso
una ligera variación en la ecuación para un rango más amplio de valores
(Howard y Angus, 2006):

Es fundamental para un ingeniero tener un sentido intuitivo de lo que


significan los tiempos de caída de varios valores en términos de cómo suenan.
Un tiempo de caída de 2 segundos tendrá un efecto sónico muy diferente en
una mezcla de un tiempo de caída de 1 segundo.

3.2.2.2 Delay Time


Un retardo directo sin retroalimentación o recursividad de una señal de audio
a menudo se mezcla con la señal seca para crear una sensación de espacio, y
puede complementar o sustituir el uso de la reverberación.
Con tiempos de retardo más cortos (menos de unos 30 milisegundos), el
sistema auditivo tiende a fusionar los sonidos directos y retardados, juzgando
la posición del sonido combinado en función de la ubicación del sonido directo.
El fenómeno se conoce como efecto de precedencia, efecto Haas o ley del
primer frente de onda. Con tiempos de retardo de más de aproximadamente
30 milisegundos, la señal retardada se escucha como un eco distintivo de un
sonido directo. La cantidad real de tiempo de retardo necesario para crear un
eco distinto depende de la naturaleza de la señal de audio que se retrasa. Las
señales transitorias de percusión revelan ecos distintos con tiempos de retardo
mucho más cortos (menos de 30 milisegundos), mientras que las señales
sostenidas de estado estable requieren tiempos de retardo mucho más largos
(más de 50 milisegundos) para crear un eco audible.

3.2.2.3 Predelay Time


El tiempo de pre-delay se define típicamente como el tiempo de retardo entre
el sonido directo y el inicio de la reverberación. Perceptualmente, puede dar
la impresión de un espacio más grande a medida que aumenta el tiempo de
predelay. En un espacio acústico real sin obstrucciones físicas entre una fuente
de sonido y un oyente, siempre habrá un pequeño retraso entre la llegada de
los sonidos directos y reflejados. Cuanto más largo es este retraso inicial, más
grande se percibe que es un espacio.

3.2.3 Preajustes de reverberación digital


La mayoría de las unidades de reverberación digital disponibles actualmente,
ya sea en forma de plug-in o hardware, ofrecen cientos, si no miles, de
preajustes de reverberación. Lo que puede no ser inmediatamente obvio para
el ingeniero novato es que normalmente solo hay un puñado de algoritmos
diferentes para un tipo o modelo de reverberación dado. Los ajustes
preestablecidos son simplemente los mismos algoritmos repetidos con
variaciones en la configuración de los parámetros y nombrados
individualmente para reflejar el tipo de espacio que la unidad está modelando
o una posible aplicación como una gran sala, voces brillantes, drums de
estudio, o teatro. Todos los ajustes preestablecidos que utilizan un tipo de
algoritmo determinado representan tipos idénticos de procesos y sonarán
idénticos si los parámetros de cada ajuste preestablecido coinciden.
Debido a que los ingenieros ajustan muchos parámetros de
reverberación para crear la reverberación más adecuada para cada aplicación,
puede tener sentido elegir cualquier preset y comenzar a ajustar los
parámetros en lugar de intentar encontrar un preset que funcione sin ningún
ajuste. El principal inconveniente de tratar de encontrar el preajuste correcto
para cada instrumento y voz durante una mezcla es que el preajuste "correcto"
puede no existir y probablemente requerirá un ajuste de parámetros de todos
modos. Puede ser mejor comenzar de inmediato eligiendo cualquier preset y
editando los parámetros para adaptarse a una mezcla. El proceso de edición
de parámetros en lugar de intentar encontrar un preset también ayudará a
aprender las capacidades de cada reverberación y el resultado sonoro de cada
cambio de parámetro.
Aunque puede que no sea el mejor uso del tiempo para buscar un
preajuste durante el proceso de mezcla, existe la ventaja de revisar los
preajustes y escucharlos porque puede dar una idea más clara de cómo puede
sonar una unidad de reverberación en muchas diferentes configuraciones de
parámetros. Este ejercicio de escucha debe realizarse en un momento fuera
de un proyecto de mezcla para dar tiempo para escuchar y familiarizarse con
el hardware y el software a nuestra disposición.

3.3 Reverberación en audio multicanal


Desde un punto de vista práctico, mi investigación informal y mi escucha
parecen indicar que, en general, son posibles niveles más altos de
reverberación en grabaciones de audio multicanal que en estéreo de dos
canales, mientras se mantiene un nivel aceptable de claridad. Es necesario
realizar pruebas más formales para verificar este punto, pero puede tener
sentido a partir de lo que sabemos sobre el enmascaramiento. El
enmascaramiento de un sonido por otro se reduce cuando los dos sonidos
están separados espacialmente (Kidd et al., 1998; Saberi et al., 1991). Parece
que debido a la mayor distribución espacial del sonido en el audio multicanal,
en relación con el estéreo de dos canales, es menos probable que la
reverberación oscurezca o enmascare el sonido directo y, por lo tanto, puede
ser más prominente en el audio multicanal.
Se podría argumentar que la reverberación es cada vez más crítica en las
grabaciones mezcladas para la reproducción de audio multicanal porque el
audio multicanal ofrece una posibilidad mucho mayor de recrear una
sensación de inmersión en un espacio acústico virtual que el estéreo de dos
canales. Se ha investigado mucho más la dimensión espacial del sonido
reproducido en los últimos años a medida que el audio multicanal ha ganado
popularidad y su distribución ha crecido a una audiencia más amplia. Como tal,
los estudiantes de ingeniería de grabación pueden beneficiarse de un método
de entrenamiento sistemático para aprender a igualar los ajustes de los
parámetros de la reverberación artificial "de oído" y desarrollar aún más la
capacidad de identificar consistentemente los detalles sutiles del sonido
reproducido por los altavoces.
La grabación de música y sonido para reproducción multicanal también
presenta nuevos desafíos sobre el estéreo de dos canales en términos de crear
una imagen de sonido detallada y envolvente. Una de las dificultades con la
reproducción de audio multicanal utilizando el diseño de altavoces ITU-R
BS.775 (ITU-R, 1994) es el gran espacio entre los altavoces delanteros y
traseros (espaciado de 80 a 90 °; ver Fig. 1.3). Debido al espacio entre los
altavoces y la naturaleza de nuestras capacidades de localización de sonido
binaural, las imágenes fantasma laterales suelen ser inestables. Además, es un
desafío producir imágenes fantasmas que unan la imagen de sonido frontal
con la trasera. La reverberación puede ser útil para crear la ilusión de imágenes
de sonido que abarcan el espacio entre los altavoces.

3.4 Módulo de formación de software


El módulo de capacitación de software incluido es una herramienta para
ayudar a escuchar detalles sutiles y parámetros de reverberación digital
artificial en lugar de un entrenador de oído para la percepción de la acústica
de la habitación. Es posible que las habilidades obtenidas mediante el uso de
este sistema ayuden en la percepción de las características acústicas, pero no
está claro qué tan bien se transfiere una habilidad a la otra. La mayoría de los
algoritmos de reverberación digital convencionales se basan en varias
combinaciones de filtros peine y all-pass según el modelo desarrollado por
Schroeder, y aunque estos algoritmos son eficientes computacionalmente y
proporcionan muchos parámetros controlables, no son modelos físicos del
comportamiento del sonido en un entorno real. habitación. Por tanto, no es
posible confirmar que los parámetros de reverberación artificial como el
tiempo de caída sean idénticos a los que se encuentran en el sonido en un
espacio acústico real. No está claro qué tan cerca se relaciona el tiempo de
caída de la reverberación (RT60) de un algoritmo de reverberación artificial
dado con el tiempo de caída del sonido en una habitación real. Por ejemplo, si
los tiempos de caída de diferentes unidades de reverberación artificial o
módulos adicionales se establecen en 1,5 segundos, es posible que el tiempo
de caída percibido difiera entre las unidades. Además, el tiempo de
reverberación a veces depende de otros parámetros de un algoritmo. No
siempre está claro exactamente qué otros parámetros como el "tamaño"
controlan o por qué pueden afectar el tiempo de caída percibido sin cambiar
el tiempo de caída mostrado. Debido a la variabilidad del tiempo de
decaimiento percibido entre unidades y algoritmos, tal vez sea mejor no
aprender los tiempos de caída absolutos, sino aprender a escuchar las
diferencias entre los ejemplos representativos y poder hacer coincidir la
configuración de los parámetros. No obstante, la reverberación es una
poderosa herramienta sónica disponible para los ingenieros de grabación que
la mezclan con el sonido grabado para crear la ilusión auditiva de la acústica
real y el contexto espacial.
Así como es fundamental capacitar a los ingenieros de audio para que
reconozcan las resonancias espectrales, es igualmente importante mejorar
nuestra percepción de las sutilezas en la reverberación artificial. Al menos un
investigador ha demostrado que los oyentes pueden "aprender" la
reverberación de una habitación determinada (Shinn-Cunningham, 2000).
También se han realizado otros trabajos de formación de los oyentes para que
identifiquen los atributos espaciales del sonido. Neher y col. (2003) han
documentado un método para entrenar a los oyentes para identificar atributos
espaciales utilizando descriptores verbales con el propósito de evaluar la
calidad del audio espacial.
Se han realizado investigaciones para describir los atributos espaciales
del sonido reproducido utilizando evaluaciones gráficas (como Ford et al.,
2003 y Usher & Woszczyk, 2003). Una ventaja del sistema de entrenamiento
discutido aquí es que usted compara una escena espacial con otra, de oído, y
nunca es necesario traducir o mapear una sensación auditiva a una segunda
modalidad sensorial y posteriormente a un medio de expresión, como dibujar
una imagen. o eligiendo una palabra. Con el sistema, puede comparar y
combinar dos escenas de sonido, dentro de un conjunto determinado de
parámetros de reverberación artificial, utilizando solo el sistema auditivo. Por
tanto, no existe isomorfismo entre los diferentes sentidos y métodos de
comunicación. Además, este método tiene validez ecológica, ya que imita el
proceso de un ingeniero de sonido que esculpe los detalles sonoros de una
grabación de sonido de oído en lugar de a través de gráficos y palabras.

3.5 Descripción del módulo de formación de software


El módulo de formación de software incluido "TETpracticeReverb" está
disponible para ejercicios de escucha. La computadora aleatoriza los ejercicios
y ofrece una opción de dificultad y una selección de parámetros para un
ejercicio. Funciona de la misma forma que el módulo EQ descrito en el Capítulo
2.
3.5.1 Fuentes de sonido
Se anima a los lectores a comenzar el curso de formación con sonidos simples,
transitorios o impulsivos, como la percusión, y progresar a sonidos más
complejos, como grabaciones de voz y música. De la misma manera que el
ruido rosa se usa en las etapas iniciales del entrenamiento auditivo de
frecuencia porque expone una cantidad determinada de ecualización mejor
que la mayoría de las muestras musicales, los sonidos de percusión o
impulsivos se usan para los niveles iniciales de entrenamiento en el
procesamiento de efectos basados en el tiempo porque el carácter sónico de
la reverberación es más evidente que con las fuentes de estado estacionario.
El carácter temporal de un sonido afecta la capacidad de escuchar las
cualidades de la reverberación cuando se mezclan los dos. Los sonidos
típicamente transitorios o de percusión revelan reverberación, mientras que
los pasajes musicales sostenidos de estado más estable tienden a enmascarar
o mezclarse con la reverberación, lo que dificulta los juicios al respecto.
3.5.2 Interfaz de usuario
Una interfaz gráfica de usuario (GUI), que se muestra en la Figura 3.4,
proporciona una superficie de control para que interactúe con el sistema. Con
la GUI puede hacer lo siguiente:
• Elige el nivel de dificultad
• Seleccione los parámetros con los que trabajar
• Elija un archivo de sonido
• Ajustar los parámetros de la reverberación
• Alternar entre la referencia y su respuesta
• Controla el nivel general de la salida de sonido
• Envíe una respuesta a cada pregunta y pase al siguiente ejemplo
La interfaz gráfica también realiza un seguimiento de la pregunta actual y el
puntaje promedio hasta ese punto, y proporciona el puntaje y la respuesta
correcta para la pregunta actual.

3.6 Introducción a la práctica


El plan de estudios de formación cubre algunos de los parámetros más
comunes en las unidades de reverberación digital, incluidos los siguientes:
• Tiempo de decaimiento
• Tiempo de prerretardo
• Nivel de reverberación (mezcla)
• Combinaciones de dos o más parámetros a la vez
La tarea principal en los ejercicios y pruebas es duplicar sonoramente una
escena de sonido de referencia escuchando y comparando su respuesta con la
referencia y haciendo los cambios apropiados en los parámetros. El software
elige aleatoriamente un valor de parámetro basado en el nivel de dificultad y
el parámetro que se está probando, y le pide que identifique los parámetros
de reverberación de la referencia ajustando el parámetro apropiado al valor
que más se aproxime al sonido de la referencia. Puede alternar entre la
pregunta de referencia y su respuesta haciendo clic en los interruptores
etiquetados “Pregunta” y “Su respuesta” (consulte la Fig. 3.4) o presionando
la barra espaciadora en el teclado de la computadora. Una vez que las dos
escenas de sonido coinciden, puede hacer clic en la respuesta de verificación
o presionar la tecla Intro para enviar la respuesta y ver la respuesta correcta.
Al hacer clic en el botón siguiente, se pasa a la siguiente pregunta.
3.6.1 Tiempo de caída
Los tiempos de decaimiento varían de 0.5 segundos a 2.5 segundos con una
resolución inicial de 1.5 segundos y aumentan en dificultad a una resolución
de 0.25 segundos.
3.6.2 Tiempo de prerretardo
El tiempo de pre-retardo es la cantidad de tiempo de retardo entre el sonido
directo (seco) y el comienzo de las primeras reflexiones y reverberaciones. Los
tiempos de pre-retardo varían entre 0 y 200 milisegundos, con una resolución
inicial de 40 ms y disminuyendo a una resolución de 10 ms.
3.6.3 Nivel de mezcla
A menudo, cuando se mezcla la reverberación con el sonido grabado, el nivel
de la reverberación se ajusta como un retorno auxiliar en la consola de
grabación o en la estación de trabajo de audio digital. El sistema de
entrenamiento le permite practicar el aprendizaje de varios niveles de
reverberación "mixtos". Un nivel de mezcla del 100% significa que no hay
sonido directo (sin procesar) en la salida del algoritmo, mientras que un nivel
de mezcla del 50% representa una salida con niveles iguales de sonido
procesado y sin procesar. La resolución de los valores de mezcla en el nivel más
bajo de dificultad es del 25% y progresa hasta una resolución del 5%, cubriendo
el rango de mezcla de 0 a 100%.

3.7 Matriz Mid-Side


Michael Gerzon (1986, 1994) ha presentado explicaciones matemáticas de la
matriz y la mezcla de grabaciones estéreo para mejorar y reequilibrar los
componentes correlacionados y descorrelacionados de una señal. Las técnicas
que sugiere son útiles para el entrenamiento técnico del oído porque pueden
ayudar en el análisis y la deconstrucción de una grabación al sacar a la luz
componentes de una imagen sonora que de otro modo no serían tan audibles.
Al aplicar los principios de la técnica de microfoneo mid-side estéreo a
las grabaciones estéreo completadas, es posible reequilibrar aspectos de una
grabación y aprender más sobre las técnicas utilizadas en una grabación.
Aunque este proceso toma su nombre de una técnica de microfoneo estéreo
específica, cualquier grabación estéreo se puede postprocesar para convertir
los canales izquierdo y derecho a medio (M) y lateral (S), independientemente
de la técnica de mezcla o microfoneo utilizada.
Los ingenieros de masterización a veces dividen una grabación estéreo
en sus componentes M y S y luego los procesan de alguna manera y los vuelven
a convertir en L y R una vez más.
El componente medio se puede derivar sumando los canales izquierdo
y derecho. En la práctica, esto se puede hacer colocando los dos canales de
audio en dos faders y desplazándolos hacia el centro. Los canales L y R se
pueden dividir y enviar a otros dos pares de canales. Un par se puede mover
completamente a la izquierda y con el canal L de polaridad opuesta. El par final
de canales L y R se puede panoramizar a la derecha con el canal derecho de
polaridad opuesta. Consulte la Figura 3.5 para obtener detalles sobre la
información de enrutamiento de la señal. Ahora que las señales se dividen en
M y S, podemos simplemente reequilibrar estos dos componentes, o podemos
aplicarles procesamiento de forma independiente. La señal S representa los
componentes de la señal que cumplen cualquiera de las siguientes
condiciones:
• Existe solo en el canal L o solo en el canal R
• Son opuestos a la polaridad, L en relación con R
3.7.1 El componente medio
La señal media representa todos los componentes de una mezcla estéreo que
no tienen polaridad opuesta entre los dos canales, es decir, cualquier cosa que
sea común a ambos canales o que solo esté presente en un lado. Como
podemos ver en el diagrama de bloques presentado en la Figura 3.5, el
componente M se deriva de L + R.
3.7.2 El componente lateral
La señal lateral se obtiene restando los canales L y R: side = L - R. Cualquier
cosa que sea común a L y R se cancelará y no formará parte del componente
S. Cualquier señal que esté en el centro de una mezcla se cancelará del
componente S.
3.7.3 Ejercicio: escuchar el procesamiento Mid-Side
El módulo de práctica incluido "TETlisteningMidSide" ofrece una manera fácil
de escuchar los componentes medios y laterales de cualquier grabación
estéreo (formatos de archivo AIFF o WAV) y escuchar cómo suena si se
reequilibran. Al convertir una mezcla estéreo (L y R) en señales M y S, es
posible escuchar elementos de la mezcla que pueden haber sido
enmascarados en la mezcla completa. Además de poder escuchar mejor la
reverberación estéreo, a veces se hacen evidentes otros artefactos. Los
artefactos como pinchazos, distorsión, compresión de rango dinámico y
ediciones pueden volverse más audibles si escuchamos solo el componente S.
Muchas mezclas estéreo tienen un componente central fuerte, y cuando se
quita ese componente, también se quita cualquier cosa en el centro de la
imagen estéreo. Los pinchazos que suelen ser un problema mayor con las
grabaciones de cintas analógicas son más audibles cuando se escucha el
componente S de forma aislada. Un punch-in generalmente se realiza durante
una sobregrabación de una grabación multipista, donde el instrumento solista
o la voz grabarán una parte y es posible que quieran arreglar una determinada
sección de la música. Un punch-in es presionar el botón de grabación en la
grabadora para una pista específica en algún lugar en el medio de la pieza
musical.
Al dividir una mezcla estéreo en sus componentes M y S, se pueden
resaltar algunas de las diferencias creadas por el proceso de codificación
perceptual (por ejemplo, MP3 o AAC que se ha convertido nuevamente a AIFF
o WAV). Aunque la mayoría de los artefactos están enmascarados por el audio
estéreo, la eliminación del componente M hace que los artefactos sean más
audibles.
Además, al escuchar el componente lateral al 100%, estamos
escuchando una correlación de -1 porque un altavoz produce el componente
lateral original y el otro altavoz produce una versión de polaridad opuesta del
componente lateral.

Resumen
Este capítulo cubre los atributos espaciales del sonido, centrándose
principalmente en la reverberación y el procesamiento mid-side. El objetivo
del módulo de práctica del software de reverberación es familiarizar
sistemáticamente a los oyentes con aspectos de la reverberación artificial y
aumentar la sensibilidad auditiva al procesamiento de efectos basados en el
tiempo. Al comparar dos escenas de audio de oído, un oyente puede hacer
coincidir uno o más parámetros de reverberación artificial con una referencia
elegida aleatoriamente por el software. Los oyentes pueden pasar de las
comparaciones que utilizan fuentes de sonido de percusión y una resolución
aproximada entre los valores de los parámetros a grabaciones musicales más
estables y una resolución más fina entre los valores de los parámetros. A
menudo, cambios muy pequeños en los parámetros de reverberación pueden
tener una influencia significativa en la profundidad, la mezcla, la amplitud y la
claridad de la mezcla final de una grabación de sonido.
Capítulo 4
CONTROL DE RANGO DINÁMICO

Lograr un equilibrio apropiado de un conjunto musical es esencial para


expresar la intención musical de un artista. Los directores y compositores
entienden la idea de encontrar el equilibrio óptimo de conjunto para cada
interpretación y pieza musical. Si una parte instrumental dentro de un
conjunto no es lo suficientemente fuerte para ser escuchada con claridad, los
oyentes no reciben el impacto total de una pieza musical. El equilibrio general
depende del control de las amplitudes vocales e instrumentales individuales
en un conjunto.
Al grabar señales de micrófonos puntuales en varias pistas y mezclar
esas pistas, un ingeniero tiene cierto control sobre el equilibrio musical y, por
lo tanto, también sobre la expresión musical. Al mezclar varias pistas, puede
ser necesario ajustar continuamente el nivel de ciertos instrumentos o voces
para lograr un equilibrio constante desde el principio hasta el final de una
pista.
El rango dinámico en el sentido musical describe la diferencia entre los
niveles más altos y más bajos de una señal de audio. Para las señales de
micrófono que tienen un rango dinámico amplio, ajustar los niveles de los
faders con el tiempo puede compensar las variaciones en el nivel de la señal y,
por lo tanto, mantener una sonoridad percibida constante. Los ajustes de nivel
de fader realizados a lo largo de la duración de una pieza equivalen a la
compresión de rango dinámico manual; Un ingeniero está reduciendo
manualmente el rango dinámico aumentando los niveles durante las secciones
silenciosas y atenuando las secciones ruidosas. Compresores y expansores de
controladores de rango dinámico: ajustan los niveles automáticamente en
función del nivel de una señal de audio y se pueden aplicar a pistas de audio
individuales o a una mezcla en su conjunto.
Un tipo de sonido que puede tener un rango dinámico extremadamente
amplio es una voz principal, especialmente cuando se graba con un micrófono
cerca. En casos extremos en la música pop y rock, el rango dinámico de un
cantante puede variar desde los gritos más fuertes hasta solo un susurro, todo
dentro de una sola canción. Si el fader de una pista vocal se establece en un
nivel y se deja durante la duración de una pieza sin compresión, habrá
momentos en los que las voces serán demasiado fuertes y otros momentos en
los que serán demasiado bajas. Cuando un nivel de voz sube demasiado, se
vuelve incómodo para el oyente que puede querer bajar toda la mezcla. En la
situación opuesta, una voz con un nivel demasiado bajo se vuelve difícil de
entender, dejando una experiencia musical insatisfactoria para el oyente. Es
probable que sea imposible encontrar un nivel de fader estático satisfactorio
sin compresión para una fuente de sonido tan dinámica como las voces pop.
Una forma de compensar un amplio rango dinámico es ajustar manualmente
el nivel del fader para cada palabra o frase que canta un cantante. Aunque
algunas pistas requieren un control manual tan detallado del nivel de fader, el
uso de la compresión sigue siendo útil para llegar a la meta de niveles
consistentes, inteligibles y musicalmente satisfactorios, especialmente para
pistas con un amplio rango dinámico. Los niveles consistentes para
instrumentos y voces ayudan a comunicar las intenciones musicales de un
artista de manera más efectiva.
Al mismo tiempo, los ingenieros también comprenden que el contraste
dinámico es importante para ayudar a transmitir la emoción musical. Surge la
pregunta, si el nivel de una pista vocal se ajusta de modo que los pasajes
fortissimo tengan el mismo volumen que los pasajes pianissimo, ¿cómo va a
escuchar un oyente algún contraste dinámico? La primera parte de la
respuesta a esta pregunta es que la aplicación del control de nivel depende en
parte del género. La mayoría de las grabaciones de música clásica no se
beneficiarán tanto de este tipo de control de nivel activo. Para la mayoría de
los otros géneros de música, es deseable al menos cierta cantidad de control
de rango dinámico. Y específicamente para las grabaciones de pop y rock, el
objetivo es un rango dinámico más limitado para ser coherente con las
grabaciones de este estilo.
Afortunadamente, la percepción del rango dinámico se mantendrá
debido a los cambios de timbre entre los niveles dinámicos silenciosos y
fuertes. Para casi todos los instrumentos, incluida la voz, hay un aumento
significativo en el número y la fuerza de los armónicos de alta frecuencia a
medida que el nivel dinámico pasa de silencioso a alto. Entonces, incluso si el
rango dinámico de una interpretación vocal dinámica está muy comprimido,
la percepción del rango dinámico permanece debido a los cambios en el timbre
de la voz. Independientemente de las diferencias de timbre, es posible llevar
la reducción del rango dinámico demasiado lejos, dejando una interpretación
musical sin vida. Los ingenieros deben ser conscientes al usar demasiada
compresión y limitación porque puede ser bastante destructivo cuando se usa
en exceso. Una vez que se graba una pista con compresión, no hay forma de
deshacer completamente el efecto. Algunos tipos de procesamiento de audio,
como la ecualización de pico / caída recíproca, permiten deshacer alteraciones
menores con parámetros iguales y configuraciones de ganancia opuestas, pero
la compresión y la limitación no ofrecen una flexibilidad tan transparente.
El control de rango dinámico se puede considerar como un tipo de
modulación de amplitud donde la tasa de modulación depende de la
envolvente de amplitud de una señal de audio. El procesamiento dinámico es
simplemente una reducción de ganancia aplicada a una señal donde la
reducción de ganancia varía con el tiempo en función de las variaciones en el
nivel de una señal, con la cantidad de reducción basada en la amplitud de un
nivel de señal por encima de un umbral determinado. La compresión y
expansión son ejemplos de procesamiento no lineal porque la cantidad de
reducción de ganancia aplicada a una señal depende del nivel de la señal en sí
y la ganancia aplicada a una señal cambia con el tiempo. El procesamiento
dinámico, como la compresión, la limitación, la expansión y la compuerta,
ofrecen medios para esculpir y dar forma a las señales de audio de formas
únicas y variables en el tiempo. Es variable en el tiempo porque la cantidad de
reducción de ganancia varía con el tiempo. El control de rango dinámico puede
ayudar en el proceso de mezcla no solo suavizando los niveles de la señal de
audio, sino actuando como un pegamento que ayuda a agregar cohesión a
varias partes musicales en una mezcla.
4.1 Detección de señales en procesadores dinámicos
Los procesadores dinámicos funcionan con niveles de señal de audio objetivos,
generalmente medidos en decibelios. La primera razón para medir en
decibeles es que el decibelio es una escala logarítmica que es comparable a la
forma en que el sistema auditivo humano interpreta los cambios en el
volumen. Por lo tanto, el decibel como escala de medida parece
correlacionarse con la percepción del sonido debido a su escala logarítmica. La
segunda razón principal para usar decibeles es escalar el rango de niveles de
sonido audible a un rango más manejable. Por ejemplo, la audición humana
varía desde el umbral de audición, en aproximadamente 0,00002 Pascales,
hasta el umbral del dolor, alrededor de 20 Pascales, un rango que representa
un factor de 1 millón. Los pascales son una unidad de presión que mide la
fuerza por unidad de área y se abrevian como Pa. Cuando este rango se
convierte a decibelios, se escala de 0 a 120 dB de nivel de presión sonora (SPL),
un rango mucho más significativo y manejable.
Para controlar el nivel de una pista, es necesario que exista alguna forma
de medir e indicar la amplitud de una señal de audio. Resulta que hay muchas
formas de medir una señal, pero todas se basan generalmente en dos
representaciones comunes del nivel de la señal de audio: nivel de pico y nivel
RMS (que significa nivel de raíz cuadrada media). El nivel máximo simplemente
indica la amplitud más alta de una señal en un momento dado. Un indicador
de nivel máximo que se encuentra comúnmente es un medidor en una
grabadora digital, que informa a un ingeniero qué tan cerca está una señal del
punto de corte digital.
El RMS es algo así como un nivel de señal promedio, pero no es
matemáticamente equivalente al promedio. Con señales de audio donde hay
un voltaje que varía entre valores positivos y negativos, un cálculo matemático
promedio no va a dar ninguna información útil porque el promedio siempre
será alrededor de cero. El RMS, por otro lado, dará un valor útil y se calcula
básicamente elevando al cuadrado la señal, tomando el promedio de una
ventana de tiempo predefinida y luego sacando la raíz cuadrada de eso. Para
los tonos sinusoidales, el valor eficaz se calcula fácilmente porque siempre
estará 3dB por debajo del nivel de pico o el 70,7% del nivel de pico. Para
señales de audio más complejas, como música o voz, el nivel RMS debe
medirse directamente de una señal y no se puede calcular restando 3dB del
valor pico. Aunque RMS y promedio no son matemáticamente idénticos, RMS
se puede considerar como un tipo de promedio de señal, y usaremos los
términos RMS y promedio indistintamente. Las figuras 4.1, 4.2 y 4.3 ilustran los
niveles de factor de cresta, valor eficaz y pico para tres señales diferentes.

Figura 4.1 El valor RMS de una onda sinusoidal es siempre el 70,7% del valor pico, lo que equivale a decir que el valor RMS
está 3dB por debajo del nivel pico. Esto solo es cierto para una onda sinusoidal. El factor de cresta es la diferencia entre
los niveles pico y RMS, generalmente medidos en dB. Una onda sinusoidal tiene un factor de cresta de 3dB.

Figura 4.2 Una onda cuadrada tiene niveles de pico y RMS iguales, por lo que el factor de cresta es 0.
Figura 4.3 Una onda de pulso es similar a una onda cuadrada, excepto que estamos acortando el tiempo que la señal está
en su nivel máximo. La longitud del pulso determina el nivel RMS, donde un pulso más corto dará un nivel RMS más bajo
y por lo tanto un factor de cresta más grande.

El rango dinámico puede tener un efecto significativo en el volumen de


la música grabada. El término volumen se utiliza para describir el nivel
percibido en lugar del nivel físico de presión sonora medido. Varios factores
contribuyen a la sonoridad percibida, como el espectro de potencia y el factor
de cresta (la relación entre el nivel de pico y el nivel RMS). Dadas dos
grabaciones musicales con el mismo nivel de pico, la que tiene un factor de
cresta más pequeño generalmente sonará más fuerte porque su nivel RMS es
más alto. Al juzgar el volumen de los sonidos, nuestros oídos responden más a
niveles medios que a niveles máximos.
La compresión de rango dinámico aumenta el nivel promedio a través
de un proceso de dos etapas que comienza con una reducción de ganancia de
los niveles más altos o máximos seguida de una ganancia de salida lineal, a
veces llamada ganancia de compensación. La compresión y la limitación
esencialmente reducen solo los picos (las partes más ruidosas) de una señal de
audio y luego aplican una etapa de ganancia lineal para recuperar toda la señal
de audio de modo que los picos estén en el nivel máximo posible para nuestro
medio de grabación (por ejemplo, 0dB escala completa [dBFS] para audio
digital). La etapa de ganancia lineal después de la compresión a veces se
denomina ganancia de compensación porque compensa la reducción del nivel
de pico, y algunos compresores y limitadores aplican una ganancia de
compensación automática en la etapa de salida. El proceso de compresión y
limitación reduce el factor de cresta de una señal de audio, y cuando se aplica
la ganancia de compensación para restaurar los picos a su nivel original, el nivel
RMS también aumenta, haciendo que la señal general sea más fuerte. Por lo
tanto, al reducir el factor de cresta mediante la compresión y la limitación, es
posible hacer que una señal de audio suene más fuerte incluso si su nivel
máximo no ha cambiado.
Puede resultar tentador para un ingeniero novato normalizar una señal
de audio grabada en un intento de hacer que suene más fuerte. La
normalización es un proceso mediante el cual un programa de edición de audio
digital escanea una señal de audio, encuentra el nivel de señal más alto para
todo el clip, calcula la diferencia en dB entre el nivel máximo de grabación
(0dBFS) y el nivel máximo de una señal de audio, y luego aumenta todo el clip
de audio por esta diferencia para que el nivel máximo alcance 0dBFS. Debido
a que los ingenieros generalmente desean grabar señales de audio para que
los niveles máximos estén lo más cerca posible de 0dBFS, es posible que solo
obtengan un par de decibeles de ganancia en el mejor de los casos al
normalizar una señal de audio. Ésta es una de las razones por las que el proceso
de normalización digital de un archivo de sonido no necesariamente hará que
una grabación suene significativamente más fuerte. Sin embargo, los
ingenieros pueden hacer que una señal parezca más fuerte mediante el uso de
compresión y limitación, incluso si los picos ya están alcanzando 0dBFS.
Además de aprender a identificar los cambios producidos por la
compresión de rango dinámico, también es importante aprender a identificar
los cambios estáticos en la ganancia. Si aumenta el nivel general de una
grabación, es importante poder reconocer la cantidad de cambio de ganancia
aplicado en decibelios.

4.2 Compresores y limitadores


Para reducir el rango dinámico de una grabación, el procesamiento dinámico
se utiliza en forma de compresores y limitadores. Normalmente, un compresor
o limitador atenuará el nivel de una señal una vez que haya alcanzado o
superado un nivel de umbral.
Los compresores y expansores pertenecen a un grupo de efectos de
procesamiento de sonido que son adaptativos, lo que significa que la cantidad
o tipo de procesamiento está determinado por algún componente de la señal
en sí (Verfaille et al., 2006). En el caso de compresores y expansores, la
cantidad de reducción de ganancia aplicada a una señal depende del nivel de
la señal en sí o de una señal secundaria conocida como side-chain o entrada
clave. Con otros tipos de procesamiento, como la ecualización y la
reverberación, el tipo, la cantidad o la calidad del procesamiento sigue siendo
el mismo, independientemente de las características de la señal de entrada.
Dependiendo de la naturaleza del procesamiento dependiente de la
señal, a veces puede ser más obvio y otras menos obvio que el procesamiento
que no depende de la señal. Cualquier cambio en el procesamiento ocurre
sincrónicamente con los cambios en la propia señal de audio, y es posible que
la señal real enmascare estos cambios o nuestro sistema auditivo asumirá que
son parte del sonido original (como en el caso de la compresión).
Alternativamente, con un error de cuantificación dependiente de la señal a
velocidades de bits bajas, la distorsión (error) será modulada por la amplitud
de la señal y, por lo tanto, será más notable que el ruido de amplitud constante
como el dither, como veremos en la Sección 5.2.3.
Para determinar si un nivel de señal está por encima o por debajo de un
umbral especificado, un procesador de dinámica debe utilizar algún método
para determinar el nivel de señal, como RMS o detección de nivel de pico.
Otras formas de procesamiento dinámico aumentan el rango dinámico
atenuando las secciones de menor amplitud de una grabación. Estos tipos de
procesadores a menudo se denominan expansores o gates. A diferencia de un
compresor, un expansor atenúa la señal cuando está por debajo del nivel de
umbral. El uso de expansores es común al mezclar baterías para música pop y
rock. Cada componente de un kit de batería a menudo tiene un micrófono
cercano, pero todavía hay alguna "filtración" del sonido de los tambores
adyacentes en cada micrófono. Para reducir este efecto, se pueden utilizar
expansores o gates para atenuar la señal de un micrófono entre golpes en su
respectivo tambor.
Hay muchos tipos diferentes de compresores y limitadores, y cada
marca y modelo tiene su propio "sonido" único. Esta firma sónica se basa en
una serie de factores, como el circuito de detección de señal o el algoritmo
utilizado para determinar el nivel de una señal de audio de entrada y, por lo
tanto, si aplicar procesamiento dinámico o no, y cuánto aplicar según los
parámetros establecidos por el ingeniero. En los procesadores analógicos, los
componentes eléctricos reales en la cadena de la señal de audio y la fuente de
alimentación también afectan la señal de audio.
Por lo general, varios parámetros se pueden controlar en un compresor.
Estos incluyen umbral (threshold), relación (ratio), tiempo de ataque (attack),
tiempo de liberación (release) y rodilla (knee).

4.2.1 Threshold
Un ingeniero generalmente puede establecer el nivel de umbral de un
compresor, aunque algunos modelos tienen un nivel de umbral fijo con una
ganancia de entrada variable. Un compresor comienza a reducir la ganancia de
una señal de entrada tan pronto como la amplitud de la propia señal o una
señal de entrada de cadena lateral supere el umbral. Los compresores con una
entrada side-chain o clave pueden aceptar una entrada de señal alternativa
que se analiza en términos de su nivel y se utiliza para determinar la función
de ganancia que se aplicará a la entrada de señal de audio principal. La
compresión de la señal de entrada se activa cuando la señal de la cadena
lateral se eleva por encima del umbral, independientemente del nivel de la
señal de entrada.
4.2.2 Attack Time
Aunque el compresor comienza a reducir la ganancia de la señal de audio tan
pronto como su amplitud se eleva por encima del umbral, por lo general lleva
algo de tiempo lograr la máxima reducción de ganancia. La cantidad real de
reducción de ganancia aplicada depende del ratio y qué tan lejos está la señal
por encima del umbral. En la práctica, el tiempo de ataque puede ayudar a un
ingeniero a definir o redondear el ataque de un sonido de percusión o el
comienzo de una nota musical. Con el ajuste apropiado del tiempo de ataque,
un ingeniero puede ayudar a que una grabación de pop o rock suene más
"punchy".
4.2.3 Release Time
El tiempo de liberación es el tiempo que tarda un compresor en dejar de
aplicar la reducción de ganancia después de que una señal de audio ha pasado
por debajo del umbral. Tan pronto como el nivel de la señal cae por debajo del
umbral, el compresor comienza a devolverlo a la ganancia unitaria y alcanza la
ganancia unitaria en la cantidad de tiempo especificada por el tiempo de
liberación.
4.2.4 Knee
El knee describe la transición del control de nivel desde debajo del umbral (sin
reducción de ganancia) a por encima del umbral (reducción de ganancia). Una
transición suave de uno a otro se denomina soft knee, mientras que un cambio
abrupto en el umbral se conoce como hard knee.
4.2.5 Ratio
La relación de compresión determina la cantidad de reducción de ganancia
aplicada una vez que la señal sube por encima del umbral. Es la relación entre
el nivel de entrada y el nivel de salida en dB por encima del umbral. Por
ejemplo, con una relación de compresión de 2: 1 (entrada: salida), la parte de
la señal de salida que está por encima del umbral será la mitad del nivel (en
dB) de la señal de entrada que está por encima del umbral en dB. Los
compresores ajustados a relaciones de aproximadamente 10: 1 o más se
consideran generalmente limitadores. Las relaciones más altas darán más
reducción de ganancia cuando una señal supere el umbral y, por lo tanto, la
compresión será más evidente.
4.2.6 Tiempo de detección de nivel
Para aplicar una función de ganancia a una señal de entrada, los procesadores
de dinámica deben determinar la amplitud de una señal de audio y compararla
con el umbral establecido por un ingeniero. Como se mencionó anteriormente,
existen diferentes formas de medir la amplitud de una señal, y algunos
compresores permiten que un ingeniero cambie entre dos o tres opciones.
Normalmente, las opciones difieren en la rapidez con la que la detección de
nivel responde al nivel de una señal. Por ejemplo, la detección de nivel pico es
buena para responder a transitorios pronunciados y la detección de nivel RMS
responde a señales menos transitorias. Algunos procesadores dinámicos
(como el controlador de rango dinámico GML 8900) tienen ajustes de
detección de RMS rápidos y lentos, donde el RMS rápido promedia durante un
período de tiempo más corto y, por lo tanto, responde más a los transitorios.
Cuando un compresor está configurado para detectar niveles usando
RMS lento, es imposible que el compresor responda a transitorios muy cortos.
Debido a que la detección de RMS promedia a lo largo del tiempo, un
transitorio pronunciado no tendrá mucha influencia en el nivel de señal
promedio.

4.2.7 Visualización de la salida de un compresor


Para comprender completamente el efecto del procesamiento dinámico en
una señal de audio, debemos mirar más allá de la función de transferencia de
entrada / salida que se ve comúnmente en las explicaciones de los
procesadores dinámicos. Puede ser útil visualizar cómo cambia la salida de un
compresor con el tiempo dado un tipo específico de señal y así tener en cuenta
los parámetros siempre críticos conocidos como attack y release. Los
procesadores de dinámica cambian la ganancia de una señal de audio a lo largo
del tiempo para que puedan clasificarse como dispositivos que varían en el
tiempo no lineales. Se consideran no lineales porque comprimir la suma de dos
señales generalmente dará como resultado algo diferente de comprimir las
dos señales individualmente y luego sumarlas (Smith, consultado el 4 de
agosto de 2009).
Para ver el efecto de un compresor en una señal de audio, se requiere
una función de paso como señal de entrada. Una función de paso es un tipo de
señal que cambia instantáneamente su amplitud y permanece en la nueva
amplitud durante un período de tiempo. Mediante el uso de una función de
paso, es posible ilustrar cómo un compresor responde a un cambio inmediato
en la amplitud de una señal de entrada y finalmente se estabiliza en su
ganancia objetiva.
Para las siguientes visualizaciones, una onda sinusoidal modulada en
amplitud actúa como una función de paso (consulte la figura 4.4a). El
modulador es una onda cuadrada con un período de 1 segundo. La amplitud
máxima de la onda sinusoidal se eligió para cambiar entre 1 y 0,25. Una
amplitud de 0,25 es 12 dB por debajo de una amplitud de 1.

Figura 4.4 Esta figura muestra la señal de entrada a un compresor (a) que es una onda sinusoidal modulada en amplitud
y la salida del compresor muestra la respuesta al escalón para tres tiempos de ataque y liberación diferentes: largo (b),
medio (c) y corto. (d).

La Figura 4.4 muestra las curvas generales de ataque y liberación que se


encuentran en la mayoría de los compresores. Este tipo de visualización no se
publica con las especificaciones de un compresor, pero podemos visualizarlo
registrando la salida cuando enviamos un tono sinusoidal modulado en
amplitud como señal de entrada. Si este tipo de medición se realizara en varios
tipos de compresores analógicos y digitales, se vería que tienen una forma
similar a la que vemos en la Figura 4.4. Algunos modelos de compresores
tienen curvas de ataque y liberación que se ven un poco diferentes, como en
la Figura 4.5. En este compresor parece tener un sobreimpulso en la cantidad
de reducción de ganancia en el ataque antes de que se establezca en un nivel
constante. La Figura 4.6 muestra un ejemplo de una señal de audio que ha sido
procesada por un compresor y la función de ganancia resultante que el
compresor derivó, según el nivel de la señal de entrada y la configuración de
los parámetros del compresor. La función de ganancia muestra la cantidad de
reducción de ganancia aplicada a lo largo del tiempo, que varía con la amplitud
de la entrada de la señal de audio. El umbral se estableció en 6 dB, que
corresponde a 0.5 en la amplitud de la señal de audio, por lo que cada vez que
la señal supera los 0.5 en el nivel (-6 dB), la función de ganancia muestra una
reducción en el nivel.

Figura 4.5 El mismo tono sinusoidal modulado de 40 Hz a través de un compresor analógico disponible comercialmente
con un tiempo de ataque de aproximadamente 50 ms y un tiempo de liberación de 200 ms. Note la diferencia en la curva
de la Figura 4.4. Parece haber un rebasamiento en la cantidad de reducción de ganancia en el ataque antes de que se
establezca en un nivel constante. Una representación visual de los tiempos de ataque y liberación de un compresor como
este no es algo que se incluiría en las especificaciones de un dispositivo. La diferencia que es evidente entre las Figuras 4.4
y 4.5 suele ser algo que un ingeniero escucharía pero no podría visualizar sin realizar la medición.
Figura 4.6 Desde una señal de audio (arriba) enviada a la entrada de un compresor, se deriva una función de ganancia
(media) basada en los parámetros del compresor y el nivel de la señal. La salida de la señal de audio resultante (abajo) del
compresor es la señal de entrada con la función de ganancia aplicada. La función de ganancia muestra la cantidad de
reducción de ganancia aplicada a lo largo del tiempo, que varía con la amplitud de la entrada de la señal de audio. Por
ejemplo, una ganancia de 1 (ganancia unitaria) no produce ningún cambio de nivel y una ganancia de 0,5 reduce la señal
en 6 dB. El umbral se estableció en -6dB, que corresponde a 0.5 en la amplitud de la señal de audio, por lo que cada vez
que la señal supera los 0.5 en el nivel (-6dB), la función de ganancia muestra una reducción en el nivel.

4.2.8 Control de nivel automatizado mediante compresión


La compresión de rango dinámico puede ser uno de los tipos de procesamiento
más difíciles para que el ingeniero principiante aprenda a escuchar y usar. Es
probable que sea difícil de escuchar porque a menudo el objetivo de la
compresión es ser transparente. Los ingenieros emplean un compresor para
eliminar inconsistencias de amplitud en un instrumento o voz. Dependiendo
de la naturaleza de la señal que se comprima y de los ajustes de los parámetros
elegidos, la compresión puede variar desde muy transparente hasta
completamente obvia.
Quizás otra razón por la que a los ingenieros novatos les resulta difícil
identificar la compresión es que casi todo el sonido grabado que escuchan los
oyentes se ha comprimido hasta cierto punto. La compresión se ha convertido
en una parte tan integral de casi toda la música que se escucha a través de
altavoces que los oyentes pueden esperar que forme parte de todos los
sonidos musicales. Escuchar música acústica sin refuerzo de sonido puede
ayudar en el proceso de entrenamiento auditivo para refrescar una
perspectiva y recordar cómo suena la música sin compresión.
Debido a que el procesamiento dinámico depende de las variaciones de
amplitud de una señal de audio, la cantidad de reducción de ganancia varía
con los cambios en la señal. Con la modulación de amplitud de una señal de
audio sincronizada con la envolvente de amplitud de la propia señal de audio,
la modulación puede ser difícil de escuchar porque no está claro si la
modulación era parte de la señal original o no. La modulación de amplitud se
vuelve casi inaudible cuando reduce la amplitud de la señal a una velocidad
equivalente pero opuesta a las variaciones de amplitud en una señal de audio.
La compresión o la limitación se pueden escuchar más fácilmente
configurando los parámetros de un dispositivo en sus valores máximos o
mínimos: un ratio alto, un tiempo de ataque corto, un release prolongado y un
threshold bajo.
Si se aplicara una modulación de amplitud que no variara
sincrónicamente con una señal de audio, la modulación probablemente sería
mucho más aparente porque la envolvente de amplitud resultante no se
correlacionaría con lo que está sucediendo en la señal y se la escucharía como
un evento separado. Por ejemplo, con un modulador de onda sinusoidal, la
modulación de amplitud es periódica y no sincronizada con ningún tipo de
señal musical de un instrumento acústico y, por lo tanto, es muy audible. Esto
no quiere decir que siempre deba evitarse la modulación de amplitud de tono
sinusoidal. La modulación de amplitud con una onda sinusoidal a veces puede
producir efectos deseables en una señal de audio, pero con ese tipo de
procesamiento, el objetivo suele ser resaltar el efecto en lugar de hacerlo
transparente.
Mediante la acción de reducción de ganancia, los compresores pueden
crear artefactos audibles, es decir, el timbre de un sonido cambia de forma no
deseada, y en otras circunstancias, estos artefactos son completamente
intencionales y contribuyen de manera significativa al sonido de una
grabación. En otras situaciones, el control del rango dinámico se aplica sin
crear artefactos y sin cambiar el timbre de los sonidos. Un ingeniero puede
querer bajar las partes fuertes de una manera que aún controle los picos pero
que no interrumpa la señal de audio. En cualquier caso, un ingeniero necesita
saber cómo suenan los artefactos para decidir cuánto o poco control de rango
dinámico aplicar a una grabación. En muchos controladores de rango
dinámico, los parámetros ajustables por el usuario están interrelacionados
hasta cierto punto y afectan la forma en que un ingeniero los usa y escucha.
4.2.9 Control manual de rango dinámico
Debido a que los controladores de rango dinámico responden a una medida
objetiva de nivel de señal, pico o RMS, en lugar de niveles de señal subjetivos,
como el volumen, es posible que la reducción de nivel proporcionada por un
compresor no se adapte a una señal de audio tan bien como se desea. El
control automatizado de rango dinámico de un compresor puede no ser tan
transparente como se requiere para una aplicación determinada. La cantidad
que un compresor está actuando sobre una señal de audio se basa en cuánto
determina que una señal de audio va por encima de un umbral especificado y,
como resultado, aplica una reducción de ganancia basada en medidas
objetivas del nivel de la señal. Los niveles de la señal objetiva no siempre
corresponden a los niveles de la señal subjetiva y, como resultado, un
compresor puede medir una señal para que sea más fuerte de lo que se
percibe y, por lo tanto, puede aplicar una atenuación mayor que la deseada.
Al mezclar una grabación multipista, los ingenieros se preocupan por los
niveles, la dinámica y el equilibrio de cada pista, y quieren estar atentos a
cualquier fuente de sonido que quede enmascarada en cualquier punto de una
pieza. En un nivel más sutil, incluso si una fuente de sonido no está
enmascarada, los ingenieros se esfuerzan por encontrar el mejor equilibrio
musical posible, ajustando según sea necesario a lo largo del tiempo y en cada
nota y frase musical. La escucha intencionada ayuda al ingeniero a encontrar
el mejor compromiso en los niveles generales de cada fuente de sonido. A
menudo es un compromiso porque no es probable que cada nota de cada
fuente se escuche con perfecta claridad, incluso con un amplio control de
rango dinámico. Si cada fuente de sonido se enciende sucesivamente para que
pueda escucharse por encima de todas las demás, una mezcla terminará con
los mismos problemas nuevamente, por lo que se convierte en un acto de
equilibrio donde se deben establecer prioridades. Por ejemplo, la voz en una
grabación de pop, rock, country o jazz suele ser el elemento más importante.
Generalmente, un ingeniero quiere asegurarse de que cada palabra de una
grabación vocal se escuche con claridad. Las voces son a menudo
particularmente dinámicas en amplitud, y la adición de un poco de compresión
de rango dinámico puede ayudar a que cada palabra y frase de una
interpretación tenga un nivel más consistente.
Con el sonido grabado, un ingeniero puede influir en la perspectiva y
percepción del oyente de una pieza musical mediante el uso del control de
nivel en fuentes de sonido individuales. Un oyente puede ser guiado a través
de una interpretación musical a medida que los instrumentos y las voces se
colocan dinámicamente en primer plano y se envían más atrás, según lo dicta
la visión artística de una interpretación. La automatización del nivel de cada
fuente de sonido puede crear una perspectiva cambiante. Es posible que el
oyente no sea consciente de que se están manipulando los niveles y, de hecho,
los ingenieros a menudo intentan que el cambio de niveles sea lo más
transparente y musical posible. Un oyente solo debería poder escuchar que
cada momento de una grabación de música es claro y musicalmente
satisfactorio, no que se estén aplicando cambios de nivel continuos a una
mezcla. Una vez más, los ingenieros se esfuerzan por hacer que el efecto de la
tecnología sea transparente a una visión artística de la música que estamos
grabando.

4.3 Efectos tímbricos de la compresión


Además de ser un dispositivo utilitario para administrar el rango dinámico de
los medios de grabación, el procesamiento dinámico se ha convertido en una
herramienta para alterar el color y el timbre del sonido grabado. Cuando se
aplica a una mezcla completa, la compresión y la limitación pueden ayudar a
que los elementos de una mezcla se fusionen. Las partes musicales
comprimidas tendrán lo que se conoce en percepción auditiva como destino
común porque sus cambios de amplitud comparten cierta similitud. Cuando
dos o más elementos (por ejemplo, instrumentos) en una mezcla tienen
amplitudes que cambian sincrónicamente, el sistema auditivo tenderá a
fusionar estos elementos de forma perceptiva. El resultado es que el
procesamiento dinámico puede ayudar a combinar elementos de una mezcla.
En esta sección, nos moveremos más allá de la compresión como
herramienta básica para mantener niveles de señal consistentes, hasta la
compresión como herramienta para esculpir el timbre de una pista.
4.3.1 Efecto del tiempo de ataque
Con un compresor configurado para un tiempo de ataque lento, en el rango de
100 milisegundos o más, con un umbral bajo y un ratio alto, podemos escuchar
el nivel del sonido cuando la señal de entrada supera el umbral. El efecto
audible del sonido que se reduce a este ritmo es lo que se conoce como sonido
de bombeo (pumping) y puede ser más audible en sonidos con un pulso fuerte
donde la señal se eleva claramente por encima del umbral y luego cae por
debajo de él, como los producidos por tambores, otros instrumentos de
percusión y, a veces, un contrabajo. Si hay algún sonido de nivel inferior o ruido
de fondo con el sonido principal comprimido, se escuchará un sonido de fondo
modulado. Los sonidos que tienen un nivel más constante, como una guitarra
eléctrica distorsionada, no mostrarán un efecto de bombeo tan audible.
4.3.2 Efecto del tiempo de release
Otro efecto relacionado está presente si un compresor está configurado para
tener un tiempo de liberación prolongado, en el rango de 100 milisegundos o
más. Escuchando de nuevo con un umbral bajo y un ratio alto, esté atento a
que el sonido vuelva a subir de nivel después de un pulso fuerte. El efecto
audible del sonido que vuelve a subir de nivel después de una reducción
significativa de la ganancia se llama respiración (breathing) porque puede
sonar como si alguien estuviera respirando. Al igual que con el efecto de
bombeo, puede notar el efecto de manera más prominente en los sonidos de
fondo, siseos o matices más altos que suenan después de un pulso fuerte.
Aunque la compresión tiende a explicarse como un proceso que reduce
el rango dinámico de una señal de audio, hay formas de usar un compresor
que puede acentuar la diferencia entre los niveles de pico transitorios y
cualquier resonancia sostenida que pueda seguir. En esencia, lo que se puede
lograr con la compresión puede ser similar a la expansión del rango dinámico
porque los picos o pulsos fuertes se pueden resaltar en relación con los sonidos
más silenciosos que los siguen inmediatamente. Puede parecer
completamente contradictorio tratar de pensar en compresores que realicen
una expansión de rango dinámico, pero en la siguiente sección analizaremos
lo que sucede al experimentar con varios tiempos de ataque.
4.3.3 Compresión y batería
Una grabación con un pulso fuerte, como batería o percusión, con una
transiente que se repite regularmente, activará la reducción de ganancia en un
compresor y puede servir como un tipo de sonido útil para resaltar el efecto
de un procesamiento dinámico. Al procesar una mezcla estéreo de un kit de
batería completo a través de un compresor en una proporción bastante alta
de 6: 1, los tiempos de ataque y liberación se pueden ajustar para escuchar su
efecto en el sonido de la batería. En una grabación típica de una caja que no
ha sido comprimida, hay un ataque o inicio natural, quizás algo de sustain y
luego un decaimiento. El compresor puede influir en todas estas propiedades
dependiendo de cómo se establezcan los parámetros. El tiempo de ataque
tiene la mayor influencia en el inicio del sonido de la batería, lo que permite a
un ingeniero remodelar esta característica particular del sonido. Aumentando
el tiempo de ataque de un tiempo muy corto a un tiempo mucho más largo, el
inicio de cada golpe de batería se ve afectado de forma audible. Un tiempo de
ataque muy corto puede eliminar la sensación de un inicio brusco. Al aumentar
el tiempo de ataque, el sonido de inicio comienza a ganar protagonismo y, de
hecho, puede acentuarse ligeramente en comparación con la versión sin
comprimir.
Exploremos el efecto sónico en una batería cuando se escucha a través
de un compresor con un umbral bajo, un ratio alto y un tiempo de ataque muy
corto (por ejemplo, hasta 0 milisegundos). Con un tiempo de ataque tan corto,
los transitorios bajan de nivel inmediatamente, casi a la velocidad a la que
aumenta el nivel de entrada para cada transitorio. Cuando la tasa de reducción
de ganancia casi coincide con la tasa a la que una señal transitoria aumenta de
nivel, la naturaleza transitoria de una señal se reduce significativamente.
Entonces, con tiempos de ataque muy cortos, los transitorios se pierden
porque la reducción de ganancia hace que el nivel de una señal baje casi al
mismo ritmo que la señal estaba aumentando originalmente durante un
transitorio. Como resultado, el ataque inicial de una señal transitoria se reduce
al nivel de la parte sostenida o resonante de la envolvente de amplitud. Los
tiempos de ataque muy cortos pueden ser útiles en algunos casos, como en
los limitadores que se utilizan para evitar clipeos. Para dar forma a los sonidos
de batería y percusión, los tiempos de ataque cortos son bastante destructivos
y tienden a quitarles la vida a los sonidos originales.
Al alargar el tiempo de ataque a unos pocos milisegundos, surge un
sonido de clic al inicio de un transitorio. El clic se produce por unos pocos
milisegundos del audio original que pasa a medida que se produce la reducción
de ganancia, y el timbre del clic depende directamente de la duración del
tiempo de ataque. La abrupta reducción de ganancia modifica el ataque de un
golpe de tambor.
Al aumentar aún más el tiempo de ataque, el sonido de inicio comienza
a ganar prominencia en relación con las porciones de sostenimiento y caída
del sonido, y puede ser más acentuado que sin procesamiento. Al comprimir
baterías de baja frecuencia como un bombo, un aumento en el tiempo de
ataque aumentará la presencia de armónicos de baja frecuencia. Debido a que
las frecuencias bajas tienen períodos más largos, un tiempo de ataque más
largo permitirá que ocurran más ciclos de un sonido de baja frecuencia antes
de la reducción de ganancia y, por lo tanto, el contenido de baja frecuencia
será más audible en cada pulso rítmico de bajo.
El tiempo de liberación afecta principalmente a la caída del sonido. La
parte de decaimiento del sonido es la que se vuelve más silenciosa después del
inicio fuerte. Si el tiempo de liberación es largo, la ganancia del compresor no
regresa rápidamente a la unidad después de que el nivel de la señal ha caído
por debajo del umbral (lo que ocurre durante la caída). Con un tiempo de
release largo, la caída natural del sonido de la batería se reduce
significativamente. Al comprimir una mezcla de un kit de batería completo, se
hace más evidente que el tiempo de ataque está afectando el balance
espectral del sonido total. Aumentando el tiempo de ataque de un valor muy
corto a algo más largo, aumenta la energía de baja frecuencia que proviene del
bombo. A medida que el tiempo de ataque se alarga de casi cero a varias
decenas o cientos de milisegundos, el efecto espectral es similar a agregar un
filtro low-shelf a la mezcla y aumentar la energía de baja frecuencia.
4.3.4 Compresión y voces
Debido a que las interpretaciones vocales tienden a tener un rango dinámico
amplio, los ingenieros a menudo encuentran que algún tipo de control de
rango dinámico les ayuda a alcanzar sus objetivos artísticos para una grabación
determinada. La compresión puede resultar muy útil para reducir el rango
dinámico y tratamiento de-esser de una pista vocal. Desafortunadamente, la
compresión no siempre funciona de forma tan transparente como se desea, y
en ocasiones aparecen los artefactos del control de ganancia automatizado de
un compresor.
Un par de consejos simples pueden ayudar a reducir el rango dinámico
sin agregar demasiados efectos secundarios que pueden restar valor a una
interpretación:
• Utilice ratios bajos. Cuanto menor sea el ratio, menor reducción de
ganancia se aplicará. Las proporciones de 2:1 son un buen punto de
partida.
• Utilice más de un compresor en serie. Al encadenar dos o tres
compresores en serie en una voz, cada uno ajustado a una relación baja,
cada compresor puede proporcionar cierta reducción de ganancia y el
efecto es más transparente que usar un solo compresor para hacer toda
la reducción de ganancia.
Para ayudar a identificar cuándo la compresión se aplica de manera
demasiado agresiva, escuche los cambios en el timbre mientras observa el
medidor de reducción de ganancia en nuestro compresor. Si hay algún cambio
en el timbre que está sincronizado con la reducción de ganancia, la solución
puede ser reducir la relación o aumentar el umbral o ambos. A veces, una pista
puede sonar un poco más oscura durante una reducción de ganancia extrema,
y puede ser más fácil identificar cambios sincrónicos cuando se mira el
medidor de reducción de ganancia de un compresor.
Un leve estallido al comienzo de una palabra o frase puede indicar que
el tiempo de ataque es demasiado lento. Generalmente, un tiempo de ataque
muy largo no es efectivo en una voz, ya que tiene el efecto de acentuar el
ataque de una voz y puede distraer.
La compresión de una voz generalmente resalta detalles de bajo nivel
en una interpretación vocal, como respiraciones y sonidos de "s". Un de-esser,
que puede reducir el sonido de la “s”, es simplemente un compresor que tiene
una versión de la voz con filtro de paso alto (alrededor de 5 kHz) como su
cadena lateral o entrada clave. Los de-essers tienden a funcionar de manera
más efectiva con tiempos de ataque y liberación muy rápidos.

4.4 Expansores y compuertas


4.4.1 Threshold
Los expansores modifican el rango dinámico de una señal de audio
atenuándola cuando su nivel cae por debajo de un umbral predefinido, a
diferencia de los compresores, que actúan sobre niveles de señal por encima
de un umbral. Las compuertas son versiones extremas de expansores y
generalmente silencian una señal cuando cae por debajo de un umbral. La
figura 4.7 muestra el efecto de un expansor en una onda sinusoidal modulada
en amplitud. Al igual que los compresores, los expansores suelen tener
entradas de cadena lateral que se pueden utilizar para controlar una señal de
audio con una señal secundaria. Por ejemplo, los ingenieros a veces controlan
un tono sinusoidal de baja frecuencia (alrededor de 40 o 50 Hz) y con una señal
de bombo enviada a la entrada de cadena lateral de la compuerta. Esto da
como resultado que el tono sinusoidal suene solo cuando suena el bombo y
los dos se pueden mezclar para crear un nuevo timbre.
Figura 4.7 Esta figura muestra la señal de entrada a un expansor (a) que es una onda sinusoidal modulada en amplitud y
la salida del expansor muestra la respuesta al escalón para tres tiempos de ataque y liberación diferentes: corto (d), medio
(c) y largo (b).

La mayoría de los parámetros controlables en un expansor son similares


en función a un compresor con un par de excepciones: tiempos de ataque y
liberación. Estos dos parámetros deben considerarse en relación con el nivel
de una señal de audio, más que en relación con la reducción de ganancia.
4.4.2 Attack Time
El tiempo de ataque de un expansor es la cantidad de tiempo que tarda una
señal de audio en volver a su nivel original una vez que ha superado el umbral.
Como un compresor, el tiempo de ataque es la cantidad de tiempo que se
tarda en realizar un cambio de ganancia después de que una señal supera el
umbral. En el caso de un compresor, una señal se atenúa por encima del
umbral; con un expansor, una señal vuelve a la ganancia unitaria por encima
del umbral.
4.4.3 Release Time
El tiempo de liberación en un expansor es la cantidad de tiempo que lleva la
atenuación completa de una señal de audio una vez que ha caído por debajo
del umbral. En general, para los compresores y expansores, el tiempo de
liberación no define una dirección particular de control de nivel (aumento o
corte), se define con respecto a un nivel de señal relativo al umbral.
4.4.4 Visualización de la salida de un expansor
La figura 4.7 muestra el efecto que tiene un expansor sobre la amplitud de una
función escalonada; en este caso, es un tono sinusoidal de amplitud modulada.
La Figura 4.8 muestra un clip de una grabación de música con la función de
ganancia derivada de la señal de audio y la configuración de los parámetros y
la señal de audio de salida resultante. Las secciones de bajo nivel de una señal
de audio se reducen aún más en la señal de audio expandida.
Figura 4.8 Desde una señal de audio (arriba) enviada a la entrada de un expansor, se deriva una función de ganancia
(centro) basada en los parámetros del expansor y el nivel de la señal. La salida de la señal de audio resultante (abajo) del
expansor es la señal de entrada con la función de ganancia aplicada. La función de ganancia muestra la cantidad de
reducción de ganancia aplicada a lo largo del tiempo, que varía con la amplitud de la entrada de la señal de audio. Por
ejemplo, una ganancia de 1 (ganancia unitaria) no produce ningún cambio de nivel y una ganancia de 0,5 reduce la señal
en 6 dB. El umbral se estableció en 6dB, que corresponde a 0.5 en la amplitud de la señal de audio, por lo que cada vez
que la señal cae por debajo de 0.5 en el nivel (–6dB), la función de ganancia muestra una reducción en el nivel.

4.5 Introducción a la práctica


Las recomendaciones sobre Introducción a la práctica en la Sección 2.3 son
aplicables a todos los ejercicios de software descritos en el libro, y se anima al
lector a revisar esas recomendaciones sobre la frecuencia y duración de la
práctica.
La funcionalidad general de los módulos de software centrados en el
procesamiento dinámico, "TETpracticeDyn" y "TETpracticeExp", es muy similar
a la del módulo de ecualización. Con el enfoque en la dinámica, hay diferentes
parámetros y cualidades de sonido para explorar como con la ecualización.
Los módulos de dinámica permiten practicar con hasta tres parámetros
de prueba a la vez: tiempo de ataque, tiempo de liberación y ratio. La práctica
puede ocurrir con cada parámetro por sí solo o en combinación con uno o dos
de los otros parámetros, dependiendo de qué “Combinación de parámetros”
se elija. El umbral es completamente variable para todos los ejercicios y
controla el umbral tanto para la "Pregunta" generada por computadora como
para "Su respuesta". Debido a que el nivel de señal de una grabación de sonido
determinará cuánto tiempo pasa una señal por encima de un umbral, y no se
sabe cómo se relacionará el nivel de cada grabación con un umbral dado, es
mejor mantener un umbral completamente variable.
En el módulo del compresor, el nivel de umbral debe establecerse
inicialmente bastante bajo para que el efecto de la compresión sea más
audible. Se incluye un fader de ganancia de compensación para que los niveles
subjetivos de las señales comprimidas y anuladas se puedan igualar
aproximadamente de oído si se desea.
En el caso del módulo expansor, un umbral más alto hará que el
expansor produzca cambios de nivel más pronunciados. Además, el nivel de
entrada se puede reducir para resaltar aún más los cambios de nivel dinámico.
La opción Nivel de dificultad controla el número de opciones disponibles
para un parámetro determinado. Con niveles más altos de dificultad, hay una
mayor cantidad de opciones de parámetros disponibles dentro de cada rango
de valores.
La combinación de parámetros determina qué parámetros se incluirán
en un ejercicio determinado. Cuando se trabaja con una combinación de
parámetros que prueba solo uno o dos parámetros, los parámetros restantes
controlables por el usuario que no se están probando controlarán el
procesamiento de los compresores "Pregunta" y "Su respuesta".
Los módulos de práctica de control de rango dinámico son los únicos de
toda la colección en los que la computadora puede elegir “sin compresión”
como una posible pregunta. Prácticamente, esto significa que se puede elegir
una proporción de 1: 1, pero solo cuando la combinación de parámetros
incluye "ratio" como una de las opciones. Cuando se encuentre una pregunta
en la que no se escuche ningún control de rango dinámico, indíquelo
seleccionando una relación de 1: 1, que equivale a omitir el módulo. Si una
pregunta tiene una proporción de 1: 1, todos los demás parámetros se
ignorarán en el cálculo de la pregunta y los puntajes promedio.
La Figura 4.9 muestra una captura de pantalla del módulo de práctica
del software de compresión de rango dinámico.

Figura 4.9 Una captura de pantalla de la interfaz de usuario del software para el módulo de práctica Technical Ear Trainer
para compresión de rango dinámico.

4.5.1 Tipos de práctica


Hay dos tipos de práctica en el módulo de práctica del software de dinámica:
Matching, Matching Memory, y Absolute Identification:
• Matching. Trabajando en modo Matching, el objetivo es duplicar el
procesamiento dinámico que ha sido aplicado por el software. En este
modo, el usuario es libre de alternar entre la "Pregunta" y "Su
respuesta" para determinar si el procesamiento dinámico elegido
coincide con el procesamiento desconocido aplicado por la
computadora.
• Matching Memory. Similar a Matching, este modo permite cambiar
libremente entre "Pregunta", "Su respuesta" y "Bypass" hasta que se
cambie uno de los parámetros de la pregunta. En ese momento, la
“Pregunta” ya no se puede seleccionar y su sonido debería haberse
memorizado lo suficientemente bien como para determinar si la
respuesta es correcta.
• Absolute Identification. Este modo de práctica es el más difícil y requiere
la identificación del procesamiento de dinámica aplicada sin tener la
oportunidad de escuchar lo que se elige como la respuesta correcta.
Solo puede escuchar "Bypass" (sin procesamiento de dinámica) y
"Question" (los parámetros de procesamiento elegidos al azar por la
computadora); no puede hacer una audición de "Your Response".
4.5.2 Fuente de sonido
Cualquier grabación de sonido en formato AIFF o WAV a una frecuencia de
muestreo de 44,100- o 48,000 Hz se puede utilizar para practicar. También
existe la opción de escuchar la fuente de sonido en mono o estéreo. Si un
archivo de sonido cargado contiene solo una pista de audio (en lugar de dos),
la señal de audio se enviará solo por la salida izquierda. Al presionar el botón
mono, el audio se enviará a los canales de salida izquierdo y derecho.
4.5.3 Grabaciones recomendadas para la práctica
Algunos artistas están haciendo que los tracks multipista estén disponibles
para su compra o descarga gratuita. Los golpes de un solo tambor son útiles
para comenzar a entrenar, y luego tiene sentido avanzar a los kits de batería,
así como a otros instrumentos solistas y voces. Existen algunos sitios web con
muestras de sonido y bucles gratuitos que se pueden utilizar para practicar,
como www.freesound.org, www.realworldremixed.com/download.php y
www. royerlabs.com, entre muchos otros. También hay extractos o bucles de
varios instrumentos solistas incluidos con GarageBand y Logic de Apple que se
pueden usar con el software.
Resumen
Este capítulo analiza la funcionalidad de los compresores y expansores y sus
efectos sónicos en una señal de audio. Los controladores de rango dinámico
se pueden usar para suavizar los niveles fluctuantes de una pista o para crear
modificaciones de timbre interesantes que no son posibles con otros tipos de
procesamiento de señales. Se describen los módulos de práctica del software
de compresión y expansión y los oyentes pueden usarlos para practicar
escuchando los efectos sónicos de varios ajustes de parámetros.
Capítulo 5
DISTORSIÓN Y RUIDO

En el proceso de grabación, los ingenieros se encuentran con regularidad con


problemas técnicos que provocan la introducción de ruidos o la degradación
de las señales de audio sin darse cuenta. Para el oyente atento, tales eventos
eliminan la ilusión de la tecnología de audio transparente, revelando una
interpretación musical grabada y recordándoles que están escuchando una
grabación mediada por una tecnología una vez invisible pero ahora claramente
aparente. Se vuelve más difícil para un oyente disfrutar por completo de
cualquier declaración artística cuando las opciones tecnológicas agregan
artefactos sónicos no deseados. Cuando la tecnología de grabación contribuye
negativamente a una grabación, la atención del oyente se centra en los
artefactos creados por la tecnología y se aleja de la interpretación musical. Hay
muchos niveles y tipos de artefactos sónicos que pueden restar valor a una
grabación de sonido, y adquirir experiencia en la escucha crítica promueve una
mayor sensibilidad a varios tipos de ruido y distorsión.
La distorsión y el ruido son las dos categorías generales de artefactos
sónicos que los ingenieros suelen intentar evitar o utilizar para lograr un efecto
creativo. Pueden estar presentes en una variedad de niveles o intensidades,
por lo que no siempre es fácil detectar niveles más bajos de distorsión o ruido
no deseado. En este capítulo nos enfocamos en ruidos extraños que a veces
encuentran su camino en una grabación, así como en algunas formas de
distorsión, tanto intencionales como no intencionales.

5.1 Ruido
Aunque algunos compositores e intérpretes utilizan intencionalmente el ruido
para lograr un efecto artístico, analizaremos algunos de los tipos de ruido que
no son deseados y, por lo tanto, restan valor a la calidad de una grabación de
sonido. A través de una conexión a tierra y blindaje inadecuados, sonidos
exteriores fuertes, interferencia de radiofrecuencia y ruido de calefacción,
ventilación y aire acondicionado (HVAC), existen muchas fuentes y tipos de
ruido que los ingenieros buscan evitar al realizar grabaciones en el estudio.
Con frecuencia, el ruido está en un nivel bajo pero aún audible y, por lo tanto,
no se registrará significativamente en un medidor, especialmente en presencia
de señales de audio musicales.
Algunas de las diversas fuentes de ruido incluyen las siguientes:
• Clics. Sonidos transitorios resultantes de un mal funcionamiento del
equipo o errores de sincronización digital
• Pops. Sonidos resultantes de sonidos vocales ocultos
• Zumbido y zumbido de tierra. Sonidos que se originan en sistemas mal
conectados a tierra
• Silbido, que es esencialmente ruido blanco de bajo nivel. Sonidos que se
originan en electrónica analógica, dithering o cinta analógica
• Sonidos acústicos extraños. Sonidos que no están destinados a grabarse
pero que existen en un espacio de grabación, como sistemas de
tratamiento de aire o fuentes de sonido fuera de una sala de grabación.

5.1.1 Clics
Los clics son varios tipos de sonidos transitorios de corta duración que
contienen una energía significativa de alta frecuencia. Pueden tener su origen
en un equipo analógico que funciona mal, por el acto de conectar o
desconectar señales analógicas en una bahía de conexión, o por errores de
sincronización en la interconexión de equipos digitales.
Los clics que resultan del mal funcionamiento del equipo analógico a
menudo pueden ser aleatorios y esporádicos, lo que dificulta identificar su
origen exacto. En este caso, los medidores pueden ser útiles para indicar qué
canal de audio contiene un clic, especialmente si los clics se producen en
ausencia de material de programa. Una indicación visual de un medidor con
retención máxima puede ser invaluable para perseguir un equipo
problemático.
Con las conexiones digitales entre equipos, es importante asegurarse de
que las velocidades de muestreo sean idénticas en todos los equipos
interconectados y que las fuentes de reloj sean consistentes. Sin fuentes de
reloj adecuadamente seleccionadas en audio digital, los clics son casi
inevitables y probablemente ocurrirán a intervalos regulares, generalmente
espaciados por varios segundos. Los clics que se originan en fuentes de reloj
inadecuadas suelen ser bastante sutiles y requieren vigilancia para
identificarlos audiblemente. Dependiendo de las interconexiones digitales en
un estudio, la fuente de reloj para cada dispositivo debe ser interna, entrada
digital o word clock.
5.1.2 Pops
Los pops son sonidos transitorios de baja frecuencia que tienen un sonido
parecido a un golpe. Por lo general, los estallidos ocurren como resultado de
oclusivas vocales que se producen frente a un micrófono. Las oclusivas son
sonidos consonantes, como los que resultan de pronunciar las letras p, b y d,
en los que se produce una explosión de aire en la creación de los sonidos. Una
ráfaga de aire resultante de la producción de un oclusivo que llega a la cápsula
del micrófono produce un sonido de baja frecuencia similar a un golpe. Por lo
general, los ingenieros intentan contrarrestar los estallidos durante la
grabación vocal colocando un filtro de pop frente a un micrófono vocal. Los
filtros anti-pop generalmente están hechos de tela delgada estirada a lo largo
de un marco circular.
Los pops no son algo que se escucha de un cantante cuando se escucha
acústicamente en el mismo espacio que el cantante. El artefacto pop es
simplemente el resultado de un micrófono cerca de la boca de un vocalista,
que responde a una ráfaga de aire. Los pops pueden distraer a los oyentes de
una interpretación vocal porque no esperan escuchar un golpe de baja
frecuencia de un cantante. Por lo general, los ingenieros pueden filtrar un pop
con un filtro de paso alto insertado solo durante el breve momento mientras
suena un pop.
5.1.3 Hum and Buzz
Los circuitos analógicos y las cadenas de señales mal conectados a tierra
pueden provocar la introducción de ruido en forma de zumbido en las señales
de audio analógicas. Ambos están relacionados con la frecuencia de las fuentes
de energía eléctrica de corriente alterna (CA), que en algunos lugares se
denomina frecuencia de red. La frecuencia de una fuente de energía será de
50 Hz o 60 Hz dependiendo de la ubicación geográfica y la fuente de energía
que se utilice. La distribución de energía en América del Norte es de 60 Hz, en
Europa es de 50 Hz, en Japón será de 50 o 60 Hz dependiendo de la ubicación
específica dentro del país, y en la mayoría de los demás países es de 50 Hz.
Cuando hay un problema de tierra, se genera un hum o un buzz con una
frecuencia fundamental igual a la frecuencia de corriente alterna de la fuente
de poder, 50 o 60 Hz, con armónicos adicionales por encima de la fundamental.
Un hum se identifica como un sonido que contiene principalmente armónicos
más bajos y un buzz como el que contiene armónicos superiores más
prominentes.
Los ingenieros quieren asegurarse de identificar cualquier hum o buzz
antes de grabar cuando el problema es más fácil de resolver. Es posible
intentar eliminar esos ruidos en la posproducción, pero llevará más tiempo.
Debido a que un hum o buzz incluye numerosos armónicos de 50 o 60 Hz, se
necesitan varios filtros de nodo, cada uno sintonizado en un armónico, para
eliminar efectivamente todo el sonido ofensivo. Aunque no vamos a discutir
los problemas técnicos y de cableado exactos que pueden causar hum y buzz
y cómo estos problemas podrían resolverse, hay muchas referencias
excelentes que cubren el tema con gran detalle, como el libro de Giddings
titulado Diseño e instalación de sistemas de audio ( 1990).
Al subir los niveles del monitor mientras los músicos no están tocando,
a menudo se expone cualquier zumbido de suelo de bajo nivel que pueda estar
ocurriendo. Si se aplica compresión de rango dinámico a una señal de audio y
la reducción de ganancia se compensa con ganancia de compensación, los
sonidos de bajo nivel, incluido el ruido de fondo, se elevarán a un nivel más
notable. Si un ingeniero puede detectar cualquier zumbido del suelo antes de
llegar a ese escenario, la grabación será más limpia.
5.1.4 Sonidos acústicos extraños
A pesar de la esperanza de que los espacios de grabación sean perfectamente
silenciosos, a menudo existen numerosas fuentes de ruido tanto dentro como
fuera de un espacio de grabación que deben tratarse. Algunos de estos son
sonidos relativamente constantes y de estado estable, como el ruido de la
manipulación del aire, mientras que otros sonidos son impredecibles y algo
aleatorios, como las bocinas de los coches, la gente hablando, los pasos o el
ruido de las tormentas.
Con la mayor parte de la población concentrada en las ciudades, el
aislamiento acústico puede ser particularmente desafiante a medida que
aumentan los niveles de ruido y aumenta nuestra proximidad física a los
demás. Además del ruido aéreo, también hay ruido transmitido por
estructuras, donde las vibraciones se transmiten a través de las estructuras de
los edificios y terminan produciendo sonido en un espacio de grabación.

5.2 Distorsión
Aunque los ingenieros generalmente quieren evitar o eliminar ruidos como los
que se enumeraron anteriormente, la distorsión, por otro lado, se puede usar
de manera creativa como un efecto, o puede aparecer como un artefacto no
deseado de una señal de audio. A veces, la distorsión se aplica
intencionalmente, como a la señal de una guitarra eléctrica, para mejorar el
timbre de un sonido, agregando a la paleta de opciones disponibles para la
expresión musical. En otras ocasiones, una señal de audio puede
distorsionarse debido a una configuración incorrecta de los parámetros, un
equipo defectuoso o un equipo de baja calidad. Ya sea que la distorsión sea
intencional o no, un ingeniero debe poder identificar cuándo está presente y
darle forma para lograr un efecto artístico o eliminarlo, de acuerdo con lo que
sea apropiado para una grabación determinada.
Afortunadamente, los ingenieros tienen una ayuda para ayudar a
identificar cuando una señal se corta de una manera objetable. Los medidores
digitales, medidores de picos, luces de clip u otros indicadores de la fuerza de
la señal están presentes en la mayoría de las etapas de entrada de los
convertidores de analógico a digital, preamplificadores de micrófono y muchas
otras etapas de ganancia. Cuando una etapa de ganancia está sobrecargada o
una señal cortada, una luz roja brillante proporciona una indicación visual tan
pronto como una señal supera el nivel de un clip y permanece encendida hasta
que la señal cae por debajo del nivel del clip. Una indicación visual en forma
de pico de luz, que está sincronizada con el inicio y la duración de un sonido
distorsionado, refuerza la conciencia de un ingeniero de la degradación de la
señal y ayuda a identificar si una señal se ha cortado y cuándo.
Desafortunadamente, cuando se trabaja con una gran cantidad de señales de
micrófono, puede ser difícil captar cada destello de una luz de clip,
especialmente en el dominio analógico. Los medidores digitales, por otro lado,
permiten la retención de picos de modo que, si no se ve una luz indicadora de
clip en el momento del recorte, continuará indicando que se produjo un clip
hasta que un ingeniero lo restablezca manualmente. Para los indicadores de
clip momentáneos, es mucho más importante confiar en lo que se escucha
para identificar los sonidos sobrecargados porque puede ser fácil pasar por
alto el destello de una luz roja.
En el proceso de grabación de cualquier interpretación musical, los
ingenieros configuran los preamplificadores de micrófono para ofrecer un
nivel de grabación lo más alto posible, lo más cerca posible del punto de corte,
pero sin pasarse. El objetivo es maximizar el error de señal a ruido o de señal
a cuantificación mediante la grabación de una señal cuyos picos alcanzan el
nivel máximo de grabación, que en audio digital es de 0 dB a escala completa.
El problema es que el nivel máximo exacto de una interpretación musical no
se conoce hasta después de que ha ocurrido. Los ingenieros establecen la
ganancia del preamplificador en función de una prueba de sonido
representativa, lo que les da cierto margen en caso de que los picos sean más
altos de lo esperado. Cuando la interpretación musical real ocurre después de
una prueba de sonido, a menudo el nivel máximo será más alto que durante la
prueba de sonido porque los músicos pueden estar actuando a un nivel
dinámico más entusiasta y más alto que durante la prueba de sonido.
Aunque es ideal tener una prueba de sonido, hay muchos casos en los
que los ingenieros no tienen la oportunidad de hacerlo y deben saltar
directamente a la grabación, esperando que sus niveles estén configurados
correctamente. Tienen que estar especialmente preocupados por monitorear
los niveles de señal y detectar cualquier recorte de señal en este tipo de
situaciones.
Existe una gama de sonidos o cualidades de sonido que podemos
describir como distorsión en una grabación de sonido. Entre estos sonidos no
deseados se encuentran las amplias categorías de distorsión y ruido. Podemos
ampliar estas categorías y describir varios tipos de cada una:
• Clipping fuerte o sobrecarga. Esto suena duro y es el resultado de que
los picos de una señal se cuadren cuando el nivel supera el nivel máximo
de entrada o salida de un dispositivo.
• Clipping suave o overdrive. Suena menos áspero y, a menudo, más
deseable para la expresión creativa que el clipping duro, generalmente
resulta de la activación de un tipo específico de circuito diseñado para
introducir un clipping suave, como un amplificador de guitarra.
• Distorsión por error de cuantificación. Como resultado de una
cuantificación de bits baja en audio digital PCM (por ejemplo,
conversión de 16 bits por muestra a 8 bits por muestra). Tenga en
cuenta que no estamos hablando de codificación perceptual de baja
tasa de bits, sino simplemente de reducir el número de bits por muestra
para cuantificar la amplitud de la señal.
• Distorsión del codificador de percepción. Hay muchos artefactos
diferentes, algunos más audibles que otros, que pueden ocurrir al
codificar una señal de audio PCM en una versión con datos reducidos
(por ejemplo, MP3 o AAC). Las tasas de bits más bajas muestran más
distorsión.
Hay muchas formas y niveles de distorsión que pueden estar presentes
en el sonido reproducido. Todo el sonido reproducido por los altavoces está
distorsionado hasta cierto punto, aunque sea insignificante. Los equipos con
una distorsión excepcionalmente baja pueden ser particularmente costosos de
producir y, por lo tanto, la mayoría de los sistemas de audio de consumo
promedio presentan niveles de distorsión ligeramente más altos que los
utilizados por ingenieros de audio profesionales. Los ingenieros de audio y los
entusiastas de los audiófilos hacen todo lo posible (y costos) para reducir la
cantidad de distorsión en su cadena de señal y altavoces.
La mayoría de los demás dispositivos de reproducción de sonido
comúnmente disponibles, como intercomunicadores, teléfonos y auriculares
económicos conectados a reproductores de música digital, tienen distorsión
audible. Para la mayoría de situaciones, como la comunicación por voz,
siempre que la distorsión sea lo suficientemente baja como para mantener la
inteligibilidad, la distorsión no es realmente un problema. Para sistemas de
reproducción de audio económicos, el nivel de distorsión generalmente no es
detectable por un oído inexperto. Esta es parte de la razón del éxito masivo
del MP3 y otros formatos de audio codificados perceptivamente que se
encuentran en el audio de Internet; la mayoría de los oyentes ocasionales no
perciben la distorsión y la pérdida de calidad, pero el tamaño de los archivos
es mucho más manejable y los archivos de audio son mucho más fácilmente
transferibles a través de una conexión de red informática que sus equivalentes
PCM.
La distorsión suele deberse a la amplificación de una señal de audio más
allá del nivel de salida máximo de un amplificador. La distorsión también se
puede producir aumentando el nivel de una señal más allá del nivel máximo
de entrada de un convertidor de analógico a digital (ADC). Cuando un ADC
intenta representar una señal cuyo nivel está por encima de 0 dB de escala
completa (dB FS), llamado over, el resultado es una distorsión de la señal con
un sonido áspero.

5.2.1 Hard Clipping y Overload


El had clipping se produce cuando se aplica demasiada ganancia a una señal e
intenta ir más allá de los límites del nivel máximo de entrada o salida de un
dispositivo. Los niveles de pico mayores que el nivel de señal máximo
permitido de un dispositivo se aplanan, creando nuevos armónicos que no
estaban presentes en la forma de onda original. Por ejemplo, si se recorta una
onda sinusoidal como en la Figura 5.1, el resultado es una onda cuadrada como
en la Figura 5.2, cuya forma de onda en el dominio del tiempo ahora contiene
bordes afilados y cuyo contenido de frecuencia contiene armónicos
adicionales. Una onda cuadrada es un tipo específico de forma de onda que se
compone de armónicos impares (1º, 3º, 5º, 7º, y así sucesivamente). Uno de
los resultados de la distorsión es un aumento en el número y los niveles de
armónicos presentes en una señal de audio. Las especificaciones técnicas de
un dispositivo a menudo indican la distorsión armónica total para un nivel de
señal dado, expresada como un porcentaje del nivel de señal general.
Debido a los armónicos adicionales que se agregan a una señal cuando
se distorsiona, el sonido adquiere un brillo y una dureza mayores. El recorte
de una señal aplana los picos de una forma de onda, agregando esquinas
afiladas a un pico recortado. Las nuevas esquinas agudas en la forma de onda
en el dominio del tiempo representan un mayor contenido de armónicos de
alta frecuencia en la señal, que se confirmaría mediante el análisis del dominio
de la frecuencia y la representación de la señal.

5.2.2 Soft Clipping


Una forma más leve de distorsión conocida como soft clipping u overdrive se
usa a menudo para lograr un efecto creativo en una señal de audio. Su timbre
es menos áspero que el clipping, y como se puede ver en la Figura 5.3, la forma
de una onda sinusoidal saturada no tiene las esquinas afiladas que están
presentes en una onda sinusoidal hard-clipped (Figura 5.2). Como se sabe por
el análisis de frecuencia, las esquinas agudas y las porciones verticales
empinadas de una forma de onda sinusoidal recortada indican la presencia de
armónicos de alta frecuencia.
La distorsión hard clipping se produce cuando la amplitud de una señal
se eleva por encima del nivel de salida máximo de un amplificador. Con etapas
de ganancia como los preamplificadores de micrófono de estado sólido, hay
un cambio abrupto de la ganancia lineal antes del clipping a la distorsión no
lineal. Una vez que una señal alcanza el nivel máximo de una etapa de
ganancia, no puede subir más, independientemente del aumento del nivel de
entrada; por lo tanto, hay picos aplanados como en la Figura 5.2. Es la
brusquedad del cambio de una amplificación limpia a un hard clipping lo que
introduce una distorsión tan áspera.
En el caso del soft clipping, hay una transición gradual, en lugar de un
cambio abrupto, entre la ganancia lineal y el nivel de salida máximo. Cuando
un nivel de señal es lo suficientemente alto como para alcanzar el rango de
transición, hay algo de aplanamiento de los picos de la señal (como en la Fig.
5.3) pero el resultado es menos severo que con un recorte fuerte.
Especialmente en grabaciones de música pop y rock, hay ejemplos del
uso creativo de recorte suave y saturación que mejoran los sonidos y crean
timbres nuevos e interesantes.
5.2.3 Distorsión por error de cuantificación
En el proceso de convertir una señal analógica en una representación PCM
digital, los niveles de amplitud analógica para cada muestra se cuantifican en
un número finito de pasos. El número de bits de datos almacenados por
muestra determina el número de posibles pasos de cuantificación disponibles
para representar los niveles de voltaje analógico. Un convertidor de analógico
a digital registra y almacena valores de muestra utilizando dígitos binarios o
bits, y cuantos más bits estén disponibles, más pasos de cuantificación serán
posibles.
El estándar del Libro Rojo para audio con calidad de CD especifica 16 bits
por muestra, lo que representa 216 o 65.536 pasos posibles desde el nivel de
voltaje positivo más alto hasta el valor negativo más bajo. Por lo general, se
eligen profundidades de bits más altas para la etapa inicial de una grabación.
Dada la opción, la mayoría de los ingenieros de grabación grabarán usando al
menos 24 bits por muestra, lo que corresponde a 224 o 16.777.216 posibles
pasos de amplitud entre los voltajes analógicos más altos y más bajos. Incluso
si el producto final es solo de 16 bits, es mejor grabar inicialmente a 24 bits
porque cualquier cambio de ganancia o procesamiento de señal aplicado
requerirá una recuantización. Cuantos más pasos de cuantificación estén
disponibles para empezar, más precisa será la representación de una señal
analógica.
Cada paso cuantificado de audio digital PCM lineal es una aproximación
de la señal analógica original. Debido a que es una aproximación, habrá una
cierta cantidad de error en cualquier representación digital. El error de
cuantificación es esencialmente la distorsión de una señal de audio. Los
ingenieros generalmente minimizan la distorsión del error de cuantificación
aplicando dither o modelado de ruido, lo que aleatoriza el error. Con el error
aleatorio producido por el dither, la distorsión se reemplaza por ruido
constante que generalmente se considera preferible a la distorsión.
Lo interesante del proceso de cuantificación de amplitud es que la
relación señal-error cae a medida que se reduce el nivel de la señal. En otras
palabras, el error se vuelve más significativo para señales de nivel inferior. Por
cada 6 dB que una señal esté por debajo del nivel máximo de grabación de
audio digital (0 dB FS), se pierde 1 bit de representación binaria. Por cada bit
perdido, el número de pasos de cuantificación se reduce a la mitad. Una señal
registrada a 16 bits por muestra a una amplitud de 􀀒12 dB FS solo utilizará 14
de los 16 bits disponibles, lo que representa un total de 16 384 pasos de
cuantificación.
Aunque los picos de señal de una grabación pueden estar cerca del nivel
de 0 dB FS, a menudo hay otros sonidos de nivel más bajo dentro de una
mezcla que pueden sufrir más errores de cuantificación. Muchas grabaciones
que tienen un rango dinámico amplio pueden incluir porciones significativas
donde las señales de audio se mueven a un nivel muy por debajo de 0 dB FS.
Un ejemplo de sonido de bajo nivel dentro de una grabación es la
reverberación y la sensación de espacio que crea. Con un error de
cuantificación excesivo, quizás como resultado de la reducción de la
profundidad de bits, se pierde parte del sentido de profundidad y ancho que
transmite la reverberación. Al aleatorizar el error de cuantificación con el uso
de dither durante la reducción de la profundidad de bits, se puede recuperar
parte de la sensación de espacio y reverberación perdidas, pero con el costo
del ruido adicional.

5.2.4 Ejercicios del módulo de software


El módulo de software incluido "TETpracticeDist", que se centra en la
distorsión, permite al oyente practicar la audición de tres tipos diferentes de
distorsión: recorte suave, recorte fuerte y distorsión por reducción de
profundidad de bits.
Hay dos tipos de práctica principales con este módulo de software:
Emparejamiento e Identificación absoluta. El funcionamiento general del
software es similar a otros módulos discutidos anteriormente.

5.2.5 Distorsión del codificador perceptual


La codificación perceptiva de audio reduce significativamente la cantidad de
datos necesarios para representar una señal de audio con una degradación
mínima de la calidad del audio. En esta sección nos ocupamos de la
compresión de datos de audio con pérdida, que elimina el audio durante el
proceso de codificación. También existen formatos de codificación sin pérdida
que reducen el tamaño de un archivo de audio sin eliminar ningún audio. La
codificación sin pérdida es comparable al formato de archivo de computadora
ZIP, donde el tamaño del archivo se reduce pero no se eliminan los datos
reales.
Al convertir un archivo de audio digital PCM lineal a un formato con
pérdida de datos comprimidos como MP3, el 90% de los datos utilizados para
representar una señal de audio digital se eliminan y, sin embargo, la versión
codificada sigue sonando similar al archivo de audio original sin comprimir. Las
diferencias en la calidad del sonido entre una versión codificada de una
grabación y la versión PCM original son en su mayoría imperceptibles para el
oyente promedio, sin embargo, estas mismas diferencias en la calidad del
sonido pueden ser una gran fuente de frustración para un ingeniero de sonido
experimentado. Debido a la degradación de la señal durante el proceso de
codificación, la codificación perceptiva se considera un tipo de distorsión, pero
es un tipo de distorsión que no se puede medir fácilmente, al menos
objetivamente. Debido a la dificultad de obtener medidas objetivas
significativas de la distorsión y la calidad del sonido con codificadores
perceptuales, su desarrollo ha involucrado a oyentes expertos que son
expertos en identificar artefactos audibles resultantes del proceso de
codificación. Los oyentes expertos escuchan grabaciones de música
codificadas a varias velocidades de bits y niveles de calidad y luego califican la
calidad del audio en una escala subjetiva. Los oyentes expertos entrenados se
vuelven expertos en identificar rápidamente la distorsión y los artefactos
producidos por los codificadores perceptivos porque saben dónde enfocar su
atención auditiva y qué escuchar.
Con la proliferación de música descargable de Internet, la música
codificada por percepción se ha vuelto omnipresente, siendo la versión más
conocida el MP3, más técnicamente conocido como MPEG-1 Audio Layer-3.
Hay muchos otros esquemas de codificación-decodificación (códec) que se
conocen con nombres como AAC (codificación de audio avanzada), WMA
(Windows Media Audio), AC-3 (también conocido como Dolby Digital) y DTS
(Digital Theater Systems). Los códecs reducen la cantidad de datos necesarios
para representar una señal de audio digital al eliminar componentes de una
señal que se consideran inaudibles según los modelos psicoacústicos. La
principal mejora de los códecs durante años de desarrollo y progresión ha sido
que son más inteligentes en la forma en que eliminan los datos de audio y son
cada vez más transparentes a velocidades de bits más bajas. Es decir, producen
menos artefactos audibles para una velocidad de bits determinada que la
generación anterior de códecs. Los modelos psicoacústicos que se utilizan en
los códecs se han vuelto más complejos y los algoritmos utilizados en la
detección de señales y la reducción de datos basados en estos modelos se han
vuelto más precisos. Aun así, cuando se compara lado a lado con una señal
original, inalterada, es posible escuchar la diferencia entre los dos.
El proceso de convertir un audio digital PCM lineal (como AIFF, WAV o
BWF) a MP3, AAC, WMA, RealAudio u otro formato codificado con pérdida
elimina componentes de una señal de audio que un codificador considera que
no podemos escuchar. Los codificadores realizan varios tipos de análisis para
determinar el contenido de frecuencia y la envolvente de amplitud dinámica
de una señal de audio, y basándose en modelos psicoacústicos de la audición
humana, los codificadores eliminan componentes de una señal de audio que
probablemente sean inaudibles. Algunos de estos componentes son sonidos
más bajos que están parcialmente enmascarados por sonidos más fuertes en
una grabación. Los sonidos que se determine que están enmascarados o
inaudibles se eliminan y la señal de audio codificada resultante se puede
representar con menos datos de los que se usaron para representar la señal
original. Desafortunadamente, el proceso de codificación también elimina los
componentes audibles de una señal de audio y, por lo tanto, los sonidos de
audio codificados se degradan con respecto a una señal original no codificada.
A medida que exploramos los artefactos audibles y la distorsión de la
señal del audio codificado, aquí hay algunos elementos en los que centrarse
mientras practicamos la escucha crítica:
• Claridad y nitidez. Escuche la pérdida de claridad y nitidez en las señales
de percusión y transitorias. La pérdida de claridad puede traducirse en
la sensación de que hay un velo delgado que cubre la música. En
comparación con el PCM lineal, el audio no codificado debería sonar
más directo.
• Reverberación. Escuche alguna pérdida de reverberación y otros
componentes de baja amplitud. El efecto de la reverberación perdida
generalmente se traduce en menos profundidad y amplitud en una
grabación y el espacio percibido alrededor de la música (acústica o
artificial) es menos evidente.
• Audio codificado. Un poco gorjeante o swooshy. Las notas musicales que
se sostienen, especialmente con instrumentos solistas o voces
prominentes, no suenan tan suaves como deberían, y el sonido general
puede adquirir una calidad metálica.
• Falta de armónicos de alta frecuencia. Estos sonidos, como los de los
platillos, y los sonidos ruidosos, como los aplausos de la audiencia,
pueden adquirir una calidad swooshy.

5.2.6 Ejercicio: comparación de PCM lineal con audio codificado


Es importante investigar cómo varios codificadores de percepción afectan la
calidad del sonido. Una de las formas de explorar la degradación de la calidad
del sonido es codificar archivos de sonido PCM lineales y comparar el original
con la versión codificada para identificar cualquier diferencia audible. Hay
muchos programas gratuitos que codifican señales de audio, como iTunes
Player de Apple y Windows Media Player de Microsoft. Las deficiencias en la
calidad del sonido en el audio codificado pueden no ser inmediatamente
obvias a menos que estemos sintonizados con los tipos de artefactos que se
producen cuando se codifica el audio. Al alternar entre un archivo de audio
PCM lineal y una versión codificada del mismo audio, es más fácil escuchar las
diferencias que puedan estar presentes. Una vez que empezamos a aprender
a escuchar los tipos de artefactos que produce un codificador, se vuelven más
fáciles de escuchar sin hacer una comparación lado a lado de PCM codificado
con lineal.
Comience codificando un archivo de audio PCM lineal a varias
velocidades de bits en MP3, AAC o WMA e intente identificar cómo se degrada
una señal de audio. Las velocidades de bits más bajas dan como resultado un
tamaño de archivo más pequeño, pero también reducen la calidad del audio.
Los diferentes códecs (MP3, AAC y WMA) proporcionan resultados
ligeramente diferentes para una velocidad de bits determinada porque el
método de codificación varía de un códec a otro. Cambie entre el audio PCM
lineal original y la versión codificada. Intente codificar grabaciones de
diferentes géneros de música. Tenga en cuenta los artefactos sónicos que se
producen para cada tasa de bits y codificador.
Otra opción es comparar la transmisión de audio de fuentes en línea con
las versiones de PCM lineal que pueda tener. La mayoría de las estaciones de
radio y reproductores de música en línea utilizan audio con una tasa de bits
más baja que contiene artefactos de codificación más claramente audibles que
los que se encuentran con el audio de otras fuentes, como a través de iTunes
Store.

5.2.7 Ejercicio: Sustracción


Otro ejercicio interesante a realizar es restar un archivo de audio codificado de
una versión PCM lineal original del mismo archivo de audio. Para completar
este ejercicio, convierta un archivo PCM lineal a algún formato codificado y
luego conviértalo de nuevo a PCM lineal a la misma frecuencia de muestreo.
Importe el archivo de sonido original y el archivo codificado / decodificado
(ahora PCM lineal) en una estación de trabajo de audio digital (DAW), en dos
pistas estéreo diferentes, teniendo cuidado de alinearlos en el tiempo con la
mayor precisión posible. Al reproducir juntas las pistas estéreo sincronizadas,
invierta la polaridad del archivo codificado / decodificado para que se reste del
original. Siempre que las dos pistas estéreo estén alineadas con precisión en
el tiempo, todo lo que sea común a ambas pistas se cancelará, y el audio
restante que se escucha es el que fue eliminado por el códec. Al hacer este
ejercicio, ayuda a resaltar los tipos de artefactos que están presentes en el
audio codificado.
5.2.8 Ejercicio: escuchar audio codificado a través del procesamiento mid-
side
Al dividir un archivo codificado en sus componentes central y lateral (M-S), se
pueden descubrir algunos de los artefactos creados por el proceso de
codificación. El proceso de codificación perceptual se basa en el
enmascaramiento para ocultar los artefactos que se crean en el proceso.
Cuando una grabación estéreo se convierte en componentes M y S y se elimina
el componente M, los artefactos suelen ser mucho más audibles. En muchas
grabaciones, especialmente en el género pop / rock, el componente M forma
la mayor parte de la señal de audio y puede enmascarar una gran cantidad de
artefactos de codificación. Al reducir el componente M, el componente S se
vuelve más audible junto con los artefactos del codificador.
Intente codificar un archivo de audio con un codificador perceptual a
una velocidad de bits común, como 128 kbps, y decodificarlo nuevamente en
PCM lineal (WAV o AIFF). Es posible utilizar el módulo de software matricial M-
S incluido con este libro para escuchar el efecto que la decodificación M-S
puede tener al resaltar los efectos de un códec.

Resumen
En este capítulo exploramos algunos de los sonidos indeseables que pueden
aparecer en una grabación. Al practicar con el módulo de entrenamiento
auditivo del software de distorsión incluido y completar los ejercicios,
podemos ser más conscientes de algunas formas comunes de distorsión.
En el Capítulo 4 discutimos la modificación de la envolvente de amplitud de
una señal de audio a través del procesamiento dinámico. En este capítulo
exploraremos la envolvente de amplitud y el entrenamiento técnico del oído
desde una perspectiva ligeramente diferente: la de un editor de audio.
El proceso de edición de audio digital, especialmente con música clásica
o acústica utilizando un método de origen-destino, ofrece una excelente
oportunidad para entrenar el oído. Asimismo, el proceso de edición musical
requiere que un ingeniero tenga un buen oído para el empalme transparente
de audio. La edición de música implica hacer conexiones transparentes o
empalmes entre tomas de una pieza musical y, a menudo, requiere especificar
ubicaciones de edición precisas de oído. En este capítulo exploraremos cómo
los aspectos de la edición digital pueden usarse sistemáticamente como un
método de entrenamiento auditivo, incluso fuera del contexto de una sesión
de edición. El capítulo describe una herramienta de software basada en
técnicas de edición de audio que es un entrenador auditivo eficaz que ofrece
beneficios que se transfieren más allá de la edición de audio.

6.1 Edición de audio digital: la técnica de origen-destino


Antes de describir el software y el método para entrenar el oído, es importante
comprender algunas técnicas de edición de audio digital que se utilizan con la
música clásica. La música clásica requiere un alto nivel de precisión, quizás más
que otros tipos de música, para lograr el nivel de transparencia requerido.
Empíricamente, a través de cientos de horas de edición de música
clásica, he descubierto que el proceso de ajustar repetidamente la ubicación
de los puntos de edición y crear fundidos cruzados suaves de oído no solo da
como resultado una grabación limpia, sino que también puede mejorar las
habilidades auditivas que traducen a otras áreas de escucha crítica. A través
de una escucha altamente enfocada requerida para la edición de audio, con el
objetivo de hacer coincidir los puntos de edición de diferentes tomas, el
ingeniero de edición está participando en una forma efectiva de
entrenamiento auditivo.
Los sistemas de edición de audio digital permiten a un ingeniero de
edición ver una representación visual de una forma de onda y mover, insertar,
copiar o pegar archivos de audio en cualquier ubicación a lo largo de una línea
de tiempo visual. Para partes importantes de la edición de grabaciones de
música, primero se encuentra una estimación aproximada de una ubicación de
edición, seguida de la ubicación precisa de una ubicación de punto de edición
a través de la escucha. A pesar de tener una representación visual de una
forma de onda, a menudo es más eficiente y más preciso encontrar la
ubicación precisa de una edición de oído.
Durante el proceso de edición, un ingeniero recibe una lista de tomas de
una sesión de grabación y ensambla una pieza musical completa utilizando las
mejores tomas de cada sección de un score. Un método común para editar
música clásica o acústica se conoce como origen-destino. Básicamente, el
ingeniero construye una interpretación musical completa (el destino) tomando
los mejores extractos de una lista de tomas de sesión de grabación (la fuente)
y uniéndolos.
En la edición de origen-destino, la ubicación de una edición se encuentra
siguiendo una partitura musical y colocando un marcador en un punto de
edición elegido a lo largo de la línea de tiempo de la forma de onda visual que
representa la música grabada. El ingeniero de edición suele hacer una audición
de un fragmento corto (normalmente de 0,5 a 5 segundos de duración) de una
toma grabada, hasta una nota musical específica en la que se va a realizar una
edición. A continuación, se hace una audición del mismo extracto musical de
una toma diferente y se compara con la primera. Por lo general, el punto final
de tal extracto se elegirá para que ocurra precisamente al comienzo de una
nota musical y, por lo tanto, el punto de conexión será inaudible. El objetivo
de un ingeniero de edición es centrarse en las características sonoras del inicio
de la nota que se produce durante los últimos milisegundos de un extracto y
hacer coincidir la calidad del sonido entre las tomas ajustando la ubicación del
punto de edición (es decir, el punto final del extracto). El marcador del punto
de edición puede aparecer como un corchete móvil en la forma de onda de la
señal de audio, como en la Figura 6.1.

Figura 6.1 Una vista típica de una forma de onda en un editor digital con el marcador de punto de edición que indica dónde
ocurrirá el punto de edición y el audio se fundirá en una nueva toma. La ubicación del marcador, indicada por un corchete
grande, es ajustable en el tiempo (izquierda / antes o derecha / después). La flecha indica simplemente que el soporte se
puede deslizar hacia la izquierda o hacia la derecha. El ingeniero de edición escuchará el audio hasta este corchete grande
con un tiempo de pre-roll predeterminado que suele oscilar entre 0,5 y 5 segundos.

Figura 6.2 El ingeniero de edición escucha los archivos de audio de origen y de destino, hasta un punto de edición elegido,
generalmente al comienzo de una nota o tiempo. En una sesión de edición, los dos clips de audio (origen y destino) serían
de material musical idéntico, pero de tomas diferentes. El ingeniero hace una audición de los extractos de audio hasta un
punto de edición elegido, generalmente ubicado a la mitad del ataque de una nota o ritmo fuerte. Uno de los objetivos
del ingeniero es responder a la pregunta, ¿el punto final en la fuente coincide con el del destino? Cuanto mayor sea la
similitud entre los dos timbres de corte, más exitosa será la edición. El módulo de software que se presenta aquí recrea el
proceso de escuchar un clip de sonido hasta un punto predefinido y hacer coincidir ese punto final en un segundo clip de
sonido.
Figura 6.3 Las líneas de tiempo de la forma de onda de origen y destino se muestran aquí en forma de bloque junto con
un ejemplo de cómo un conjunto de tomas (fuente) podría encajar para formar una actuación completa (destino). En este
ejemplo se asume que las tomas 1, 2 y 5 serían del mismo material de programa musical y, por lo tanto, se podría producir
una versión compuesta de las mejores secciones de cada toma para formar lo que se etiqueta como el destino en esta
figura.

Es el enfoque del ingeniero de edición en los milisegundos finales de un


extracto de audio lo que es fundamental para encontrar un punto de edición
apropiado. Cuando se elige un punto de edición para que esté al comienzo de
una nota musical, es importante establecer el punto de edición de manera que
realmente ocurra en algún momento durante el comienzo de un ataque de
nota. La figura 6.1 muestra una puerta (corchete que indica el punto de
edición) alineada con el ataque de una nota.
Cuando un ingeniero escucha un clip de audio hasta un punto de edición
elegido, la nueva nota que comienza a sonar, pero se detiene inmediatamente,
puede formar un sonido de percusión transitorio. Las características
específicas del sonido real de la nota cortada variarán directamente con la
cantidad de nota entrante que suena antes de ser cortada. La figura 6.2 ilustra
en forma de bloque el proceso de audición del material del programa de origen
y destino.
Una vez que las características de los últimos milisegundos de audio
coinciden lo más posible entre las tomas, se realiza una edición con un fundido
cruzado de una toma a otra y se hace una audición para comprobar si hay
anomalías sonoras. La figura 6.3 ilustra una versión compuesta como el
destino que se ha extraído de tres tomas de origen diferentes.
Durante el proceso de audición de un fundido cruzado, un ingeniero de
edición también presta mucha atención a la calidad del sonido del fundido
cruzado, que normalmente puede oscilar entre unos pocos y varios cientos de
milisegundos según el contexto (p. Ej., Notas sostenidas frente a transitorias).
El proceso de volver a escuchar un fundido cruzado y ajustar los parámetros
del fundido cruzado como la longitud, la posición y la forma también ofrece
una oportunidad para mejorar las habilidades auditivas críticas.

6.2 Módulo de ejercicios de software


Basado en la edición de origen-destino, el módulo de software de
entrenamiento auditivo incluido fue diseñado para imitar el proceso de
comparar los últimos milisegundos de dos clips cortos de música idéntica de
diferentes tomas. La ventaja del módulo de práctica de software es que
promueve las habilidades auditivas críticas sin requerir un proyecto de edición
real. La principal diferencia al trabajar con el módulo de práctica es que el
software funcionará con una sola "toma", que es cualquier archivo de sonido
PCM lineal cargado. Debido a esta diferencia, los dos clips de audio serán
señales idénticas y, por lo tanto, Es posible encontrar puntos finales de sonido
idénticos. El beneficio de trabajar de esta manera es que el software tiene la
capacidad de juzgar si los clips de sonido terminan precisamente en el mismo
punto.
Para empezar, el software elige al azar un fragmento o clip corto (que se
llama clip 1 o la referencia) de cualquier grabación de música estéreo cargada
en el software. La duración exacta del clip 1 no se revela, pero se puede
audicionar. Las longitudes de los extractos, que van desde 500 milisegundos
hasta 2 segundos, también se eligen al azar para garantizar que no se esté
entrenando simplemente para identificar la duración de los clips de audio. Un
segundo clip (clip 2 o su respuesta) de duración conocida, y con un punto de
partida idéntico al clip 1, también se puede escuchar y comparar con el clip 1.
Los clips se pueden escuchar tantas veces como sea necesario presionando el
botón apropiado o atajo de teclado.
El objetivo del ejercicio es ajustar la duración del clip 2 hasta que finalice
exactamente en el mismo punto en el tiempo que el clip 1. Al escuchar la
envolvente de amplitud, el timbre y el contenido musical de los últimos
milisegundos de cada clip, es posible comparar los dos clips y ajustar la
duración del clip 2 para que el sonido de su punto final coincida con el clip 1.
Al seguir un ciclo de audición, comparación y ajuste de la duración del clip 2,
el objetivo es identificar el punto final características del clip 1 y haga coincidir
esas características con el clip 2.
La duración del clip 2 se ajusta "empujando" el punto final antes o
después en el tiempo. Hay diferentes tamaños de pasos de tiempo de empuje
entre los que elegir, por lo que la duración del clip se puede ajustar en
incrementos de 5, 10, 15, 25, 50 o 100 milisegundos. Cuanto menor sea el
tamaño del paso de empuje, más difícil será escuchar la diferencia de un paso
a otro.
La figura 6.4 muestra las formas de onda de cuatro clips de sonido de
longitud creciente de 825 ms a 900 ms en pasos de 25 ms. Este ejemplo
particular muestra cómo el final del clip puede variar significativamente según
la duración elegida. Aunque la segunda (850 ms) y la tercera (875 ms) formas
de onda de la Figura 6.4 parecen muy similares, hay una diferencia notable en
el sonido percusivo o transitorio percibido al final. Con tamaños de pasos o
empujones más pequeños, la diferencia entre los pasos sería menos obvia y
requeriría más entrenamiento para una identificación correcta.

Figura 6.4 Clips de una grabación de música de cuatro longitudes diferentes: 825 ms, 850 ms, 875 ms y 900 ms. Este
ejemplo particular muestra cómo el final del clip puede variar significativamente según la duración elegida. El oyente
puede concentrarse en la calidad del sonido de percusión al final del clip para determinar cuál suena más como la
referencia. El clip de 825 ms de duración contiene un leve sonido de percusión al final del clip, pero debido a que la nota
que comienza a sonar (un golpe de batería en este caso) se corta casi por completo, sale como un clic corto. En este
ejemplo específico, el oyente puede concentrarse en la calidad de percusión, el timbre y la envolvente del golpe de batería
entrante al final del clip para determinar la duración correcta del clip de sonido.
Después de decidir la duración de un clip, se puede presionar el botón
"Comprobar respuesta" para encontrar la respuesta correcta y continuar
escuchando los dos clips para esa pregunta. El software indica si la respuesta
a la pregunta anterior fue correcta o no y si es incorrecta, indica si el clip 2 fue
demasiado corto o demasiado largo y la magnitud del error. La figura 6.5
muestra una captura de pantalla del módulo de software.
No hay una vista de la forma de onda como se vería normalmente en un
editor digital porque el objetivo es crear un entorno en el que debamos confiar
únicamente en lo que se escucha con información visual mínima sobre la señal
de audio. Sin embargo, hay una barra negra que aumenta en longitud sobre
una línea de tiempo, siguiendo la reproducción del clip 2 en tiempo real, como
una indicación visual de que se está reproduciendo el clip 2. Además, los
botones de reproducción de los clips respectivos se vuelven verdes
brevemente mientras se reproduce el audio y luego vuelven a gris cuando el
audio se detiene.
Con este método de entrenamiento auditivo, el objetivo es comparar un
sonido con otro e intentar igualarlos. No es necesario traducir la característica
de sonido a una descripción verbal, sino que la atención se centra únicamente
en las características de la señal de audio. Aunque hay una pantalla numérica
que indica la duración del clip de sonido, este número sirve solo como
referencia para realizar un seguimiento de dónde se establece el punto final.
El número no tiene ninguna relación con las características de sonido que se
escuchan, salvo en un extracto específico. Por ejemplo, un clip de 600 ms
elegido al azar tendrá características de punto final diferentes de la mayoría
de los otros clips de 600 ms elegidos al azar.
Figura 6.5 Una captura de pantalla del software de formación. Los cuadrados grandes con "1" y "2" son botones de
reproducción para los clips 1 y 2, respectivamente. El clip 1 (la referencia) tiene una duración desconocida y la longitud
del clip 2 debe ajustarse para que coincida con el clip 1. Debajo del botón de reproducción del clip 2 hay dos barras
horizontales. El superior indica, con una barra vertical, la duración del clip 2, en la línea de tiempo de 0 a 2000
milisegundos. La barra inferior aumenta en longitud (de izquierda a derecha) hasta la línea vertical en la barra superior,
siguiendo la reproducción del clip 2, para servir como una indicación visual de que se está reproduciendo el clip 2.

Los ejercicios de práctica deben progresar desde los ejercicios menos


desafiantes con pasos grandes de 100 ms hasta los ejercicios más desafiantes
donde el tamaño de paso más pequeño es de 5 ms.
Casi cualquier grabación estéreo en el formato de PCM lineal AIFF o
WAV se puede utilizar con el software de entrenamiento, siempre que tenga
al menos 30 segundos de duración.

6.3 Enfoque del ejercicio


Con el tipo de programa de formación descrito en este capítulo, el objetivo
principal es centrarse en la envolvente de amplitud de una señal en un punto
específico en el tiempo, que es el final de un breve extracto de audio. Aunque
el audio no se procesa de ninguna manera, la ubicación del punto final
determina cómo y en qué punto se puede cortar una nota musical. En este
ejercicio, céntrese en los últimos milisegundos del primer clip, mantenga el
sonido final en la memoria y compárelo con el segundo clip.
Debido a que el software elige aleatoriamente la ubicación de un
extracto, un punto final puede ocurrir en casi cualquier lugar de una señal de
audio. No obstante, existen dos casos específicos en los que es importante
describir la ubicación de un corte: los que ocurren en la entrada de una nota o
tiempo fuerte y los que ocurren durante una nota sostenida, entre golpes
fuertes.
Primero, se puede explorar el resultado de un corte que cae al comienzo
de una nota o tiempo fuerte. Si el corte se produce durante la parte de ataque
de una nota musical, se puede producir una señal transitoria cuyas
características varían donde se corta la envolvente de amplitud de una nota,
lo que permite la coincidencia de un sonido transitorio ajustando el punto de
corte. Dependiendo de la cantidad de nota o sonido de percusión que se corta,
el contenido espectral de ese sonido en particular variará con la duración
modificada de la nota. Con respecto a una nota recortada al final,
generalmente un segmento de nota más corto tendrá un centroide espectral
más alto que un segmento más largo y tendrá una calidad de sonido más
brillante. El centroide espectral de una señal de audio es la frecuencia
promedio de un espectro y describe dónde se encuentra el centro de masa de
un espectro. Si hay un clic al final de un extracto, producido como resultado
de la ubicación del punto final en relación con la forma de onda, puede servir
como una señal para la ubicación del punto final. La calidad espectral del clic
se puede evaluar y comparar en función de su duración.
A continuación, se examina el caso de una señal de audio más sostenida
o decadente que se corta. Para este tipo de corte, se debe centrar la atención
en la duración de la señal sostenida y coincidir con su longitud. Esto podría ser
análogo a ajustar el tiempo de retención de un gate (procesador dinámico) con
un tiempo de liberación muy corto. Con este tipo de coincidencia, el enfoque
puede cambiar más a las cualidades musicales, como el tempo, para
determinar cuánto tiempo se mantiene la nota final antes de silenciarse.
Con cualquier ubicación de punto final, el requisito es rastrear la
envolvente de amplitud y el contenido espectral del final del clip. Uno de los
objetivos de este ejercicio es aumentar la agudeza auditiva, lo que facilita la
capacidad de escuchar detalles sutiles en una grabación de sonido que no eran
evidentes antes de dedicar mucho tiempo a la edición digital. Practicar con
este ejercicio puede comenzar a resaltar detalles de una grabación que pueden
no haber sido tan evidentes cuando se audicionó la pieza musical completa. Al
escuchar extractos cortos fuera de contexto de la pieza musical, los sonidos
dentro de una grabación se pueden escuchar de nuevas formas y algunos
sonidos pueden desenmascararse y, por lo tanto, ser más audibles. Permite
centrarse en características que pueden enmascararse parcial o
completamente cuando se escuchan en contexto (es decir, extractos mucho
más extensos) o características que simplemente son menos evidentes en un
contexto más amplio. La repetición de los clips fuera de contexto de toda la
grabación también puede contribuir a un cambio en la percepción de una señal
de audio. Es común que los compositores de música tomen extractos de
grabaciones musicales y las repitan para crear un nuevo tipo de sonido y
efecto, lo que permite a los oyentes escuchar nuevos detalles en el sonido que
pueden no haber sido evidentes antes.
El método de entrenamiento auditivo puede ayudarnos a concentrarnos
en funciones más silenciosas o de menor nivel (en medio de funciones más
ruidosas) de un material de programa determinado. Las características más
silenciosas de un programa son aquellas características que pueden estar
parcialmente o en su mayoría enmascaradas, perceptualmente menos
prominentes o consideradas en el fondo de una escena de sonido percibida o
escenario de sonido. Los ejemplos pueden incluir los siguientes (los
enumerados anteriormente se incluyen aquí nuevamente):
• Efectos de reverberación y delay para instrumentos específicos
• Artefactos de compresión de rango dinámico para instrumentos
específicos
• Calidad de sonido de un instrumento musical específico: sonidos de
brochas de batería o la articulación de un contrabajo acústico en una
pieza de jazz
• Características específicas de cada voz / instrumento musical, como la
naturaleza temporal o la ubicación espacial de los componentes de la
envolvente de amplitud (attack, decay, sustain, y release)
• Definición y claridad de elementos dentro de la imagen de sonido, ancho
de elementos individuales
Los sonidos sacados de contexto comienzan a dar una nueva impresión
de la calidad sonora y también la sensación musical de una grabación. A
menudo se escuchan detalles adicionales de un extracto cuando se reproduce
repetidamente un fragmento corto de música, detalles que no necesariamente
se escucharían en contexto.
Trabajar con este módulo de práctica y un ejemplo musical que presenta
voces prominentes, bajo acústico, guitarra acústica, piano y batería tocados a
la ligera (como “Desafinado” de Stan Getz y João Gilberto [1963]), trae nuevas
impresiones de los timbres. y cualidades de sonido encontradas en la
grabación que no eran evidentes previamente.
En esta grabación, la parte de percusión es bastante silenciosa y más en
el fondo, pero si un extracto cae entre frases vocales o acordes de guitarra, la
parte de percusión puede moverse perceptivamente al primer plano a medida
que el ejercicio de emparejamiento cambia nuestro enfoque. También puede
ser más fácil concentrarse en las características de la percusión, como su
reverberación o eco, si esa parte musical en particular se puede escuchar con
mayor claridad. Una vez que se identifican los detalles dentro de un pequeño
extracto, puede hacer que sea más fácil escuchar estas características dentro
del contexto de toda la grabación y también transferir el conocimiento de estas
características de sonido a otras grabaciones.

Resumen
Este capítulo describe un método de entrenamiento auditivo basado en la
técnica de edición de audio de origen-destino. Debido a la escucha crítica
requerida para realizar una edición de audio precisa, el proceso de encontrar
y hacer coincidir los puntos de edición puede servir como una forma eficaz de
entrenamiento auditivo. Con el módulo de ejercicios de software interactivo,
el objetivo es practicar la coincidencia de la longitud de un fragmento de
sonido con un fragmento de referencia. Al centrarse en el timbre y la
envolvente de amplitud de los milisegundos finales del clip, el punto final se
puede determinar en función de la naturaleza de los transitorios o la longitud
de las señales sostenidas. Al no incluir descriptores numéricos verbales o
significativos, el ejercicio se centra únicamente en la señal de audio percibida
y en hacer coincidir el punto final de las señales de audio.
Después de centrarnos en los atributos específicos del sonido grabado, ahora
estamos listos para explorar una perspectiva más amplia de la calidad del
sonido y la producción musical. La experiencia de practicar con cada uno de
los módulos de software y los tipos específicos de procesamiento descritos en
los capítulos anteriores nos prepara para centrarnos en estas características
sónicas dentro de un contexto más amplio de sonido grabado y acústico.
Una grabación de sonido es una interpretación y representación
específica de una interpretación musical. Escuchar una grabación es diferente
a asistir a una actuación en vivo, incluso para grabaciones con poco
procesamiento de señal. Una grabación de sonido puede ofrecer una
experiencia más enfocada y más clara que una actuación en vivo, al mismo
tiempo que crea una sensación de espacio. Es una perspectiva paradójica
escuchar a los músicos con un alto grado de claridad y, al mismo tiempo, tener
la experiencia de escuchar desde un lugar más distante debido al nivel de
energía reverberante. Además, un ingeniero de grabación y un productor a
menudo hacen ajustes en el nivel y el procesamiento durante el transcurso de
una pieza musical que resaltan los aspectos más importantes de una pieza y
guían al oyente a una experiencia musical específica.
Cada grabación tiene algo único que contar en términos de sus
cualidades tímbricas, espaciales y dinámicas. Es importante escuchar una
amplia variedad de grabaciones de muchos géneros musicales diferentes y
examinar las opciones de producción que se hicieron para cada grabación. Un
ingeniero puede familiarizarse con la grabación y mezcla de estéticas para
diferentes géneros de música que pueden informar su propio trabajo. Cuando
llega el momento de hacer una grabación, un ingeniero puede confiar en las
referencias internas para la calidad del sonido y el equilibrio de la mezcla para
ayudar a guiar un proyecto. Para cada grabación que parezca interesante
desde el punto de vista de la producción y la calidad del sonido, tome nota de
los créditos del personal de producción, incluidos el productor, el ingeniero de
grabación, el ingeniero de mezcla y el ingeniero de masterización. Con las
grabaciones distribuidas digitalmente, los créditos de producción no siempre
se enumeran con el audio, pero se pueden consultar a través de varios sitios
web como www.allmusic.com .Encontrar grabaciones adicionales de
ingenieros y productores a los que se hizo referencia anteriormente puede
ayudar en el proceso de caracterizar varios estilos y técnicas de producción.

7.1 Análisis de sonido de fuentes electroacústicas


En el desarrollo de las habilidades auditivas críticas, es necesario examinar,
explorar y analizar grabaciones de sonido para ayudar a comprender las firmas
sonoras de un artista, productor o ingeniero en particular. A través del proceso
de análisis es posible aprender a identificar qué aspectos de sus grabaciones
las hacen particularmente exitosas desde un punto de vista tímbrico, espacial
y dinámico.
La calidad del sonido, la fidelidad técnica y las características sonoras de
una grabación tienen un impacto significativo en la claridad con la que se
comunican a los oyentes el significado musical y las intenciones de una
grabación. Los componentes de una imagen estéreo se pueden deconstruir
para aprender más sobre el uso de la reverberación y los retardos,
panoramización, estratificación y equilibrio, procesamiento dinámico y
ecualización.
En su nivel más básico, el proceso de mezcla de sonido implica
esencialmente control de ganancia y cambios de nivel a lo largo del tiempo. Ya
sea que esos cambios sean de banda completa o selectivos de frecuencia,
estáticos o variables en el tiempo, manuales o mediante un compresor, el
componente básico de la mezcla de sonido es el control del nivel o la amplitud
del sonido. Los instrumentos individuales o incluso las notas individuales se
pueden subir o bajar de nivel para enfatizar el significado musical.
En el proceso crítico de escucha y análisis, existen numerosas capas de
deconstrucción, desde las características generales y totales de una mezcla
completa hasta los detalles específicos de cada fuente de sonido. En un nivel
mucho más profundo en el análisis de una grabación, un ingeniero que sea más
avanzado en las habilidades auditivas críticas puede comenzar a hacer
conjeturas sobre modelos específicos de equipos usados durante la grabación
y mezcla, basándose en los timbres y envolventes de amplitud de los
componentes de una imagen de sonido.
Una imagen estéreo producida por un par de altavoces se puede analizar
en términos de características que van desde completamente obvias hasta casi
imperceptibles. Un objetivo del entrenamiento auditivo, como un tipo de
aprendizaje perceptivo, es desarrollar la capacidad de identificar y diferenciar
características de una imagen sonora reproducida, especialmente aquellas que
pueden no haber sido evidentes antes de realizar ejercicios de entrenamiento.
Ahora consideraremos algunas de las características específicas de una imagen
estéreo o envolvente que es importante analizar. La lista incluye los
parámetros descritos en el documento técnico 3286 de la Unión Europea de
Radiodifusión titulado “Métodos de evaluación para la evaluación subjetiva de
la calidad del material de programas de sonido: música” (Unión Europea de
Radiodifusión [EBU], 1997):
• Ancho de banda general
• Equilibrio espectral
• Imagen auditiva
• Impresión espacial, reverberación y efectos basados en el tiempo
• Rango dinámico, cambios de nivel o ganancia, artefactos del
procesamiento dinámico (compresores / expansores)
• Ruido y distorsión
• Balance de elementos dentro de una mezcla

7.1.1 Ancho de banda general


El ancho de banda general se refiere al contenido de frecuencia y hasta qué
punto se extiende a las frecuencias más bajas y más altas del espectro de
audio. En esta parte del análisis, el objetivo es determinar si una grabación se
extiende de 20 Hz a 20 kHz, o si está limitada por banda de alguna manera. La
radio FM se extiende solo hasta aproximadamente 15 kHz y el ancho de banda
de la comunicación telefónica estándar varía de aproximadamente 300 a 3000
Hz. Una grabación puede estar limitada por su medio de grabación, un sistema
de sonido puede estar limitado por sus componentes electrónicos, y una señal
digital puede reducirse a un ancho de banda más estrecho para ahorrar
transmisión de datos. El efecto de reducir el ancho de banda se puede
escuchar mediante el uso de filtros de paso alto y paso bajo.
Al hacer un juicio sobre la extensión de alta frecuencia, se deben
considerar los matices más altos presentes en la grabación. Los tonos
fundamentales más altos de la música no superan los 4000 Hz, pero los
armónicos de los platillos y los instrumentos de metal alcanzan fácilmente los
20 000 Hz. La elección de un equipo de grabación o filtros por parte de un
ingeniero puede reducir intencionalmente el ancho de banda de un sonido, lo
que diferencia el ancho de banda del sonido acústico y grabado de un
instrumento.

7.1.2 Equilibrio espectral


Como vimos en el Capítulo 2, el equilibrio espectral se refiere al nivel relativo
de las bandas de frecuencia en todo el espectro de audio. En su análisis más
simple, puede describir el equilibrio de frecuencias altas a frecuencias bajas,
pero es posible ser más preciso e identificar resonancias y antirresonancias de
frecuencias específicas. El espectro de potencia de una señal de audio, que
puede ayudar a visualizar el equilibrio espectral de una señal, se puede medir
de varias formas. El cálculo más común del espectro de potencia es
probablemente mediante la transformada rápida de Fourier (FFT), que
especifica el contenido de frecuencia de una señal y las amplitudes relativas
de las bandas de frecuencia. El balance espectral del ruido rosa es plano
cuando se promedia durante un período de tiempo y se grafica en una escala
de frecuencia logarítmica. Se percibe que el ruido rosa tiene la misma energía
en todo el rango de frecuencias y, por lo tanto, tiene un equilibrio espectral
plano.
Mediante el análisis subjetivo del equilibrio espectral, escuche una
grabación de manera integral. Donde la posible combinación y el número de
resonancias de frecuencia se simplificaron en el Capítulo 2, el análisis ahora
está abierto a cualquier frecuencia o combinación de frecuencias. Tomando
una visión más amplia de una grabación, se abordan las siguientes preguntas:
• ¿Hay bandas de frecuencia específicas que sean más prominentes o
deficientes que otras?
• ¿Podemos identificar las resonancias por su frecuencia aproximada en
hercios?
• ¿Hay notas musicales específicas que son más prominentes que otras?

Las resonancias de frecuencia en las grabaciones pueden ocurrir debido


al uso deliberado de la ecualización, la ubicación del micrófono alrededor de
un instrumento que se está grabando o las características específicas de un
instrumento, como la afinación de un parche de tambor. La ubicación y el
ángulo de orientación de un micrófono tendrán un efecto significativo en el
equilibrio espectral del sonido grabado producido por un instrumento. Debido
a que los instrumentos musicales suelen tener patrones de radiación de sonido
que varían con la frecuencia, la posición del micrófono en relación con un
instrumento es fundamental a este respecto. (Para obtener más información
sobre los patrones de radiación de sonido de los instrumentos musicales,
consulte el libro de Dickreiter titulado Tonmeister Technology: Recording
Environments, Sound Sources, and Microphone Techniques [1989].) Además,
dependiendo de la naturaleza y el tamaño de un espacio de grabación, los
modos de resonancia pueden estar presentes y los micrófonos pueden captar
estos modos. Los modos de resonancia pueden amplificar ciertas frecuencias
específicas producidas por los instrumentos musicales. Todos estos factores
contribuyen al equilibrio espectral de un sistema de grabación o reproducción
de sonido y pueden tener un efecto acumulativo si se producen resonancias
de diferentes micrófonos en las mismas regiones de frecuencia.
7.1.3 Imagen auditiva
Una imagen auditiva, como la ha definido Woszczyk (1993), es “un modelo
mental del mundo externo que es construido por el oyente a partir de
información auditiva (p. 198)”. Los oyentes pueden localizar imágenes de
sonido que se producen a partir de combinaciones de señales de audio que
emanan de pares o conjuntos de altavoces. La impresión auditiva de sonidos
ubicados en varios lugares entre dos altavoces se conoce como imagen
estéreo. A pesar de tener solo dos fuentes de sonido físicas en el caso del
estéreo, es posible crear imágenes fantasmas de fuentes en ubicaciones entre
las ubicaciones reales de los altavoces, donde no existe una fuente física.
El uso de una imagen estéreo completa, que abarca todo el rango de
izquierda a derecha, es un aspecto importante de la producción que a veces se
pasa por alto. Escuchar con atención las grabaciones puede ilustrar una
variedad de tratamientos de imagen estéreo y panorámica. La ilusión de una
imagen estéreo se crea controlando las diferencias de amplitud entre canales
a través del panorama y las diferencias de tiempo entre canales a través del
retardo de tiempo. Las diferencias entre canales no se corresponden con las
diferencias interaurales cuando se reproducen a través de altavoces porque el
sonido de ambos altavoces llega a ambos oídos. Las técnicas de microfoneo
estéreo pueden proporcionar otro método más para controlar la amplitud
entre canales y las diferencias de tiempo debido a los patrones polares de los
micrófonos y al espaciado físico entre los micrófonos.
En el estudio de la producción musical y las técnicas de mezcla, se
encuentran varias convenciones en la panoramización de sonidos dentro de la
imagen estéreo entre varios géneros de música. Por ejemplo, el pop y el rock
generalmente enfatizan la parte central de la imagen estéreo, porque el
bombo, la caja, el bajo y las voces generalmente se desplazan hacia el centro.
Las partes de guitarra y teclado a veces se desplazan hacia un lado, pero en
general hay una energía significativa que se origina en el centro. Una mirada a
un medidor de correlación confirmaría lo que se escucha también, y una
grabación con un componente central fuerte dará una lectura cercana a 1 en
un medidor de correlación. Asimismo, si se invierte la polaridad de un canal y
se suman los canales izquierdo y derecho, una mezcla con una imagen central
dominante tendrá una cancelación significativa de la señal de audio. Cualquier
componente de señal de audio que esté igualmente presente en los canales
izquierdo y derecho (es decir, centro panorámico o monofónico) tendrá una
cancelación destructiva cuando se resten los dos canales.
La panorámica y la ubicación de los sonidos en una imagen estéreo
tienen un efecto definitivo sobre la claridad con la que los oyentes pueden
escuchar los sonidos individuales en una mezcla. El fenómeno del
enmascaramiento, en el que un sonido oscurece a otro, también debe
considerarse con la panorámica. Separar los sonidos resultará en una mayor
claridad, especialmente si ocupan registros musicales similares o contienen
contenido de frecuencia similar. La mezcla y el equilibrio musical y, por lo
tanto, el significado y el mensaje musical de una grabación se ven afectados
directamente por la panoramización de los instrumentos; el uso apropiado de
la panoramización puede dar a un ingeniero más flexibilidad para los ajustes
de nivel.
Mientras escucha el ancho de la imagen estéreo y la propagación de una
imagen de un lado a otro, las siguientes preguntas guían la exploración y el
análisis:
• En conjunto, ¿una imagen estéreo tiene una distribución equilibrada de
izquierda a derecha con todos los puntos entre los altavoces
representados por igual o hay lugares en los que parece que falta una
imagen?
• ¿Qué tan amplia o monofónica es la imagen?
• ¿Cuáles son las ubicaciones y los anchos de las fuentes de sonido
individuales en una grabación?
• ¿Son sus ubicaciones estables y definidas o ambiguas?
• ¿Con qué facilidad se pueden localizar las ubicaciones de las fuentes de
sonido dentro de una imagen estéreo?
• ¿Parece que la imagen de sonido tiene la distribución espacial correcta
y apropiada de las fuentes de sonido?
Al considerar este tipo de preguntas para cada grabación de sonido
encontrada, se puede desarrollar un sentido más fuerte para los tipos de
imágenes panorámicas y estéreo creadas por ingenieros y productores
profesionales.
7.1.4 Impresión espacial, reverberación y efectos basados en el tiempo
La impresión espacial de una grabación es fundamental para transmitir
emoción y drama en la música. La reverberación y el eco ayudan a establecer
el escenario en el que tiene lugar una actuación musical o una acción teatral.
Los oyentes pueden transportarse mentalmente al espacio en el que existe la
música a través de la fuerte influencia de las reflexiones tempranas y la
reverberación que envuelve la música en una grabación de sonido. Ya sea que
se capture un espacio acústico real en una grabación o se agregue una
reverberación artificial para imitar un espacio real, los atributos espaciales
transmiten una impresión general sobre el tamaño de un espacio. Un tiempo
de reverberación largo puede crear la sensación de estar en un espacio
acústico más grande, mientras que un tiempo de caída de reverberación corto
o un nivel bajo de reverberación pueden transmitir la sensación de un espacio
más íntimo y pequeño.
El análisis de la impresión espacial se puede dividir en las siguientes
subáreas:
• Tamaño aparente de la habitación:
o ¿Qué tan grande es la habitación?
o ¿Hay más de un tipo de reverberación presente en una
grabación?
o ¿La reverberación es real o artificial?
o ¿Cuál es el tiempo de reverberación aproximado?
o ¿Hay ecos o retrasos prolongados en la reverberación y las
reflexiones tempranas?
• Perspectiva de profundidad: ¿Se distinguen claramente los sonidos
colocados al frente de los del fondo?
• ¿Cuál es el balance espectral de la reverberación?
• ¿Cuál es la relación directa / reverberante?
• ¿Hay ecos fuertes o delays?
• ¿Existe algún efecto aparente basado en el tiempo, como chorus o
flanger?
Las grabaciones de música clásica pueden brindar a los oyentes la
oportunidad de familiarizarse con la reverberación de un espacio acústico real.
A menudo, las orquestas y artistas con presupuestos de grabación más altos
grabarán en salas de conciertos e iglesias con una acústica que se considera
muy propicia para la interpretación musical. La profundidad y la sensación de
espacio que se pueden crear con la captación adecuada de un espacio acústico
real son generalmente difíciles de imitar con reverberación artificial.
Agregar reverberación artificial a los sonidos secos no es lo mismo que
grabar instrumentos en un espacio acústico en vivo desde el principio. Si se
graba un sonido seco en un espacio acústicamente muerto con micrófonos
cercanos, entonces los micrófonos no captan el sonido que se irradia desde los
micrófonos. El sonido que se irradia desde la parte posterior de un
instrumento probablemente no se captará en un entorno de estudio seco.
Entonces, incluso cuando se agrega reverberación artificial de la más alta
calidad, no sonará igual que un instrumento grabado en un espacio acústico
en vivo con micrófonos cercanos y de sala.

7.1.5 Rango dinámico y cambios de nivel


El rango dinámico puede ser crítico para una grabación de música y diferentes
estilos de música requerirán diferentes rangos dinámicos. Pueden haber
amplias fluctuaciones en el nivel de sonido a lo largo de una pieza musical, ya
que un nivel dinámico sube a fortissimo y cae a pianissimo. Asimismo, se puede
examinar la microdinámica de una señal, cuyo análisis suele ser ayudado por
el uso de un medidor de nivel, como un medidor de programa de picos (PPM)
o un medidor digital. Para las grabaciones de pop y rock, generalmente el
rango dinámico desde el punto de vista del nivel es bastante estático, pero
podemos escuchar (y ver en un medidor) pequeñas fluctuaciones que ocurren
en ritmos fuertes y entre sus pulsos. Un medidor puede fluctuar más de 20 dB
para algunas grabaciones o tan solo 2 a 3 dB para otras. Las fluctuaciones de
20 dB representan un rango dinámico más amplio que las fluctuaciones más
pequeñas y, por lo general, indican que una grabación se ha comprimido
menos. Debido a que el sistema auditivo humano responde principalmente a
niveles promedio en lugar de niveles máximos en el juicio de volumen, una
grabación con fluctuaciones de amplitud más pequeñas sonará más fuerte que
una con fluctuaciones mayores, incluso si las dos tienen la misma amplitud
máxima.
En esta parte del análisis, escuche los cambios en el nivel de los
instrumentos individuales y de una mezcla estéreo general. Los cambios de
nivel pueden ser el resultado de cambios de ganancia manuales o una
reducción de ganancia automática dependiente de la señal producida por un
compresor o expansor. Los cambios de nivel dinámicos pueden ayudar a
magnificar las intenciones musicales y mejorar la experiencia auditiva. Una
desventaja de un rango dinámico amplio es que las secciones más silenciosas
son parcialmente inaudibles y, por lo tanto, restan valor a cualquier impacto
musical pretendido por un artista.

7.1.6 Ruido y distorsión


Muchos tipos diferentes de ruido pueden interrumpir o degradar una señal de
audio de una forma u otra y pueden presentarse en diferentes formas, como
un buzz o hum de 50 o 60 Hz, golpes de baja frecuencia de un micrófono o un
soporte que se golpea, ruidos externos como el de bocinas de automóviles o
aviones, chasquidos y estallidos por sincronización digital inexacta y caídas
(períodos muy cortos de silencio) como resultado de medios de grabación
defectuosos. Generalmente, el objetivo es evitar cualquier caso accidental de
ruido, a menos que, por supuesto, se adapte a un efecto artístico deliberado.
A menos que se distorsione intencionalmente un sonido, los ingenieros
tratan de evitar recortar cualquiera de las etapas en una cadena de señal. Por
tanto, es importante reconocer cuándo está ocurriendo y reducir el nivel de
una señal de forma adecuada. A veces es inevitable o se le escapa a los
implicados y está presente en una grabación terminada.

7.1.7 Equilibrio de los componentes dentro de una mezcla


Finalmente, en el análisis del sonido grabado, considere la mezcla o el balance
de los elementos dentro de una grabación. El equilibrio relativo de los
instrumentos puede tener una influencia muy significativa en el significado
musical, el impacto y el enfoque de una grabación. La amplitud de un elemento
dentro del contexto de una mezcla también puede tener un efecto en la
percepción de otros elementos dentro de la mezcla.
Piense en preguntas como las siguientes:
• ¿Están los niveles de amplitud de los instrumentos equilibrados
adecuadamente para el estilo de música?
• ¿Hay algún instrumento que suene demasiado fuerte u otro que sea
demasiado silencioso?
Toda la imagen del sonido percibido se puede analizar como un todo.
Asimismo, las características menos significativas de una imagen sonora
también pueden analizarse y pueden considerarse como un subgrupo. Algunas
de estas subfunciones pueden incluir las siguientes:
• Características específicas de cada componente, voz musical o
instrumento, como la naturaleza temporal o la ubicación espacial de los
componentes de la envolvente de amplitud (por ejemplo, attack, decay,
sustain, y release).
• Definición y claridad de elementos dentro de una imagen sonora
• Ancho y extensión espacial de elementos individuales
A menudo, para un oyente inexperto, las características específicas del
audio reproducido pueden no ser obvias o inmediatamente reconocibles. Un
oyente capacitado, por otro lado, probablemente podrá identificar y distinguir
características específicas del audio reproducido que no son evidentes para un
oyente no capacitado. Existe un ejemplo de este tipo en el mundo del
desarrollo de algoritmos de codificación perceptual, que ha requerido el uso
de oyentes capacitados por expertos para identificar las deficiencias en el
procesamiento. Los artefactos y la distorsión producidos durante la
codificación perceptiva no son necesariamente evidentes de inmediato hasta
que los oyentes críticos, que están probando software de codificación,
aprenden qué escuchar. Una vez que un oyente puede identificar los
artefactos de audio, puede resultar difícil no escucharlos.
A diferencia de escuchar música en un concierto en vivo, las grabaciones
de música (solo de audio, a diferencia de las acompañadas de video) requieren
que los oyentes confíen completamente en su sentido del oído. No hay
información visual para ayudar a seguir una banda sonora musical, a diferencia
de una actuación en vivo donde la información visual ayuda a completar
detalles que pueden no ser tan obvios en el dominio auditivo. Como resultado,
los ingenieros de grabación a veces exageran ciertas características sonoras de
una grabación de sonido, a través del control de nivel, procesamiento de rango
dinámico, ecualización y reverberación, para ayudar a involucrar al oyente.

7.2 Ejemplos de análisis


En esta sección haremos un estudio de algunas grabaciones, destacando las
opciones tímbricas, dinámicas, espaciales y de mezcla que son evidentes al
escuchar. Cualquiera de estas pistas sería apropiada para practicar con el
módulo de software EQ, escuchar altavoces y auriculares y realizar análisis
gráficos (consulte la Sección 7.3).
7.2.1 Sheryl Crow: “Strong Enough”
Crow, Sheryl. (1993). Tuesday Night Music Club. A&M Records.
Produced by Bill Bottrell.
La tercera pista del Tuesday Night Music Club de Sheryl Crow es
fascinante por el uso de numerosas capas de sonidos que se arreglan y mezclan
para formar una pista musical y tímbricamente interesante. Las partes
instrumentales se complementan y están bien equilibradas. Se requieren
numerosas audiciones de la pista para identificar todos los sonidos que están
presentes.
La pieza comienza con un pad sintetizador seguido de dos guitarras
acústicas panoramizadas a izquierda y derecha. El sonido de la guitarra no es
tan nítido como se podría imaginar con una guitarra acústica. En esta
grabación, las altas frecuencias de estas guitarras se han atenuado un poco,
quizás porque las cuerdas son viejas y se mezcla alguna señal de una pastilla
de guitarra acústica.
La voz principal de Crow entra con un sonido seco pero intenso. Hay muy
poca reverberación en la voz y el timbre es bastante brillante. Un sonido nítido
y claro de 12 cuerdas contrasta con el sonido apagado de las otras dos
guitarras. El bajo eléctrico fretless entra para redondear los tonos más bajos.
La percusión manual se desplaza hacia la izquierda y hacia la derecha para
completar el componente espacial de la imagen estéreo.
El coro presenta un ride cymbal bastante seco y un sonido agudo y
flautista de Hammond B3 bastante bajo en la mezcla. Después del estribillo,
entra un pedal de acero y luego se desvanece antes del siguiente verso. El
puente presenta mandolinas de rasgueo brillantes y claras que se desplazan a
izquierda y derecha. Coros, panoramizados a izquierda y derecha, hacen eco
de la voz principal de Crow.
La instrumentación y la superposición no convencional de sonidos
contrastantes hacen que esta grabación sea interesante desde un punto de
vista de análisis subjetivo. El arreglo de la pieza da como resultado varios tipos
de instrumentos que van y vienen para enfatizar cada sección de la música. A
pesar del ir y venir de los instrumentos y la cantidad de capas presentes, la
música suena clara y coherente.
7.2.2 Peter Gabriel: “In Your Eyes”
Gabriel, Peter. (1986). So. Produced by Daniel Lanois and Peter Gabriel.
Engineered by Kevin Killen and Daniel Lanois. The David Geffen Company.
Esta pista de Peter Gabriel es un estudio sobre la superposición exitosa
de sonidos que crean una mezcla completa tímbrica, dinámica y espacial. La
música comienza con un sonido de piano chorused, un pad sintetizador y una
percusión. El bajo y la batería entran poco después, seguidos por la voz
principal de Gabriel.
Hay una sensación inmediata de espacio en la primera nota de la pista.
No hay una disminución obvia de la reverberación al principio, sin embargo, la
combinación de todos los sonidos, cada uno con su propia sensación de
espacio, crea una sensación de apertura. La caída de la reverberación es más
audible después del estribillo cuando la percusión y los sintetizadores suenan
durante unos compases.
A pesar de las múltiples capas de percusión, como el talking drum y el
triángulo, junto con la sección rítmica completa, la mezcla es agradablemente
completa y, sin embargo, se mantiene despejada. Las diversas partes de
percusión y la batería ocupan un área amplia en la imagen estéreo, lo que
ayuda a crear un espacio en el que se sienta la voz principal.
El timbre vocal tiene un sonido cálido, pero ligeramente áspero. Está
completamente respaldado por la variedad de batería, bajo, percusión y
sintetizadores a través de la pieza. El cantante senegalés Youssou N’Dour
realiza un solo al final de la pieza, que se superpone con otras voces que se
despliegan hacia los lados. La línea de bajo es contundente y articulada, suena
como si estuviera bastante comprimida, y contribuye significativamente a la
base rítmica de la pieza.
La distorsión está presente en algunos sonidos, comenzando con el
golpe de tambor ligeramente crujiente en el tiempo fuerte de la pieza. Otros
sonidos están ligeramente distorsionados en algunos lugares y los efectos de
compresión son audibles. Ciertamente, esta no es la grabación más limpia que
se puede encontrar, sin embargo, los artefactos de distorsión y compresión
funcionan para agregar vida y emoción a la grabación.
En general, esta grabación demuestra un uso fascinante de muchas
capas de sonido, incluida la percusión acústica y los sintetizadores
electrónicos, que crean la sensación de un gran espacio abierto en el que se
cuenta una historia musical.
7.2.3 Lyle Lovett: “Church”
Lovett, Lyle. (1992). Joshua Judges Ruth. Produced by George Massenburg,
Billy Williams, and Lyle Lovett. Recorded by George Massenburg and Nathan
Kunkel. Curb Music Company/MCA Records.
La grabación de Lyle Lovett de "Church" representa perspectivas
contrastantes. La pista comienza con el piano dando a un coro de gospel una
nota inicial, que tararean. La voz principal de Lovett entra inmediatamente con
los aplausos del coro en los tiempos dos y cuatro. El piano, el bajo y la batería
comienzan con un acompañamiento escaso de la voz y gradualmente se
construyen a partes más prominentes. Una cosa que llama la atención de
inmediato en esta grabación es la claridad de cada sonido. Los timbres de los
instrumentos y las voces representan espectros equilibrados uniformemente,
que surgen de la mezcla como un sonido natural.
La voz de Lovett es directa con muy poca reverberación, y su nivel en la
mezcla es constante de principio a fin. La batería tiene un ataque nítido con la
cantidad justa de resonancia. Cada golpe de batería emerge de la mezcla con
toms panorámicos a lo largo de la imagen estéreo. Los platillos son cristalinos
y añaden brillo al extremo superior de la grabación.
El coro de esta grabación acompaña a Lovett y responde a su canto.
Curiosamente, el coro suena como si estuviera ubicado en una pequeña iglesia
de campo, donde la reverberación se destaca especialmente con aplausos. El
coro y los aplausos asociados se desplazan ampliamente por la imagen
estéreo. A medida que los miembros del coro toman solos cortos, sus voces
individuales se manifiestan y son particularmente más secas que cuando están
con el coro.
La voz principal y la sección rítmica se presentan de forma bastante seca,
al frente, y esto contrasta con el coro, que se encuentra claramente en un
espacio más reverberante o al menos más distante.
Los niveles y el rango dinámico de cada instrumento se ajustan
correctamente, presumiblemente mediante alguna combinación de
compresión y control de fader manual. Cada componente de la mezcla es
audible y ninguno de los sonidos se oculta.
Los ruidos y la distorsión son completamente inexistentes en esta
grabación y, obviamente, se ha tenido mucho cuidado para eliminar o prevenir
cualquier ruido extraño. Tampoco hay evidencia de clipping y cada sonido está
limpio.
Esta grabación se ha convertido en un clásico en términos de calidad de
sonido y también se ha mezclado con sonido envolvente como una versión
independiente.
7.2.4 Sarah McLachlan: “Lost”
McLachlan, Sarah. (1991). Solace. Produced and recorded by Pierre Marchand.
Nettwerk/Arista Records, Bertelsmann Music Group.
Esta pista comienza con una guitarra acústica algo reverberante pero
clara y brochas secas en un snare. Una voz principal algo aireada entra con un
gran espacio a su alrededor. La reverberación que crea el espacio alrededor de
la voz tiene un nivel bastante bajo, pero el tiempo de caída probablemente
esté en el rango de los 2 segundos. La reverberación se mezcla bien con la voz
y parece apropiada para el carácter de la pieza. El timbre de la voz es claro y
equilibrado espectralmente. La mezcla y compresión de la voz ha hecho que
su nivel esté constantemente por delante del conjunto.
La mandolina y la guitarra de 12 cuerdas se desplazan ligeramente hacia
la izquierda y hacia la derecha después del primer verso junto con el bajo
eléctrico y el pedal reverberante. El bajo toca algunos tonos por debajo de las
notas bajas estándar de un bajo, creando un sonido envolvente que apoya el
resto de la mezcla. Los coros se desplazan ligeramente hacia la izquierda y
hacia la derecha y se colocan un poco más atrás en la mezcla que la voz
principal. Los pads sintetizados, los coros y la guitarra con delay transforman
la mezcla en una textura de ensueño para un verso y luego se desvanecen para
un regreso de la mandolina y la guitarra de 12 cuerdas.
Los timbres de esta pista son claros, pero no duros. Hay una suavidad
general en los timbres y las bajas frecuencias, principalmente de los graves,
proporcionan una base sólida para la mezcla. (Curiosamente, algunos sonidos
en otras pistas de este álbum son ligeramente ásperos). La voz principal es el
sonido más prominente en la mezcla con voces de acompañamiento
mezcladas ligeramente más bajas que la voz principal. Las guitarras, la
mandolina y el bajo son el siguiente sonido más destacado en la mezcla. La
batería se ha ido casi por completo después de la introducción, pero regresa
al final. El baterista eleva la energía del coro final tocando golpes de tom y caja.
Los tambores se mezclan bastante bajo pero aún son audibles como una
textura rítmica y la batería tiene los toms desacoplados.
Con el sonido redondo, suave y completo de los graves, esta grabación
es útil para escuchar la respuesta de baja frecuencia de altavoces y auriculares.
No hay mucho ataque a los graves para identificar la articulación, pero su
sonido se adapta cómodamente a la música. Con una voz tan prominente y
equilibrada, la grabación también puede servir para ayudar a identificar
cualquier resonancia de frecuencia media o antirresonancia en un sistema de
reproducción de sonido.

7.2.5 Jon Randall: “In the Country”


Randall, Jon. (2005). Walking Among the Living. Produced by George
Massenburg and Jon Randall. Recorded by George Massenburg and David
Robinson. Epic/Sony BMG Music Entertainment.
La plenitud y claridad de esta pista están presentes desde la primera
nota. La guitarra acústica y la mandolina comienzan la introducción seguida
por la voz principal de Randall. La sección rítmica entra en el segundo verso,
que amplía el ancho de banda con platillos en el rango de alta frecuencia y
bombo en el rango de baja frecuencia. Varios colores musicales, como dobro,
violín, Wurlitzer y mandolina, se destacan en las características musicales
breves y luego se desvanecen en el fondo. Parece evidente que se tuvo mucho
cuidado para crear una mezcla en constante evolución que presenta frases
musicalmente importantes.
Los timbres de esta pista suenan naturalmente claros y completamente
equilibrados espectralmente. La voz está constantemente presente por
encima de los instrumentos, con una sutil sensación de reverberación para
crear un espacio a su alrededor. La batería no es tan prominente como en la
grabación de Lyle Lovett discutida anteriormente, y es un poco discreta. Los
platillos están presentes y claros, pero no dominan otros sonidos. El bajo es
suave y lleno, con suficiente articulación por su parte. Los sonidos de violín,
mandolina y guitarra son todos con cuerpo, nítidos y cálidos. Los altos
armónicos de la mandolina rasgada y las guitarras se mezclan con los
armónicos de los platillos en el rango de frecuencia superior. Además de la
integridad tímbrica de la pista, no hay evidencia de ningún ruido o distorsión.
La imagen estéreo se utiliza en toda su extensión con mandolinas,
guitarras y batería con panoramización amplia. El equilibrio de esta grabación
es impecable y hace uso de un tratamiento espacial musicalmente apropiado
(reverberación y paneo), procesamiento dinámico y ecualización.

7.3 Análisis gráfico de sonido


En la investigación sobre la percepción de imágenes sonoras producidas por
sistemas de audio para automóviles, los investigadores han utilizado técnicas
gráficas para obtener las percepciones de los oyentes sobre la ubicación y las
dimensiones de las imágenes sonoras (Ford et al., 2002, 2003; Mason et al.,
2000). El trabajo realizado por Usher y Woszczyk (2003) y Usher (2004) ha
buscado visualizar la ubicación, la profundidad y el ancho de las imágenes de
sonido dentro de un entorno de reproducción multicanal, para comprender
mejor las percepciones de los oyentes sobre las ubicaciones de las fuentes de
sonido en un entorno de reproducción de sonido de automóviles. En los
experimentos, se pidió a los oyentes que dibujaran fuentes de sonido
utilizando formas elípticas en una interfaz gráfica de computadora.
Al traducir lo que se escucha a un diagrama visual bidimensional, se
puede lograr un nivel de análisis distinto de las descripciones verbales. Aunque
no existe un método claro para ilustrar visualmente una percepción auditiva,
el ejercicio de hacerlo es muy útil para el análisis y la exploración sónica.
Usando una plantilla como la de la Figura 7.1, dibuje lo que se escucha
proveniente de un sistema de sonido. La ubicación de escucha relativa a un
sistema de sonido tendrá un efecto directo sobre la localización de imágenes
fantasma. La sección 1.3.2 ilustra la ubicación de escucha ideal para la
reproducción de sonido estéreo que proporcionará ubicaciones precisas de
imágenes fantasma.
Figura 7.1 Se alienta al lector a utilizar la plantilla que se muestra aquí como guía para el análisis gráfico de una imagen de
sonido, para visualizar las ubicaciones percibidas de las imágenes de sonido dentro de una grabación de sonido.

Las imágenes que se dibujan en la plantilla no deben parecerse a las


formas reales de los instrumentos musicales, sino que deben ser análogas a las
imágenes de sonido que se perciben desde los altavoces. Por ejemplo, la
imagen estéreo de una grabación de piano solo será muy diferente de la
imagen de un piano tocando con un conjunto, y sus imágenes visuales
correspondientes también se verían significativamente diferentes.
Los dibujos de imágenes estéreo deben etiquetarse para indicar cómo
las formas visuales se corresponden con las imágenes auditivas percibidas. Sin
etiquetas, pueden parecer demasiado abstractos para ser entendidos, pero
cuando se consideran en relación con sus respectivas grabaciones sonoras,
pueden ayudar al oyente a trazar una imagen sonora.
El análisis gráfico permite que la atención se centre en la ubicación, el
ancho, la profundidad y la difusión de las fuentes de sonido en una imagen de
sonido. Una representación visual de una imagen de sonido debe incluir no
solo el sonido directo de cada fuente de sonido, sino también cualquier efecto
espacial, como reflexiones y reverberación, presentes en una grabación.
7.4 Audio multicanal
Esta sección se centrará en el formato de reproducción multicanal más común
con 5.1 canales. El audio multicanal generalmente permite la reproducción
más realista de un campo de sonido envolvente, especialmente para
grabaciones de música puramente acústica en una sala de conciertos; este tipo
de grabación puede dejar a los oyentes con la impresión de estar sentados en
una sala, completamente envueltos por el sonido.
Por el contrario, el audio multicanal también ofrece la reproducción de
audio menos realista porque permite a un ingeniero colocar las fuentes de
sonido alrededor de un oyente. Por lo general, no hay músicos detrás de los
miembros de la audiencia en un concierto, aparte del órgano antifonal, latón
o coro, pero la reproducción de audio multicanal permite que un mezclador de
sonido coloque fuentes de sonido directas en la parte posterior de la posición
de escucha. Ciertamente, el audio multicanal tiene muchas ventajas sobre el
estéreo de dos canales, pero aún hay desafíos que considerar y oportunidades
para que la escucha crítica ayude con estos desafíos.
Aunque hay altavoces delante y detrás, en la recomendación ITU-R
BS.775-1 (ITU-R, 1994) (ver Fig. 1.3) existe un espacio bastante amplio entre el
altavoz frontal (30 °) y el altavoz envolvente más cercano (de 110 ° a 120 °). El
amplio espacio entre los altavoces delanteros y traseros dificulta la producción
de imágenes de sonido laterales, al menos con estabilidad y precisión de
ubicación.

7.4.1 El canal central


Una característica distintiva del entorno de reproducción 5.1 es la presencia
de un altavoz central situado a 0 ° entre los canales izquierdo y derecho. La
ventaja de un canal central es que puede ayudar a solidificar y estabilizar las
imágenes de sonido que se desplazan hacia el centro. Las imágenes fantasmas
en el centro de una configuración de altavoz estéreo convencional parecen
provenir del centro solo cuando el oyente está sentado en la ubicación de
escucha ideal, equidistante de los altavoces. Cuando un oyente se mueve hacia
un lado, una imagen fantasma central parece moverse hacia el mismo lado.
Debido a que un oyente ya no está equidistante de los dos altavoces, el sonido
llega primero al oyente desde el altavoz más cercano y se localizará en ese
altavoz debido a la ley del primer frente de onda que llega, también conocido
como efecto de precedencia o efecto Haas.
Aplicar un solo al altavoz central de una mezcla de sonido envolvente
ayuda a dar una idea de lo que un ingeniero de mezcla envió al canal central.
Al escuchar el canal central y explorar cómo se integra con los canales
izquierdo y derecho, haga preguntas como las siguientes:
• ¿La presencia o ausencia del canal central hace una diferencia
significativa en la imagen frontal?
• ¿Son los instrumentos principales o las voces los únicos sonidos en el
canal central?
• ¿Hay alguna batería o componente del kit de batería en el canal central?
• ¿Están presentes los graves en el canal central?
Si una grabación tiene voces principales prominentes y se panoramizan
solo en el canal central, es probable que parte de la reverberación, el eco y las
reflexiones iniciales se realicen en otros canales. En una mezcla de este tipo,
silenciar el canal central puede facilitar la audición de la reverberación sin
ningún sonido directo.
A veces, las imágenes fantasmas producidas por los canales izquierdo y
derecho se refuerzan con la imagen o canal central. Duplicar una imagen
fantasma central en el altavoz central puede hacer que la imagen central sea
más estable y sólida. A menudo, la señal que se envía a los canales izquierdo y
derecho puede retrasarse o modificarse de alguna manera, de modo que no
sea una copia exacta del canal central. Con los tres canales produciendo
exactamente la misma señal de audio, el oyente puede experimentar un comb
filtering con cambios en la ubicación de la cabeza a medida que las señales de
tres ubicaciones diferentes se combinan en los oídos (Martin, 2005).
La calidad espacial de una imagen fantasma producida entre los canales
izquierdo y derecho es marcadamente diferente de la imagen sólida del canal
central que reproduce exactamente la misma señal de audio por sí misma.
Algunos pueden preferir una imagen fantasma entre los altavoces izquierdo y
derecho a pesar de sus deficiencias, como el movimiento de la imagen
fantasma correspondiente a la ubicación del oyente. Una imagen fantasma
producida por dos altavoces generalmente será más amplia y con un sonido
más completo que un solo altavoz central que produzca el mismo sonido, que
puede percibirse como más estrecho y más restringido.
Es importante comparar diferentes canales de una grabación multicanal
y comenzar a formar una referencia interna para varios aspectos de una
imagen de sonido multicanal. Al hacer estas comparaciones y escuchar de
cerca y con atención, podemos formarnos impresiones sólidas de qué tipos de
sonidos son posibles de varios altavoces en un entorno envolvente.

7.4.2 Los canales envolventes


En el análisis de grabaciones envolventes, es útil centrarse en qué tan bien una
grabación en sonido envolvente de 5.1 canales logra una distribución uniforme
de adelante hacia atrás y si existe una imagen lateral. Las imágenes laterales
son difíciles de producir sin un altavoz real colocado a un lado debido a la
naturaleza de la audición binaural, que es mucho más precisa para localizar los
sonidos que se originan en el frente.
Localice varios elementos en una mezcla y examine la ubicación de los
sonidos alrededor del área de audición considerando algunas preguntas como:
• ¿Cómo se colocan los diferentes elementos de la mezcla?
• ¿Tienen ubicaciones precisas o es difícil determinar la ubicación exacta
porque un sonido parece provenir de muchas ubicaciones a la vez?
• ¿Cuál es la naturaleza de la reverberación y dónde se desplaza?
• ¿Existen diferentes niveles de reverberación y delay?
En los sistemas de reproducción envolvente, los canales traseros están
muy espaciados. El amplio espacio, junto con la audición binaural que tiene
menos agudeza espacial en la parte trasera, dificulta la creación de una imagen
trasera coherente y uniforme. Es importante escuchar solo los canales
envolventes. Al escuchar toda la mezcla, es posible que los canales traseros no
sean tan fáciles de escuchar debido a la predisposición del sistema auditivo al
sonido que llega desde el frente.
7.4.3 Ejercicio: comparación de estéreo con sonido envolvente
Comparar una mezcla estéreo y envolvente de la misma grabación musical
puede resultar esclarecedor. Se pueden escuchar muchos detalles en una
mezcla envolvente que no son tan audibles o que faltan en una mezcla estéreo.
Los sistemas de reproducción envolvente permiten que un ingeniero coloque
fuentes de sonido en muchos lugares diferentes alrededor de un área de
escucha. Debido a la separación espacial de las fuentes de sonido, hay menos
enmascaramiento en una mezcla envolvente. Escuchar una mezcla de sonido
envolvente y luego volver a su mezcla estéreo correspondiente puede ayudar
a resaltar elementos de una mezcla estéreo que antes no se escuchaban.

7.4.4 Ejercicio: comparación de versiones originales y remasterizadas


Varias grabaciones se han remasterizado y publicado varios años después de
su lanzamiento original. Remasterizar un álbum generalmente implica volver
a su mezcla estéreo original y aplicar una nueva ecualización, procesamiento
de dinámica, ajustes de nivel, procesamiento mid-side y posiblemente
reverberación. Comparar un lanzamiento original de un álbum con una versión
remasterizada es un ejercicio útil que puede ayudar a resaltar las
características tímbricas, dinámicas y espaciales típicamente alteradas por un
ingeniero de masterización.

7.5 altas tasas de muestreo


Ha habido una serie de acalorados debates sobre las ventajas o beneficios de
las altas velocidades de muestreo en audio digital. El formato de audio digital
de disco compacto especifica una frecuencia de muestreo de 44.100 Hz y una
profundidad de bits de 16 bits por muestra, según el estándar Red Book CD. A
medida que la tecnología de grabación ha evolucionado, ha permitido la
grabación y distribución de audio a los oyentes a velocidades de muestreo
mucho más altas. No hay duda de que las profundidades de bits superiores a
16 bits por muestra mejoran la calidad del audio, y los ingenieros suelen grabar
con al menos 24 bits por muestra. Como ejercicio, compare una grabación de
24 bits con una versión difuminada de 16 bits de la misma grabación y observe
las diferencias audibles.
La frecuencia de muestreo determina la frecuencia más alta que se
puede grabar y, por lo tanto, el ancho de banda de una grabación. El teorema
de muestreo establece que la frecuencia más alta que podemos registrar es
igual a la mitad de la frecuencia de muestreo. Las velocidades de muestreo
más altas permiten un ancho de banda más amplio para la grabación.
Aunque la diferencia entre una frecuencia de muestreo alta (96 kHz o
192 kHz) y una frecuencia de muestreo de 44,1 kHz es sutil y puede resultar
difícil escuchar alguna diferencia, comparar una frecuencia de muestreo alta
con un audio con calidad de CD puede resultar útil para ajustar las habilidades
auditivas. A medida que uno progresa para percibir diferencias audibles más
precisas entre los sonidos, puede resultar útil comparar el sonido grabado a
diferentes frecuencias de muestreo. Algunos ingenieros informan que una
grabación realizada a 96 kHz y con muestreo reducido a 44,1 kHz suena mejor
que una grabación que se origina a 44,1 kHz.
Una grabación con frecuencia de muestreo de 2,8224 MHz desde un
Super Audio CD (SACD) puede ofrecer una diferencia mayor que 96 kHz o 192
kHz en comparación con el audio con calidad de CD. Una de las diferencias
tiene que ver con la mejora de la claridad espacial. El panorama de
instrumentos y fuentes de sonido dentro de una imagen estéreo o envolvente
se puede definir con mayor claridad, las ubicaciones de las fuentes son más
precisas y la caída de la reverberación es generalmente más suave.
Con cualquiera de estas comparaciones, es más fácil escuchar las
diferencias cuando el audio se reproduce a través de altavoces o auriculares
de alta calidad. Los dispositivos de reproducción de menor calidad no permiten
disfrutar plenamente de los beneficios de las altas velocidades de muestreo.
Los sistemas de reproducción de alta calidad no siempre tienen que ser
costosos, especialmente en los sistemas de consumo.
7.6 Ejercicio: comparación de altavoces y auriculares
Cada modelo particular de altavoz o auricular tiene un sonido único. La
respuesta de frecuencia, la respuesta de potencia, las características de
distorsión y otras especificaciones contribuyen al sonido que escucha un
ingeniero y, por lo tanto, influyen en las decisiones durante las sesiones de
grabación y mezcla.
Para este ejercicio, haga lo siguiente:
• Elija dos pares de altavoces diferentes, dos auriculares diferentes o un
par de altavoces y un par de auriculares.
• Elija varias grabaciones de música conocidas.
• Documente la marca / modelo de los altavoces / auriculares y el entorno
de escucha.
• Compare la calidad de sonido de los dos dispositivos de reproducción de
sonido diferentes.
• Describa las diferencias audibles con comentarios sobre los siguientes
aspectos y características del campo sonoro:
o Calidad tímbrica: describe las diferencias en la respuesta de
frecuencia y el equilibrio espectral.
- ¿Hay un modelo deficiente en una banda de frecuencia
específica?
- ¿Hay un modelo particularmente resonante en una determinada
banda de frecuencia?

o Características espaciales: ¿cómo suena la reverberación?


- ¿Un modelo hace que la reverberación sea más prominente que
el otro?
- ¿El diseño espacial de la imagen estéreo es el mismo en ambos?
- ¿La claridad de las ubicaciones de las fuentes de sonido es la
misma en ambos? Es decir, ¿se pueden localizar las fuentes de
sonido en la imagen estéreo igualmente bien en ambos modelos?
- Si se comparan auriculares con altavoces, ¿podemos describir las
diferencias en los componentes de la imagen que están en el
centro panorámico?
- ¿Cómo se comparan las imágenes centrales en términos de su
ubicación al frente / atrás y su ancho?

o Claridad general de la imagen de sonido:


- ¿Cuál está más definido?
- ¿Se pueden escuchar detalles en uno que son menos audibles o
inaudibles en el otro?
o Preferencia: ¿cuál se prefiere en general?
o Diferencias generales: describa las diferencias más allá de la lista
que se presenta aquí.
• Archivos de sonido: es mejor utilizar solo archivos PCM lineales (AIFF o
WAV) que no se hayan convertido de MP3 o AAC.
Cada dispositivo y entorno de reproducción de sonido tiene un efecto
directo sobre la calidad y el carácter del sonido que se escucha, y es importante
que un ingeniero conozca su sistema de reproducción de sonido (la
combinación de altavoz / sala) y tenga un par de grabaciones de referencia que
conozca bien. Las grabaciones de referencia no tienen por qué ser grabaciones
impecables y perfectas desde que resulten familiares.

7.7 Ejercicio: Mejoradores de sonido en reproductores multimedia


Muchos reproductores multimedia de software utilizados para reproducir
audio en una computadora ofrecen los llamados controles de mejora de
sonido. Este tipo de control suele estar activado de forma predeterminada en
reproductores multimedia como iTunes, y ofrece otra oportunidad para la
escucha crítica. Puede ser informativo comparar la calidad del audio con la
mejora del sonido activada y desactivada e intentar determinar de oído cómo
el algoritmo está afectando el sonido. El procesamiento que emplea puede
mejorar el sonido de algunas grabaciones, pero degradar el sonido de otras.
Considere cómo un potenciador de sonido afecta la imagen estéreo y si
el ancho general de la imagen se ve afectado o si el panorama y la ubicación
de las fuentes de sonido se alteran de alguna manera:
• ¿Se ve afectado el nivel de reverberación?
• Es probable que el timbre se altere de alguna manera. Trate de
identificar con la mayor precisión posible cómo se cambia el timbre.
Identifique si se ha agregado alguna ecualización y qué frecuencias
específicas se han alterado.
• ¿Se está produciendo algún procesamiento de rango dinámico? ¿Hay
artefactos de compresión presentes o la versión mejorada suena más
fuerte?
La configuración de mejora de sonido en los reproductores multimedia
puede alterar o no el audio de una manera deseable, pero ciertamente ofrece
un ejercicio de escucha crítico para determinar las diferencias en las
características de audio.

7.8 Análisis de sonido de fuentes acústicas


Las presentaciones de música acústica en vivo pueden ser instructivas y
esclarecedoras en el desarrollo de habilidades auditivas críticas. La mayoría de
la música que se escucha se realiza a través de transductores electroacústicos
de algún tipo (altavoces o auriculares), y puede ser fácil perder de vista cómo
suena acústicamente un instrumento, ya que proyecta el sonido en todas las
direcciones de una habitación o sala. Al menos un fabricante de sistemas de
audio de consumo anima a su personal de investigación y desarrollo a asistir a
conciertos de música acústica. Esta práctica es increíblemente importante
para desarrollar un punto de referencia para sintonizar altavoces. El acto de
escuchar la calidad del sonido, el timbre, las características espaciales y el
rango dinámico durante un concierto de música en vivo puede afinar las
habilidades para la escucha técnica a través de los altavoces.
Puede parecer contradictorio utilizar tales interpretaciones de música
acústica para entrenar en un campo que depende de la tecnología de
reproducción de sonido, pero los patrones de radiación del sonido de los
instrumentos musicales son diferentes a los de los altavoces, y es importante
recalibrar el sistema auditivo escuchando activamente música acústica. Al
asistir a conciertos de jazz, música clásica, música acústica contemporánea o
música folclórica, se puede escuchar el resultado de los patrones de radiación
de sonido natural de cada instrumento en la sala. El sonido emana de cada
instrumento a la sala, teatro o sala y se mezcla con el de otros instrumentos y
voces.
Sentado entre la audiencia en un concierto de música en vivo,
concéntrese en los aspectos del sonido que a menudo se consideran al
equilibrar las pistas en una grabación. Así como se puede analizar la
distribución espacial (panorámica) y la profundidad de una grabación
reproducida por altavoces, estos aspectos también se pueden examinar en un
entorno acústico. Empiece por intentar localizar a los distintos miembros o
secciones del conjunto que se está presentando. Con los ojos cerrados, puede
ser más fácil concentrarse en la sensación auditiva e ignorar lo que informa el
sentido de la vista. Intente localizar instrumentos en un escenario y piense en
el sonido general en términos de una “imagen estéreo”, como si dos altavoces
estuvieran produciendo el sonido y se escucharan imágenes fantasmas entre
los altavoces. La localización de las fuentes de sonido puede no ser la misma
para todos los asientos de la casa y puede verse influenciada por reflejos
tempranos de las paredes laterales en el espacio de actuación. Al comparar la
música que se reproduce a través de un par de altavoces con la que se
reproduce en un espacio acústico en vivo, la imagen de sonido percibida será
significativamente diferente en términos de timbre, espacio y dinámica.
Algunas preguntas pueden orientar la comparación:
• ¿Suena la música en vivo más amplia o más estrecha que los altavoces
estéreo?
• ¿La relación entre directo y reverberante es coherente con lo que podría
escucharse en una grabación?
• ¿Cómo se compara el timbre con lo que se escucha por los altavoces? Si
es diferente, describa la diferencia.
• ¿Qué tan bien se escuchan los pasajes muy tranquilos?
• ¿Cómo se compara el rango dinámico?
• ¿Cómo se compara la sensación de amplitud y envolvente?
Los miembros de la audiencia casi siempre se sientan mucho más lejos
de los artistas musicales de lo que normalmente se colocarían los micrófonos,
y están fuera del radio de reverberación o distancia crítica. Por lo tanto, la
mayor parte de la energía sonora que escuchan es sonido indirecto (reflejos y
reverberación), por lo que es mucho más reverberante que lo que se escucha
en una grabación. Este nivel de reverberación probablemente no sería
aceptable en una grabación, pero los miembros de la audiencia lo encuentran
agradable. Quizás porque los intérpretes de música son visibles en vivo, el
sistema auditivo es más indulgente, o quizás las señales visuales ayudan a los
miembros de la audiencia a involucrarse con la música porque pueden ver los
movimientos de los intérpretes en sincronía con las notas que se están
tocando.
Idealmente, el campo reverberante (el área de asientos de la audiencia)
debe ser algo difuso, lo que significa que el sonido indirecto debe escucharse
por igual proveniente de todas las direcciones. En una sala de conciertos real
u otro espacio de actuación musical, este puede no ser el caso y puede ser
posible localizar la reverberación. Si la reverberación es localizable, enfóquese
en el ancho y la extensión espacial de la misma. ¿Está ubicado principalmente
detrás o también se extiende hacia los lados? ¿Es envolvente? ¿Hay alguna
reverberación proveniente del frente donde normalmente se encuentran los
músicos?
Las reflexiones tempranas también pueden discernirse como una
característica de cualquier campo de sonido. Aunque las reflexiones
tempranas generalmente llegan al oyente en decenas de milisegundos de un
sonido directo y, por lo tanto, son imperceptibles como sonidos discretos, hay
ocasiones en las que las reflexiones pueden acumularse o enfocarse desde una
ubicación particular y alterar nuestra percepción de la ubicación de una fuente
de sonido. Cualquier pared curva tenderá a enfocar los reflejos, haciendo que
se sumen y, por lo tanto, aumenten su amplitud a un nivel mayor que el del
sonido directo.
Los primeros reflejos laterales pueden ayudar a ampliar el ancho
percibido de la imagen sonora. Aunque estos reflejos pueden no percibirse
como ecos discretos, intente enfocarse en el ancho general. Concéntrese
también en cómo el sonido directo se mezcla y se une al sonido proveniente
de los lados y la parte trasera. ¿El sonido envuelve continuamente todo el
entorno o hay interrupciones en el campo de sonido, como puede ocurrir
cuando se escuchan grabaciones multicanal?
Los ecos, los reflejos y la reverberación a veces son más audibles cuando
están presentes sonidos transitorios o de percusión. Los sonidos que tienen un
ataque agudo y un sustain y decay cortos permitirán que se escuche el sonido
indirecto que viene inmediatamente después, porque el sonido directo será
silencioso y, por lo tanto, no enmascarará el sonido indirecto.

Resumen
El análisis del sonido, ya sea puramente acústico o procedente de altavoces,
presenta oportunidades para deconstruir y descubrir características y rasgos
de una imagen sonora. Cuanto más se escuchan grabaciones y sonidos
acústicos con participación activa, más características sonoras se pueden
identificar y enfocar. Con el tiempo y la práctica continua, la percepción de
eventos auditivos se abre y uno comienza a notar características sónicas que
antes no eran audibles. Cuanto más se descubre a través de la escucha activa,
más profundo puede volverse el disfrute del sonido, pero requiere práctica
dedicada a lo largo del tiempo. Del mismo modo, las habilidades de escucha
más enfocadas y efectivas conducen a una mayor eficiencia y efectividad en la
grabación, producción, composición, refuerzo y desarrollo de productos de
sonido. El entrenamiento técnico del oído es fundamental para cualquier
persona involucrada en la ingeniería de audio y la producción musical, y las
habilidades auditivas críticas están al alcance de cualquier persona que esté
dispuesta a dedicar tiempo a estar atento a lo que está escuchando.
Estos son algunos consejos finales: Escuche tantas grabaciones como
sea posible. Escuche a través de una amplia variedad de auriculares y sistemas
de altavoces. Durante cada sesión de escucha, toma notas sobre lo que se
escucha. Descubra quién diseñó las grabaciones más admiradas y encuentre
más grabaciones de los mismos ingenieros. Tenga en cuenta las similitudes y
diferencias entre varias grabaciones de un ingeniero, productor o sello
discográfico determinado. Tenga en cuenta las similitudes y diferencias entre
varias grabaciones de un artista determinado que ha trabajado con una
variedad de ingenieros o productores.
La actividad más difícil de realizar mientras se trabaja en cualquier
proyecto de audio es la escucha activa continua. La única forma de saber cómo
tomar decisiones sobre qué equipo usar, dónde colocar los micrófonos y cómo
configurar los parámetros es escuchando atentamente cada sonido que
emana de los monitores y auriculares. Al escuchar activamente en todo
momento, uno puede obtener información esencial para servir mejor a la
visión musical de cualquier proyecto de audio. En la grabación y producción de
sonido, el sistema auditivo humano es el juez final de la calidad y la visión
artística.

También podría gustarte