Producción de Audio y Escucha Crítica Entrenamiento Técnico de Oido

1
PRODUCCIÓN DE
AUDIO Y ESCUCHA
CRÍTICA:
Entrenamiento Técnico
del Oído
de
JASON COREY
3
Reconocimientos
Este libro no habría sido posible sin la ayuda directa e indirecta de muchas personas.
En primer lugar, quiero agradecer a todos aquellos que me han transmitido su sabiduría y experiencia
en habilidades de escucha crítica, en especial: Peter Cook, John Klepko, Geoff Martin, Tim Martyn,
George Massenburg, René Quesnel y Wieslaw Woszczyk.
Gracias a quienes ayudaron en la preparación del manuscrito: Steve Bellamy, Justin Crowell y Tim
Sullivan.
Agradezco a Christopher Kendall, Mary Simoni, Rebecca Sestili y la Oficina del Vicepresidente de
Investigación de la Universidad de Michigan, así como a Theresa Leonard y The Banff Centre por su
invaluable apoyo en varios momentos de este proyecto.
Gracias a Mike Halerz por el diseño de la portada.
Agradezco a los estudiantes de la Universidad de Michigan y la Universidad McGill que
proporcionaron comentarios y sugerencias durante el desarrollo de los módulos de software de
entrenamiento auditivo.
Gracias a Catharine Steers, Carlin Reagan, Tahya Pawnell y Laura Aberle en Focal Press por su
orientación editorial y pruebas de software.
Finalmente, me gustaría agradecer a mi maravillosa esposa, Jennifer, por su amor y apoyo.
4
INTRODUCCIÓN
La práctica de la ingeniería de audio es tanto un arte como una ciencia. Para tener éxito en la
producción de audio, un ingeniero debería poseer idealmente tanto la comprensión de conceptos
teóricos como habilidades de escucha crítica altamente desarrolladas relacionadas con la grabación y
producción de sonido. Cada proyecto de grabación tiene su propio conjunto de requisitos, y los
ingenieros no pueden depender de un conjunto de procedimientos de grabación para cada proyecto.
Como tal, deben confiar en una combinación de conocimientos técnicos y habilidades de escucha para
guiar su trabajo.
Aunque el conocimiento técnico de electrónica analógica, procesamiento de señales digitales, análisis

de señales de audio y los aspectos teóricos del equipo de audio son críticos para una comprensión
sólida de los principios de la ingeniería de audio, muchas decisiones tomadas durante un proyecto de
grabación, como la elección y ubicación del micrófono, el equilibrio de la mezcla, los niveles de los
faders y el procesamiento de señales, se basan únicamente en lo que se escucha. Como tal, a menudo es
la capacidad para navegar por las impresiones subjetivas del audio lo que permite a los ingenieros
mejorar con éxito la calidad del sonido.
Cada acción tomada por un ingeniero en relación con una señal de audio tendrá algún efecto en el
sonido que un oyente escucha, por sutil que sea, y un ingeniero debe tener un oído atento sintonizado
en los detalles más finos del timbre y la calidad del sonido. La mayoría de estas decisiones subjetivas
responden a los objetivos artísticos de un proyecto, y los ingenieros deben determinar, basándose en lo
que escuchan, si una elección técnica contribuye o resta valor a estos objetivos. Los ingenieros deben
conocer cómo los parámetros técnicos de los dispositivos de hardware y software de audio afectan a las
atributos sónicos percibidos.
Además de poseer experiencia técnica y teórica, los ingenieros de audio exitosos tienen la capacidad de
diferenciar detalles tímbricos, dinámicos y técnicos del sonido. Pueden traducir sus impresiones
auditivas en juicios y alteraciones técnicas apropiadas. A veces llamados "Oídos Dorados", estos
profesionales de audio altamente experimentados poseen la extraordinaria habilidad de enfocar su
atención auditiva, lo que resulta en el control eficiente y preciso de las señales de audio. Son oyentes
expertos, individuos que poseen habilidades de escucha crítica altamente desarrolladas y que pueden
identificar detalles finos del sonido y tomar decisiones coherentes sobre lo que escuchan (Stone, 1993).
Ingenieros experimentados como estos identifican deficiencias que deben resolverse y características
que deben destacarse en una señal de audio.
Las habilidades de escucha crítica en audio pueden desarrollarse y mejorarse gradualmente con el
tiempo por parte de los ingenieros a medida que trabajan en el campo del audio, pero existen métodos
sistemáticos que pueden acortar el tiempo necesario para lograr un progreso significativo en el
entrenamiento auditivo. Como informó René Quesnel en su tesis doctoral, los estudiantes de grabación
de sonido que completaron un entrenamiento técnico auditivo sistemático superaron a los profesionales
experimentados en tareas como identificar la frecuencia y la configuración de ganancia de una
ecualización paramétrica (Quesnel, 2001). Típicamente, el desarrollo de habilidades de escucha para un
ingeniero de audio ocurre en el trabajo. Aunque alguna vez fue común que los ingenieros principiantes
trabajaran con ingenieros más experimentados y aprendieran de ellos en el contexto de la experiencia
práctica, la industria del audio ha experimentado cambios drásticos y el modelo de aprendizaje está
5
desapareciendo gradualmente de la práctica de la ingeniería de audio. A pesar de esta evolución en la

industria del audio, las habilidades de escucha crítica siguen siendo tan importantes como siempre,
especialmente a medida que vemos un declive en la calidad del audio en muchos formatos de audio
para consumidores. Este libro presenta algunas ideas para desarrollar habilidades de escucha crítica y
reducir potencialmente el tiempo necesario para desarrollarlas.
Surgen varias preguntas al considerar las habilidades de escucha crítica relacionadas con la grabación y
producción de sonido:
• ¿Qué habilidades auditivas poseen ingenieros de sonido, productores, tonmeisters y músicos

experimentados que les permiten hacer grabaciones, mezclar sonido para películas o ecualizar
sistemas de sonido mejor que un ingeniero novato?
• ¿Qué pueden escuchar los legendarios ingenieros y productores, que tienen habilidades
extraordinarias para identificar y manipular timbres sónicos, que la persona promedio no
puede?
• ¿Cómo escuchan los profesionales de audio e identifican de manera consistente características o
cambios extremadamente sutiles en una señal de audio?
• ¿Cómo traducen los oyentes expertos entre sus percepciones del sonido y los parámetros de
control físicos disponibles para ellos?
• ¿Cómo pueden los oyentes no expertos adquirir habilidades similares, permitiéndoles identificar
los parámetros físicos de una señal de audio necesarios para lograr un efecto perceptual
deseado?
• ¿En qué aspectos específicos del sonido deberían estar atentos los ingenieros de audio novatos?
Se ha escrito mucho sobre los aspectos técnicos y teóricos del sonido, la reproducción del sonido y la
percepción auditiva, pero este libro se centra en el desarrollo de las habilidades de escucha crítica
necesarias para la práctica exitosa de la ingeniería de audio.
Para facilitar el proceso de entrenamiento, los módulos de software que acompañan al libro permiten al
lector practicar escuchando los efectos de diferentes tipos de procesamiento de señales de audio. Los
módulos de práctica de software permiten una progresión a través de varios niveles de dificultad y
proporcionan el entrenamiento práctico necesario en el desarrollo de habilidades técnicas de escucha."
Atributos del Audio

El objetivo principal de este libro y el software que lo acompaña es explorar la escucha crítica en
relación con los tipos típicos de procesamiento de señales de audio. Distinto de las habilidades
auditivas musicales o el solfeo, el entrenamiento técnico del oído se centra en los efectos sonoros de los
tipos más comunes de procesamiento de señales utilizados en la grabación de sonido y sistemas de
reproducción de sonido, como la ecualización, el procesamiento dinámico y la reverberación. El
conocimiento de los efectos sonoros del procesamiento de señales de audio, junto con la capacidad para
discriminar entre pequeños cambios en la calidad del sonido, permite a los ingenieros realizar cambios
efectivos en el sonido reproducido según sea necesario. Las habilidades de escucha crítica altamente
desarrolladas permiten a un ingeniero identificar no solo los efectos del procesamiento de señales
deliberado, sino también los artefactos no deseados o no intencionales, como ruido, zumbido, zumbido
6
y distorsión. Una vez que se identifican tales sonidos indeseables, un ingeniero puede trabajar para
eliminarlos o reducir su presencia.
El libro está organizado según las herramientas comunes de procesamiento de audio disponibles para el
ingeniero de audio. En este libro, exploraremos los siguientes atributos principales del audio y
dispositivos asociados:
• Equilibrio espectral: ecualización paramétrica
• Atributos espaciales: retardo y reverberación
• Control del rango dinámico: compresión/limitación y expansión
• Sonidos o cualidades de sonido que pueden restar valor a las grabaciones: distorsión y ruido
• Puntos de corte de extractos de audio: edición de origen y destino
• Objetivos del Libro
Hay tres objetivos principales de este libro y el software:
Facilitar el mapeo isomórfico de parámetros técnicos y cualidades percibidas del sonido. El mapeo
isomórfico es una vinculación de parámetros técnicos e ingenieriles con atributos perceptuales
auditivos. Los ingenieros deben poder diagnosticar artefactos sónicos problemáticos en una grabación y
comprender sus causas. En audio, los ingenieros están traduciendo entre parámetros de control físico
(es decir, frecuencia en Hertz, nivel de sonido en decibelios) y la percepción de una señal de audio (es
decir, timbre, volumen).
Aumentar la conciencia de características y atributos sutiles del sonido, y promover una mayor
capacidad para diferenciar entre cambios mínimos en la calidad del sonido o procesamiento de señales.
Aumentar la velocidad con la que se pueden identificar características del sonido, traducir entre
percepciones auditivas y parámetros de control de procesamiento de señales, y decidir qué parámetros
físicos deben cambiarse en una situación dada.
Para lograr estos objetivos, los Capítulos 2, 3, 4 y 5 se centran en tipos específicos de procesamiento de
audio y artefactos: ecualización, reverberación y retardo, procesamiento dinámico y distorsión y ruido,
respectivamente.
El Capítulo 2 se centra en el equilibrio espectral de una señal de audio y cómo esto se ve influenciado
por el filtrado y la ecualización paramétrica. El equilibrio espectral es el nivel relativo de varias bandas
de frecuencia dentro de la banda de audio completa (de 20 a 20,000 Hz), y este capítulo se centra
específicamente en los ecualizadores paramétricos. Las propiedades espaciales del sonido reproducido
incluyen el panorama de las fuentes, la reverberación, el eco y el retardo (con y sin retroalimentación).
El Capítulo 3 examina métodos de entrenamiento para atributos espaciales.
El procesamiento dinámico se utiliza ampliamente en la música grabada. Efectos de procesamiento de

audio como la compresión, la limitación, la expansión y la puerta ofrecen formas de esculpir señales de
audio de manera única y variable en el tiempo. La compresión del rango dinámico puede ser uno de los
tipos de procesamiento más difíciles para que un ingeniero principiante aprenda a usar. En muchos
algoritmos, los parámetros controlables están interrelacionados hasta cierto punto y afectan cómo se
usan y se escuchan. El Capítulo 4 analiza el procesamiento dinámico y ofrece ejercicios prácticos para
escuchar artefactos producidos por estos diferentes efectos.
7
La distorsión puede aplicarse intencionalmente a una grabación o elementos dentro de una grabación
como un efecto, como en guitarras eléctricas, pero los ingenieros de grabación generalmente intentan
evitar la distorsión no intencional, como la sobrecarga de una etapa de ganancia analógica o
convertidor analógico a digital. El Capítulo 5 explora tipos adicionales de distorsión, como la reducción
de la tasa de bits y la codificación perceptual, así como otros tipos de artefactos sónicos que restan
valor a una grabación de sonido, como ruidos externos, clics, pops, zumbidos y zumbidos.
El Capítulo 6 se centra en los puntos de corte de extractos de audio e introduce un tipo novedoso de
práctica de entrenamiento del oído basada en el proceso de edición de origen y destino. El acto de
encontrar puntos de edición también puede agudizar la capacidad de diferenciar cambios en los puntos
de corte a nivel de milisegundos. El módulo de software que lo acompaña imita el proceso de encontrar
un punto de edición al comparar el punto final de un clip con el punto final de un segundo clip de
música idéntica.
Finalmente, el Capítulo 7 examina técnicas de análisis para el sonido grabado. Aunque existen
tradiciones establecidas de análisis teórico de la música, no hay un método estandarizado para analizar
grabaciones desde un punto de vista tímbrico, calidad de sonido, imagen espacial, estética o técnico.
Este capítulo presenta algunos métodos para analizar grabaciones musicales y presenta algunos
ejemplos de análisis de grabaciones disponibles comercialmente.
Se han realizado contribuciones significativas al campo del entrenamiento técnico del oído en artículos
de conferencias y revistas, que incluyen el artículo de Bech "Selección y Entrenamiento de Sujetos para
Pruebas de Audición en Equipos Reproductores de Sonido" (1992); el artículo de Kassier, Brookes y
Rumsey "Entrenamiento versus Práctica en Tareas de Evaluación de Atributos de Audio Espacial"
(2007); el artículo de Miskiewicz "Timbre Solfege: Un Curso de Escucha Técnica para Ingenieros de
Sonido" (1992); el artículo de Olive "Un Método para Entrenar a Oyentes y Seleccionar Material de
Programa para Pruebas de Audición" (1994); y el artículo de Quesnel "Timbral Ear-Trainer:
Entrenamiento Adaptativo e Interactivo de Habilidades de Escucha para la Evaluación del Timbre"
(1996). Este libro se basa en investigaciones anteriores y presenta métodos para la práctica y el
desarrollo de habilidades de escucha crítica en el contexto de la producción de audio. El autor asume
que el lector ha completado algún estudio a nivel de pregrado en teoría y práctica de grabación de
sonido y tiene una comprensión de temas básicos de teoría de audio como decibelios, ecualización,
dinámicas, micrófonos y técnicas de micrófono.
El Software que Acompaña

Dada la naturaleza algo abstracta de simplemente leer sobre la escucha crítica, se han incluido varios
módulos de software con este libro para ayudar al lector a practicar la audición de varios tipos de
procesamiento de señales que se describen aquí. Los módulos de práctica de software que acompañan
son interactivos, permitiendo al usuario ajustar los parámetros de cada tipo de procesamiento y recibir
retroalimentación auditiva inmediata, imitando lo que sucede en el estudio de grabación y mezcla.
Aunque algunos de los módulos simplemente proporcionan ejemplos de procesamiento de sonido, otros
ofrecen ejercicios que implican la coincidencia y la identificación absoluta de parámetros de
procesamiento por oído. El beneficio de los ejercicios de coincidencia radica principalmente en brindar
la oportunidad de depender completamente de lo que se escucha sin tener que traducirlo a una
representación verbal de un sonido.
8
El uso de grabaciones digitales para la práctica del entrenamiento del oído tiene la ventaja sobre las
grabaciones analógicas o los sonidos acústicos en que las grabaciones digitales se pueden reproducir
numerosas veces de exactamente la misma manera. En el libro se sugieren algunas grabaciones de
sonido específicas, pero hay otros lugares para obtener muestras de sonido útiles para enfocarse en
diferentes tipos de procesamiento. Hasta la fecha de esta escritura, se pueden descargar muestras de
instrumentos individuales y mezclas de pistas de muchos sitios web, como los siguientes:
http://bush-of-ghosts.com/remix/bush_of_ghosts.htm
www.freesound.org
www.realworldremixed.com/download.php
www.royerlabs.com
Además, programas de software como Logic y GarageBand de Apple incluyen bibliotecas de sonidos
de instrumentos individuales que pueden servir como fuentes de sonido en los módulos de práctica del
software.
Este libro no se centra en modelos específicos de software o hardware de procesamiento de audio

disponibles comercialmente, sino que trata cada tipo de procesamiento como típico de lo que se puede
encontrar entre dispositivos y software de audio profesionales. Los módulos de procesamiento de audio
disponibles comercialmente varían de un modelo a otro, y el autor considera que el entrenamiento
discutido en este libro y aplicado en los módulos de software sirve como un sólido punto de partida
para el entrenamiento del oído y se puede extrapolar a la mayoría de los modelos comerciales.
Lo que este libro no intenta hacer es proporcionar recomendaciones para configuraciones de

procesamiento de señales o técnicas de micrófono para diferentes instrumentos o configuraciones de
grabación. Es imposible tener un enfoque único para la producción de audio, y el objetivo es ayudar al
lector a escuchar de manera más crítica y con más detalle para dar forma a cada grabación individual.
Todos los módulos de software están incluidos en el CD-ROM que acompaña al libro, y las
actualizaciones del software se publicarán periódicamente en la página web del autor:
www.personal.umich.edu/~coreyja
9
1
CAPÍTULO DE ESCUCHA
1.1 ¿Qué es el Entrenamiento Técnico del Oído? 12

1.1.1 Mapeo Isomórfico 14
1.1.2 Aumento de la Conciencia 16
1.1.3 Aumento de la Velocidad de Detección 17
1.2 Formación de Sonidos 18
1.3 Configuraciones del Sistema de Reproducción de Sonido 20
1.3.1 Monofónico: Reproducción de Sonido de Canal Único 20
1.3.2 Estéreo: Reproducción de Sonido de Dos Canales 20
1.3.3 Auriculares 20
1.3.4 Recomendaciones de Auriculares 21
1.3.5 Surround: Reproducción de Sonido de Múltiples Canales 22
Resumen 23
10
Somos expuestos al sonido en cada momento de cada día, ya sea que prestemos atención o no. Los
sonidos que escuchamos nos dan información no solo sobre sus fuentes, sino también sobre la
naturaleza de nuestro entorno físico: objetos circundantes, paredes y estructuras. Ya sea que nos
encontremos en un entorno altamente reverberante o en una cámara anecoica, la calidad del sonido
reflejado o la falta de reflexiones nos informa sobre las propiedades físicas de nuestro lugar. Nuestro
entorno circundante se vuelve audible, incluso si no está generando sonido por sí mismo, por la forma
en que afecta el sonido, a través de patrones de reflexión y absorción. Así como una fuente de luz
ilumina objetos a su alrededor, las fuentes de sonido nos permiten escuchar la forma y el tamaño
general de nuestro entorno físico.
Debido a que estamos principalmente orientados hacia estímulos visuales, puede requerir un esfuerzo
dedicado y constante centrar nuestra conciencia en el dominio auditivo. Como cualquier persona que
trabaje en el campo de la ingeniería de audio sabe, el esfuerzo que se invierte en enfocar nuestra
conciencia auditiva vale la pena por la satisfacción de adquirir habilidades críticas de escucha. Aunque
simple en concepto, la práctica de centrar la atención en lo que se escucha de manera estructurada y
organizada es desafiante de lograr de manera consistente.
Existen muchas situaciones fuera de la producción de audio en las que se pueden desarrollar
habilidades de escucha. Por ejemplo, al pasar por un sitio de construcción, se pueden escuchar sonidos
impulsivos como martillazos. Los ecos, resultado de esos impulsos iniciales que se reflejan en las
cercanas fachadas de los edificios, también se pueden escuchar un corto tiempo después. El tiempo, la
ubicación y la amplitud de los ecos nos brindan información sobre los edificios cercanos, incluyendo
distancias aproximadas a ellos.
Escuchando en una gran sala de conciertos, notamos que el sonido continúa resonando y desaparece
lentamente después de que una fuente ha dejado de sonar. La decadencia gradual del sonido en un
espacio acústico grande se conoce como reverberación. El sonido en una sala de conciertos puede
envolver porque parece venir desde todas las direcciones, y el sonido producido en el escenario se
combina con el sonido reverberante que llega desde todas las direcciones.
En una ubicación completamente diferente, como una sala de estar alfombrada, un instrumento musical
sonará notablemente diferente en comparación con el mismo instrumento tocado en una sala de
conciertos. Características físicas como dimensiones y tratamientos de superficie de una sala de estar
determinan que sus características acústicas serán notablemente diferentes que las de una sala de
conciertos; el tiempo de reverberación será significativamente más corto en una sala de estar. La
proximidad relativamente cercana de las paredes reflejará el sonido de vuelta hacia un oyente en
milisegundos de la llegada del sonido directo y casi a la misma amplitud. Esta pequeña diferencia en el
tiempo de llegada y la amplitud casi igual de sonido directo y reflejado en los oídos de un oyente crea
un cambio en el contenido de frecuencia del sonido que se escucha, debido a una filtración del sonido
conocida como filtrado de peine. El revestimiento del suelo también puede influir en el equilibrio
espectral: un suelo alfombrado absorberá algunas frecuencias altas, y un suelo de madera reflejará
frecuencias altas.
11
Al observar el paisaje sonoro circundante, el oyente puede querer considerar preguntas como las
siguientes:
• ¿Qué sonidos están presentes en un momento dado?

• Además de los sonidos más obvios, ¿hay sonidos constantes, en estado estacionario y
sostenidos, como ruido de manejo de aire o zumbidos de luces, que generalmente se ignoran?
• ¿Dónde se encuentra cada sonido? ¿Las ubicaciones son claras y distintas, o difusas y
ambiguas?
• ¿Qué tan lejos están las fuentes de sonido?
• ¿Qué tan fuertes son?
• ¿Cuál es el carácter del espacio acústico? ¿Hay ecos? ¿Cuál es el tiempo de decaimiento de la
reverberación?
Puede ser informativo analizar auditivamente la música grabada en cualquier momento, ya sea en una
tienda, club, restaurante o ascensor. Es útil pensar en preguntas adicionales en tales situaciones:
¿Cómo afecta el timbre del sonido el sistema y el entorno a través del cual se presenta?
¿Son todos los elementos del sonido claramente audibles? Si no lo son, ¿qué elementos son difíciles de
escuchar y cuáles son más prominentes?
Si la música es familiar, ¿se mantiene el equilibrio igual que en otras situaciones de escucha?
La escucha activa es fundamental en la ingeniería de audio, y podemos aprovechar los momentos en los
que no estamos trabajando específicamente en un proyecto de audio para aumentar nuestra conciencia
del paisaje auditivo y practicar nuestras habilidades críticas de escucha. Caminar por la calle, sentarse
en un café y asistir a un concierto de música en vivo ofrecen oportunidades para perfeccionar nuestras
habilidades de escucha y, por lo tanto, mejorar nuestro trabajo con el audio. Para un estudio más
profundo de algunas de estas ideas, consulta el libro de Blesser y Salter de 2006, "Spaces Speak, Are
You Listening?", donde amplían la escucha de espacios acústicos en una exploración detallada de la
arquitectura oral.
Los ingenieros de audio se preocupan por capturar, mezclar y dar forma al sonido. Ya sea grabando
sonido acústico, como de instrumentos musicales acústicos que suenan en un espacio acústico en vivo,
o creando sonidos electrónicos en un medio digital, uno de los objetivos de un ingeniero es dar forma al
sonido de manera que sea más apropiado para la reproducción a través de altavoces y auriculares y
comunique mejor las intenciones de un artista musical. Un aspecto importante de la grabación de
sonido que un ingeniero busca controlar es el equilibrio relativo de instrumentos o fuentes de sonido,
ya sea mediante la manipulación de señales de audio grabadas o mediante la colocación de micrófonos
y conjuntos. Cómo se mezclan y equilibran las fuentes de sonido en una grabación puede tener un
tremendo efecto en la sensación musical de una composición. El equilibrio musical y espectral es
fundamental para el impacto general de una grabación.
A través del proceso de dar forma al sonido, sin importar el equipo que se esté utilizando o cuál sea el
objetivo final, el enfoque principal del ingeniero es simplemente escuchar. Los ingenieros deben
analizar constantemente lo que escuchan para evaluar una pista o una mezcla y tomar decisiones sobre
ajustes adicionales de equilibrio y procesamiento. La escucha es un proceso activo, desafiando al
ingeniero a permanecer continuamente consciente de las características, cambios y defectos sutiles y no
tan sutiles percibidos en una señal de audio.
12
Desde el productor hasta el tercer asistente de ingeniero, la escucha activa es una prioridad para todos
los involucrados en cualquier proceso de producción de audio. Sin importar tu papel, practica pensar y
escuchar los siguientes elementos en cada proyecto de grabación:
• Timbre. ¿Está un micrófono particular en el lugar correcto para una aplicación dada? ¿Necesita
ecualización? ¿Es el timbre general de una mezcla apropiado?
• Dinámica. ¿Los niveles de sonido varían demasiado o no lo suficiente? ¿Cada fuente de sonido
se puede escuchar a lo largo de la pieza? ¿Hay momentos en los que una fuente de sonido se
pierde o se cubre por otros sonidos? ¿Hay alguna fuente de sonido que sobresalga sobre las
demás?
• Balance general. ¿Tiene sentido el equilibrio de instrumentos musicales y otras fuentes de
sonido para la música? ¿O hay demasiado de un componente y no suficiente de otro?
• Distorsión/clipping. ¿Hay algún nivel de señal demasiado alto que cause distorsión?
• Ruido externo. ¿Hay un zumbido o ruido de un cable defectuoso o un problema de conexión a
tierra?
• Espacio. ¿Está bien la reverberación/delay/eco?
• Panning. ¿Cómo es el equilibrio izquierda/derecha de la mezcla que sale de los altavoces?
1.1 ¿Qué es el Entrenamiento Técnico del Oído?
Así como el entrenamiento auditivo musical o el solfeo es parte integral del entrenamiento musical, el
entrenamiento técnico del oído es necesario para todos los que trabajan en audio, ya sea en un estudio
de grabación, en refuerzo de sonido en vivo o en el desarrollo de hardware/software de audio. El
entrenamiento técnico del oído es un tipo de aprendizaje perceptual centrado en los atributos tímbricos,
dinámicos y espaciales del sonido en relación con la grabación y producción de audio. En otras
palabras, se pueden desarrollar habilidades auditivas más agudas que permitan a un ingeniero analizar y
confiar en percepciones auditivas de manera más concreta y consistente. Como escribió Eleanor
Gibson, el aprendizaje perceptual se refiere a "un aumento en la capacidad para extraer información del
entorno, como resultado de la experiencia y la práctica con la estimulación proveniente de él" (Gibson,
1969). Esta no es una idea nueva, y a lo largo de los años de trabajo con audio, los ingenieros de
grabación generalmente desarrollan fuertes habilidades críticas de escucha. Al centrarse en tipos
específicos de sonidos y comparar diferencias cada vez más pequeñas entre sonidos, los ingenieros
pueden aprender a diferenciar características de sonidos. Cuando dos oyentes, uno experto y uno
novato, con habilidades auditivas idénticas reciben señales de audio idénticas, es probable que un
oyente experto pueda identificar características específicas del audio que un oyente novato no podrá. A
través de la práctica enfocada, un ingeniero novato eventualmente puede aprender a identificar sonidos
y cualidades de sonido que originalmente eran indistinguibles.
Un subconjunto del entrenamiento técnico del oído incluye el entrenamiento del "timbre" que se centra
en el timbre del sonido. Uno de los objetivos de seguir este tipo de entrenamiento es volverse más hábil
para distinguir y analizar una variedad de timbres. El timbre se define típicamente como esa
característica del sonido que no es ni el tono ni la intensidad, lo que permite a un oyente distinguir dos
o más sonidos. El timbre es un atributo multidimensional del sonido y depende de varios factores
físicos como los siguientes:
13
• Contenido espectral. Todas las frecuencias presentes en un sonido.

• Balance espectral. El equilibrio relativo de frecuencias individuales o rangos de frecuencias.
• Envoltura de amplitud. Principalmente el ataque (o inicio) y el tiempo de decaimiento del
sonido general, pero también el de armónicos individuales.
Una persona sin entrenamiento específico en audio o música puede distinguir fácilmente entre el sonido
de una trompeta y un violín incluso si ambos están tocando la misma nota con la misma intensidad; los
dos instrumentos suenan diferentes. En el mundo del sonido grabado, los ingenieros a menudo trabajan
con diferencias mucho más sutiles en el timbre que no son en absoluto evidentes para un oyente casual.
Por ejemplo, un ingeniero puede estar comparando el sonido de dos preamplificadores de micrófono
diferentes o dos tasas de muestreo de audio digital. A este nivel de sutileza, un oyente novato puede no
percibir ninguna diferencia, pero es responsabilidad del ingeniero experimentado tomar decisiones
basadas en detalles tan sutiles.
El entrenamiento técnico del oído se centra en las características, características y artefactos sonoros
producidos por varios tipos de procesamiento de señales comúnmente utilizados en ingeniería de audio,
como los siguientes:
• Ecualización y filtrado
• Reverberación y retardo
• Procesamiento dinámico
• Características de la imagen estéreo
También se centra en características, características y artefactos sonoros no deseados o no intencionales
que pueden producirse a través de equipos defectuosos, conexiones específicas de equipos o
configuraciones de parámetros en equipos, como ruido, zumbido o distorsión no lineal no intencional.
A través de una escucha concentrada y enfocada, un ingeniero debería poder identificar características
sonoras que pueden afectar positiva o negativamente una mezcla de audio final y saber cómo las
impresiones subjetivas del timbre se relacionan con los parámetros de control físicos. La capacidad de
enfocarse rápidamente en detalles sutiles del sonido y tomar decisiones al respecto es el objetivo
principal de un ingeniero.
El proceso de grabación de sonido ha tenido un efecto profundo en el desarrollo de la música desde

mediados del siglo XX. La música se ha transformado de una forma de arte que solo se podía escuchar
a través de una actuación en vivo a una donde una actuación grabada se puede escuchar una y otra vez
a través de un medio de almacenamiento y un sistema de reproducción. Las grabaciones de sonido
pueden simplemente documentar una actuación musical, o pueden desempeñar un papel más activo al
aplicar procesamiento de señales específicas y esculpir timbres a los sonidos grabados. Con una
grabación de sonido, estamos creando un escenario de sonido virtual entre nuestros altavoces, en el
cual se encuentran los sonidos instrumentales y vocales. Dentro de este escenario virtual, los ingenieros
de grabación pueden colocar cada instrumento y sonido.
Con el entrenamiento técnico del oído, nos estamos enfocando no solo en escuchar características
específicas del sonido, sino también en identificar características sonoras específicas y tipos de
procesamiento que hacen que una característica sea audible. Es una cosa saber que hay una diferencia
entre una grabación ecualizada y una no ecualizada, pero es completamente diferente poder nombrar la
alteración específica en términos de frecuencia central, Q y ganancia. Así como los expertos en arte
14
visual y diseño gráfico pueden identificar matices y tonos sutiles de color por su nombre, los
profesionales del audio deberían poder hacer lo mismo en el dominio auditivo.
Los ingenieros de sonido, diseñadores de hardware y software, y desarrolladores de los últimos

codificadores perceptuales confían en habilidades críticas de escucha para ayudar a tomar decisiones
sobre una variedad de características del sonido y procesamiento de sonido. Muchas características
pueden medirse de manera objetiva con equipos de prueba y señales de prueba como ruido rosa y tonos
sinusoidales. Desafortunadamente, estas medidas objetivas no siempre ofrecen una imagen completa de
cómo sonará el equipo para los oídos humanos mediante señales musicales. Algunos investigadores,
como Geddes y Lee (2003), han señalado que niveles altos de distorsión no lineal medida en un
dispositivo pueden ser menos perceptibles para los oyentes que niveles bajos de distorsión medida,
dependiendo de la naturaleza de la distorsión y los métodos de prueba empleados. Lo contrario también
puede ser cierto, en el sentido de que niveles bajos de distorsión medida pueden ser percibidos
fuertemente por los oyentes.
Este tipo de situación también puede ser cierto para otras especificaciones de audio como la respuesta
en frecuencia. Los oyentes pueden preferir un altavoz que no tiene una respuesta en frecuencia plana
sobre uno que sí la tiene porque la respuesta en frecuencia es solo una medida objetiva del sonido total
producido por un altavoz. En otras áreas del diseño de productos de audio, la sintonización final de
algoritmos de software y diseños de hardware a menudo se realiza auditivamente por oyentes expertos.
Por lo tanto, las mediciones físicas no pueden depender únicamente, y a menudo son las percepciones
auditivas las que determinan el veredicto final sobre la calidad del sonido.
Los profesionales que trabajan con sonido grabado a diario comprenden la necesidad de escuchar
cambios sutiles en el sonido. Es importante saber no solo cómo se produjeron estos cambios, sino
también cómo usar las herramientas disponibles para remediar cualquier característica problemática.
1.1.1 Mapeo Isomórfico
Los profesionales que trabajan con sonido grabado a diario comprenden la necesidad de escuchar
cambios sutiles en el sonido. Es importante saber no solo cómo se produjeron estos cambios, sino
también cómo utilizar las herramientas disponibles para remediar cualquier característica problemática.
Uno de los objetivos principales de este libro es facilitar el mapeo isomórfico de parámetros técnicos e
ingenieriles a atributos perceptuales; ayudar en la vinculación de percepciones auditivas con el control
de propiedades físicas de las señales de audio.
Con la tecnología de grabación de audio, los ingenieros tienen control sobre parámetros técnicos que
corresponden a atributos físicos de una señal de audio, pero a menudo no está claro para el principiante
cómo mapear una sensación percibida al control de parámetros objetivos del sonido. Un ecualizador
paramétrico, por ejemplo, generalmente nos permite controlar frecuencia, ganancia y Q. Estos atributos
físicos, tal como se etiquetan en un dispositivo, no tienen correlación natural u obvia con atributos
perceptuales de una señal de audio, y sin embargo, los ingenieros los utilizan para afectar la percepción
de un oyente sobre una señal. ¿Cómo sabe un ingeniero a qué suena un aumento de 6 dB a 315 Hz con
un Q de 2? Sin una amplia experiencia con ecualizadores, estos números tendrán poco significado en
términos de cómo afectan el timbre percibido de un sonido.
15
Existe un isomorfismo entre los equipos de audio que se utilizan comúnmente para hacer una grabación
y el tipo de sonido que un ingeniero escucha y desea obtener. Un ingeniero puede establecer vínculos
mentales entre características particulares de la calidad del sonido y tipos específicos de procesamiento
de señales o equipos. Por ejemplo, un ingeniero novato puede entender lo que significa en teoría el
término "ratio de compresión", pero es posible que no sepa cómo ajustar ese parámetro en un
compresor para alterar efectivamente el sonido o puede que no comprenda completamente cómo
cambia el sonido cuando se ajusta ese parámetro. Un componente importante de enseñar ingeniería de
audio es ilustrar el mapeo entre conceptos de ingeniería y su efecto respectivo en el sonido que se
escucha. Enseñar estos conceptos requiere el uso de ejemplos de audio y también entrenamiento
específico para cada tipo de procesamiento. El entrenamiento del oído es igualmente importante que
conocer la funcionalidad del equipo disponible. Letowski, en su artículo "Desarrollo de Habilidades
Técnicas de Escucha: Timbre Solfeggio" (1985), acuñó originalmente el término "timbre solfeggio"
para designar un entrenamiento que tiene similitudes con el entrenamiento aural musical, pero se centra
en el equilibrio espectral o timbre.
Si un ingeniero utiliza palabras como brillante o apagado para describir la calidad de un sonido, no está
claro exactamente qué características físicas son responsables de una calidad subjetiva particular;
podrían ser frecuencias específicas, resonancias, procesamiento dinámico, reverberación artificial o
alguna combinación de todos estos y más. No hay una etiqueta en un ecualizador que indique cómo
afectar estos parámetros subjetivos. Asimismo, las descripciones subjetivas, por su naturaleza, no son
siempre consistentes de una persona a otra o en diferentes situaciones. Un tambor de caja que suena
"brillante" puede significar una energía excesiva alrededor de 4 a 8 kHz en una situación o una
deficiencia alrededor de 125 Hz en otra. Es difícil ser preciso con descripciones subjetivas de sonido,
pero la ambigüedad puede reducirse si todos están de acuerdo con el significado exacto de los adjetivos
que se están utilizando.
Continuando con el ejemplo, un ecualizador requiere que se elija una frecuencia específica para
aumentar o reducir, pero un adjetivo verbal elegido para describir un sonido puede dar solo una
indicación imprecisa de que la frecuencia real está en el rango de baja, media o alta frecuencia. Es
crucial desarrollar un mapa interno de frecuencias específicas a atributos perceptuales de una señal y
qué suena como un aumento o reducción en frecuencias específicas. Con la práctica, es posible
aprender a estimar la frecuencia de una deficiencia o exceso de energía en el espectro de potencia de
una señal de audio y luego ajustarla finamente auditivamente.
A lo largo de los años de práctica, los ingenieros de audio profesionales desarrollan métodos para
traducir entre sus sensaciones auditivas percibidas y los parámetros técnicos que pueden controlar con
el equipo disponible. También desarrollan una conciencia altamente afinada de detalles sutiles
presentes en grabaciones de sonido. Aunque puede que no haya un lenguaje común entre los ingenieros
de grabación para describir estímulos auditivos específicos, aquellos ingenieros que trabajan a un nivel
muy alto han ideado su propia traducción personal entre el sonido que oyen e imaginan, y las
herramientas de procesamiento de señales disponibles. Comparar exámenes audiológicos entre
ingenieros profesionales y novatos probablemente no demostraría habilidades auditivas superiores en
los profesionales desde un punto de vista clínico y objetivo. Algo más está sucediendo: los
profesionales son más avanzados en su capacidad para enfocarse en el sonido.
Idealmente, un ingeniero de grabación debería tener tanto control de un estudio de grabación y su

capacidad de procesamiento de señales asociada como un músico profesional tiene control sobre su
16
instrumento. Un violinista profesional sabe exactamente cuándo y dónde colocar los dedos en las
cuerdas y exactamente qué efecto tendrá cada movimiento del arco en el sonido producido. Existe un
conocimiento íntimo y anticipación de un sonido incluso antes de que se produzca. Un ingeniero de
audio debería tener este mismo nivel de conocimiento y sensibilidad para el procesamiento de sonido y
su formación antes de recurrir a un parámetro de procesador de efectos, posición de fader o modelo de
micrófono. Es importante saber a qué sonará un aumento de 3 dB a 4 kHz o un aumento en la relación
de compresión incluso antes de aplicarlo a una señal de audio. Siempre habrá momentos en los que no
será inmediatamente evidente una combinación única de procesamiento de señales y elecciones de
equipo, pero es altamente ineficiente que un ingeniero esté adivinando continuamente cómo sonará el
procesamiento de señales estándar en el estudio. Al saber de antemano cómo un cambio particular en
un parámetro afectará la calidad del sonido de una señal grabada, un ingeniero puede trabajar de
manera más eficiente y efectiva. Trabajando a un nivel tan alto, un ingeniero puede responder a la
calidad del sonido muy rápidamente, similar a la velocidad con la que los músicos responden entre sí
en un ensemble. Un estudio de grabación puede considerarse como un instrumento musical que es
"tocado" por un ingeniero y productor de grabación. Un ingeniero tiene una entrada directa e influencia
en el resultado artístico de cualquier grabación de música en la que esté involucrado. Al ajustar
balances y dar forma a espectros, un ingeniero enfoca la escena sonora para los oyentes, guiándolos
auditivamente hacia una experiencia musicalmente satisfactoria que expresa las intenciones del artista
musical.
1.1.2 Aumento de la Conciencia
El segundo objetivo del entrenamiento técnico del oído es aumentar nuestra conciencia de detalles
sutiles del sonido y desarrollar nuestra capacidad para discernir e identificar auditivamente cambios
mínimos en parámetros físicos. Un ingeniero o productor experimentado puede centrar su atención en
detalles de sonido que pueden no ser evidentes para un oyente no entrenado. A menudo, el proceso de
hacer una grabación, desde el principio hasta el final, se basa en cientos, si no miles, de decisiones
sobre aspectos técnicos de la calidad del sonido y el timbre. Cada decisión contribuye a un proyecto
terminado e influye en otras elecciones. Estas decisiones abarcan una amplia gama de opciones y
niveles de sutileza, pero típicamente incluyen:
• Modelo, ubicación y orientación del micrófono para cada instrumento grabado.

• Modelo de preamplificador y ajustes de ganancia para cada micrófono.
• Nivel de grabación, que debe ajustarse lo suficientemente alto para reducir el ruido y el error de
cuantización, y lo suficientemente bajo para evitar la sobrecarga de una etapa de ganancia.
• Modelo de ecualizador y ajustes específicos de parámetros de ecualización para cada señal de
micrófono.
• Ruido, que puede tomar muchas formas, pero en general es cualquier sonido que no está
destinado a ser parte de una grabación. Ejemplos incluyen clics/pop producidos por electrónica
analógica o digital, siseo de cinta, error de cuantización, ruido de manejo de aire (que puede ser
en forma de un murmullo bajo y, por lo tanto, no inmediatamente aparente), sonidos externos y
ambientales como tráfico y metros, zumbido de 50 o 60 Hz.
• Calidad tímbrica, principalmente contenido de frecuencia y equilibrio espectral. Cada
componente analógico, desde el micrófono hasta la entrada del dispositivo de grabación, así
como cada etapa de conversión analógica a digital y requantización, tendrá algún efecto en la
calidad tímbrica del audio.
17
• Rango dinámico y procesamiento dinámico, el sonido, musical o de otro tipo, tendrá un cierto
rango de fuerte (fortissimo) a suave (pianissimo), y este rango puede alterarse mediante
procesamiento dinámico, como compresores y expandidores.
• Equilibrio o mezcla de niveles de señales de micrófono grabadas.
• Características espaciales, incluye reverberación, eco, reflexiones, retardos, así como
panoramización y posicionamiento de fuentes de sonido dentro de la imagen estéreo o
envolvente.
Un ingeniero toma decisiones sobre estos y otros parámetros técnicos que afectan la calidad percibida
del audio y el timbre de una señal de audio. Puede ser tentador considerar estos cambios sutiles como
insignificantes, pero debido a que se suman para formar un todo coherente, el efecto acumulativo hace
que cada etapa sea crítica para un proyecto terminado. Ya sea la calidad de cada componente de un
sistema de sonido o cada decisión tomada en cada etapa de un proyecto de grabación, el efecto aditivo
es notable y sustancial. Las elecciones realizadas al principio de un proyecto que degradan la calidad
del sonido no se pueden revertir más adelante. Los problemas de audio no se pueden corregir en la
mezcla y, como tal, los ingenieros deben escuchar atentamente cada decisión sobre la ruta de la señal y
el procesamiento que se realiza. Cuando se escucha a un nivel tan enfocado, un ingeniero puede
responder rápidamente a la calidad del sonido y el timbre, escuchando problemas potenciales que
pueden volver para atormentar un proyecto en una etapa posterior. Usando una analogía, los pintores
utilizan colores de pintura específicos y pinceladas de manera sutil que se combinan para producir
imágenes terminadas poderosas. De manera relacionada, los ingenieros de grabación deben poder
escuchar y enfocarse en características sonoras específicas que, tomadas en su conjunto, se combinan,
mezclan y se apoyan mutuamente para crear mezclas finales más poderosas y significativas de sonidos.
1.1.3 Aumento de la Velocidad de Detección
Finalmente, el tercer objetivo es incrementar la rapidez con la que podemos identificar y decidir sobre
los parámetros de ingeniería apropiados para cambiar. Una sesión de grabación y mezcla puede ocupar
grandes cantidades de tiempo, durante las cuales se pueden realizar cientos de ajustes sutiles y no tan
sutiles. Cuanto más rápido un ingeniero pueda centrarse en cualquier característica sonora que pueda
necesitar ser cambiada, más efectivo será un período de tiempo determinado. La capacidad para tomar
decisiones rápidas sobre la calidad del sonido es fundamental durante las sesiones de grabación y
mezcla. Por ejemplo, durante una sesión de grabación, se puede consumir tiempo valioso al comparar y
cambiar micrófonos.
Se anticipa que un aumento de sensibilidad en una área de escucha crítica (como la ecualización)
facilitará un mayor conocimiento y sensibilidad en otras áreas (como la compresión y la reverberación)
como resultado de habilidades de escucha mejoradas en general. Debido a que una parte significativa
de la ingeniería de audio: grabación, mezcla, masterización, es un arte en el que no hay respuestas
correctas, este libro no ofrece consejos sobre las configuraciones de "mejor" ecualización, compresión
o reverberación para diferentes situaciones. Lo que puede ser la ecualización perfecta para un
instrumento en una situación puede no ser adecuado para otra. Sin embargo, lo que este libro intenta
hacer es guiar al lector en el desarrollo de habilidades auditivas que luego ayudan a identificar áreas
problemáticas en la calidad del sonido. Un ingeniero novato puede no darse cuenta de cuándo hay un
problema con la calidad del sonido o puede tener alguna idea de que hay un problema pero puede no
poder identificarlo específicamente o saber cómo resolverlo. Las habilidades de escucha crítica
altamente desarrolladas ayudan a un ingeniero a identificar rápidamente y de manera eficiente
18
características de timbre y calidad del sonido. Los tipos estándar de procesamiento de señales incluyen
ecualización (paramétrica, gráfica y filtros), compresión/limitación, expansión/puertas de ruido,
reverberación, retardo, coro, flanger y cambios de ganancia. Dentro de cada una de estas categorías de
procesamiento de señales, hay numerosas marcas y modelos disponibles en varios rangos de precios y
niveles de calidad. Si consideramos los compresores por un momento, sabemos que varias
marcas/modelos de compresores realizan la misma función básica: hacen que los sonidos fuertes sean
más silenciosos. La mayoría de los modelos de compresores tienen funcionalidades comunes que les
otorgan características sónicas generales similares, pero la forma exacta en que realizan la reducción de
ganancia varía de un modelo a otro. Las diferencias en la electrónica analógica o en los algoritmos de
procesamiento de señales digitales entre compresores crean una variedad de resultados sonoros, y cada
marca y modelo tendrá un sonido único. A través de la experiencia auditiva, los ingenieros aprenden
que existen variaciones en la calidad del sonido entre diferentes marcas y modelos, y eligen un modelo
específico debido a su calidad de sonido particular.
Es común encontrar versiones de software de muchos dispositivos de procesamiento de señales

analógicas. A menudo, la imagen en pantalla de un complemento que modela un dispositivo analógico
será casi idéntica a la placa frontal del dispositivo. A veces, porque los dos dispositivos se ven
idénticos, puede ser tentador pensar que también suenan de manera idéntica. Desafortunadamente, no
siempre suenan igual, pero es posible que nos engañen haciéndonos creer que el sonido se replica tan
perfectamente como la representación visual del dispositivo. Por lo general, la mejor opción es
escuchar y determinar auditivamente si los dos suenan tan similares como lucen. No siempre hay una
traducción directa entre la electrónica analógica y el código informático que realiza el procesamiento
de señales digitales equivalente, y hay varias formas de crear modelos de circuitos analógicos; así que
tenemos diferencias en la calidad del sonido. Aunque cada modelo de procesamiento de señales tiene
un sonido único, es posible transferir el conocimiento de un modelo a otro y poder utilizar un modelo
desconocido de manera efectiva después de un corto período de escucha. Al igual que los pianistas
deben ajustarse a cada nuevo piano que encuentran, los ingenieros deben ajustarse a las diferencias
sutiles y no tan sutiles entre piezas de equipo que realizan una función específica.
1.2 Moldeando Sonidos

No solo las grabaciones musicales pueden ser reconocidas por sus melodías, armonías y estructura
musical, sino también por los timbres de los instrumentos creados en el proceso de grabación. A veces,
el timbre es la característica más identificativa de una grabación. En la música grabada, un ingeniero y
productor dan forma a los sonidos capturados para que se adapten mejor a una composición musical. El
moldeo del timbre se ha vuelto increíblemente importante en la música grabada, y en su libro "The
Producer as Composer: Shaping the Sounds of Popular Music" (2005), Moorefield describe cómo los
equipos de grabación y procesamiento de sonido contribuyen al proceso compositivo. El timbre se ha
vuelto tan crucial en la música grabada que puede usarse para identificar una canción antes de que la
tonalidad o la melodía musical tengan tiempo de desarrollarse suficientemente.
En su artículo titulado "Name That Tune: Identifying Popular Recordings from Brief Excerpts,"
Schellenberg et al. (1999) descubrieron que los oyentes podían identificar correctamente piezas
musicales cuando se les presentaban extractos de solo una décima de segundo de duración. Las
emisoras de radio de música popular desafían a los oyentes reproduciendo un breve fragmento
(generalmente menos de un segundo) de una grabación conocida e invitándolos a llamar e identificar el
19
título de la canción y el artista. Estos fragmentos son demasiado cortos para indicar la progresión
armónica o melódica de la música. Los oyentes confían en el timbre o "mezcla" de características
sonoras para hacer una identificación correcta. Levitin, en "This Is Your Brain on Music" (2006),
también ilustra la importancia del timbre en el sonido grabado y afirma que "Paul Simon piensa en
términos de timbre; es lo primero que escucha en su música y en la música de los demás" (página 152).
Un efecto que el estudio de grabación ha tenido en la música es que ha ayudado a músicos y

compositores a crear paisajes sonoros que son imposibles de realizar acústicamente. Sonidos e
imágenes sonoras que no podrían haberse producido acústicamente son más evidentes en la música
electroacústica y electrónica, donde los sonidos provienen de fuentes puramente electrónicas o digitales
en lugar de través de las cuerdas vibrantes, membranas o flujo de aire de un instrumento musical
convencional. Sin embargo, las grabaciones de instrumentos musicales acústicos puros pueden ser
significativamente alteradas con equipos y complementos estándar de procesamiento de estudio de
grabación. El procesamiento electrónico de las propiedades espectrales, espaciales y dinámicas del
sonido grabado altera todas las propiedades originales de la fuente sonora, creando nuevos sonidos que
podrían no existir como eventos puramente acústicos.
En el proceso de grabación y mezcla, un ingeniero puede manipular cualquier cantidad de parámetros,

dependiendo de la complejidad de la mezcla. Muchos de los parámetros que se ajustan durante una
mezcla están interrelacionados, de modo que al alterar una pista, la percepción de otras pistas también
se ve influida. El nivel de cada instrumento puede afectar la sensación o el enfoque de toda la mezcla, y
un ingeniero y productor pueden pasar innumerables horas ajustando niveles, incluso en incrementos de
un cuarto de decibelio, para crear el equilibrio adecuado. Por ejemplo, un ligero aumento en el nivel de
un bajo eléctrico puede tener un impacto significativo en el sonido y la sensación musical de un bombo
o incluso de toda la mezcla en su conjunto.
Cada cambio de parámetro aplicado a una pista de audio, ya sea en nivel (ganancia), compresión,
reverberación o ecualización, puede tener un efecto en la percepción de otros instrumentos individuales
y de la música en su conjunto. Debido a esta interrelación entre los componentes de una mezcla, un
ingeniero puede optar por realizar cambios y ajustes pequeños e incrementales, construyendo y
esculpiendo gradualmente una mezcla.
En este punto, aún no es posible medir todas las cualidades auditivas percibidas con las herramientas de
medición física actualmente disponibles. Por ejemplo, el desarrollo de esquemas de codificación
perceptual como MPEG-1 Layer 3, más conocido como MP3, ha requerido el uso de paneles de
oyentes expertos para identificar artefactos y deficiencias sonoras producidas por procesos de
reducción de datos. Debido a que la codificación perceptual se basa en modelos psicoacústicos para
eliminar componentes de una grabación de sonido que se consideran inaudibles, la única prueba
confiable para este tipo de procesamiento es el oído humano. Pequeños paneles de oyentes capacitados
son más efectivos que muestras grandes de la población general porque pueden proporcionar juicios
consistentes sobre el sonido y pueden centrarse en los aspectos más sutiles de una grabación de sonido.
Estudios como los de Quesnel (2001) y Olive (1994, 2001) ofrecen evidencia sólida de que capacitar a
las personas para escuchar atributos específicos del sonido reproducido marca una diferencia
significativa en su capacidad para reconocer de manera consistente y confiable características del
sonido, y también aumenta la velocidad con la que pueden identificar correctamente estas
características. Los oyentes que han completado un entrenamiento sistemático del oído para el timbre
pueden trabajar con el audio de manera más productiva y efectiva.
20
1.3 Sistema de Reproducción de Sonido Configuraciones

Antes de examinar más de cerca las técnicas y filosofías de escucha crítica, es
importante describir cómo son algunos de los sistemas de reproducción de sonido
más comunes. Los ingenieros de grabación están principalmente preocupados por el
sonido reproducido a través de altavoces, pero también hay beneficios en analizar
fuentes de sonido acústico, como discutiremos en el Capítulo 7.
1.3.1 Monofónico: Reproducción de Sonido de un Solo Canal
Un solo canal de audio reproducido a través de un altavoz se llama típicamente

monofónico o mono (Fig. 1.1). Incluso si hay más de un altavoz, aún se considera
monofónico si todos los altavoces están produciendo exactamente la misma señal
de audio. Los primeros sistemas de grabación de sonido, reproducción y
transmisión utilizaban solo un canal de audio, y aunque este método no es tan
común como antes, aún nos encontramos con situaciones donde se utiliza. La
reproducción de sonido mono crea algunas restricciones para un ingeniero de
grabación, pero a menudo es este tipo de sistema el que los fabricantes de altavoces
utilizan para la evaluación subjetiva y prueba de sus productos.
Figura 1.1 Escucha monofónica o de un solo canal.
1.3.2 Estéreo: Reproducción de Sonido de Dos Canales
Evolucionando desde sistemas monofónicos, los sistemas de reproducción de dos canales, o estéreo,
permiten a los ingenieros de sonido una mayor libertad en cuanto a la ubicación de la fuente de sonido,
panoramización, anchura y amplitud. El estéreo es la configuración principal para la reproducción de
sonido, ya sea utilizando altavoces o auriculares. La Figura 1.2 muestra la ubicación ideal del oyente y
los altavoces para el estéreo de dos canales.
1.3.3 Auriculares
La escucha con auriculares con audio de dos canales tiene ventajas y desventajas en comparación con
los altavoces. Con auriculares de precio moderado (en relación con el precio de altavoces de calidad
equivalente), es posible lograr una reproducción de sonido de alta calidad. Los auriculares de buena
calidad pueden ofrecer más claridad y detalle que los altavoces, en parte porque no están sujetos a los
efectos acústicos de las salas de escucha, como reflexiones tempranas y modos de sala. Los auriculares
también son portátiles y se pueden llevar fácilmente a otros lugares donde las características de los
altavoces y la acústica de la habitación pueden ser desconocidas para un ingeniero.
21
Figura 1.2 Ubicación ideal para escucha estéreo de dos canales.
La principal desventaja de los auriculares es que crean una localización en la cabeza para fuentes de
sonido mono. Es decir, los sonidos mono centrados se perciben como originados en algún lugar entre
las orejas porque el sonido se transmite directamente a los oídos sin doblarse alrededor o reflejarse en
la cabeza, el torso y la oreja externa. Para evitar la localización en la cabeza, las señales de audio
necesitarían ser filtradas con lo que se conocen como funciones de transferencia relacionadas con la
cabeza (HRTF, por sus siglas en inglés). En pocas palabras, las HRTF especifican el filtrado debido a la
presencia de orejas externas (pabellones), cabeza y hombros, así como diferencias de tiempo
interaurales y diferencias de amplitud interaurales para una ubicación dada de la fuente de sonido. Cada
ubicación en el espacio (elevación y azimuth) tiene una HRTF única, y generalmente se muestrean
muchas ubicaciones en el espacio al medir HRTFs. También vale la pena señalar que cada persona tiene
una HRTF única basada en la forma única de la oreja externa, la cabeza y la parte superior del torso. El
procesamiento de HRTF tiene varias desventajas, como un efecto negativo en la calidad del sonido y el
equilibrio espectral, y el hecho de que no hay una HRTF universal que funcione perfectamente para
todos.
1.3.4 Recomendaciones de Auriculares
Hasta la fecha de esta redacción, hay varios auriculares de alta calidad en el mercado que son
perfectamente adecuados para el entrenamiento auditivo técnico. Antes de comprar auriculares, se
anima al lector a escuchar tantos modelos diferentes como sea posible. Al comparar el sonido de
diferentes auriculares utilizando grabaciones musicales familiares, es posible obtener una mejor
comprensión de las fortalezas y debilidades de cada modelo.
No hay auriculares perfectos, y cada modelo tendrá un sonido ligeramente diferente. Dado que no todos
los lectores están cerca de tiendas minoristas que ofrecen auriculares de alta calidad, se hacen algunas
sugerencias aquí en varios puntos de precio:
22
• Audio-Technica ATH-M50. Este modelo tiene un diseño cerrado, lo que significa que bloquea
una cantidad sustancial de sonido externo o de fondo.
• Beyerdynamic DT770 Pro. Este modelo también es de diseño cerrado con un ajuste circumaural
cómodo.
• Grado. Hay varios modelos en la línea de auriculares Grado y todos son diseños supraaurales, lo
que significa que descansan directamente sobre la oreja, en lugar de ser circumaurales, que
rodean la oreja. Además, todos son auriculares abiertos, lo que significa que no bloquean el
sonido exterior y, por lo tanto, pueden no ser apropiados para escuchar en entornos donde hay
un ruido de fondo significativo. Los auriculares Grado ofrecen una excelente relación calidad-
precio, especialmente para los modelos de gama baja, a pesar de que no son los auriculares más
cómodos disponibles.
• Sennheiser HD 600 y HD 650. Ambos modelos tienen un diseño abierto y están en el extremo
superior del rango de precios para auriculares. También son de diseño circumaural, lo que los
hace cómodos de llevar.
• Sony MDR 7506 y 7509. Estos modelos de Sony se han convertido en algo así como un
estándar de la industria para monitoreo en estudio.
1.3.5 Sonido Envolvente: Reproducción de Sonido Multicanal
El sonido reproducido a través de más de dos altavoces se conoce como sonido multicanal, envolvente,
ambisónico o con notaciones más específicas que indican números de canales, como 5.1, 7.1, canal 3/2
y cuadrafónico. El audio envolvente para aplicaciones de música ha tenido una popularidad limitada y
aún no es tan común como la reproducción estéreo. Por otro lado, las bandas sonoras de sonido
envolvente para cine y televisión son comunes en los cines y se están volviendo más comunes en los
sistemas domésticos.
Hay muchas sugerencias y filosofías sobre el número exacto y la disposición de altavoces para sistemas
de reproducción de sonido envolvente, pero la configuración más ampliamente aceptada entre los
investigadores de audio proviene de la Unión Internacional de Telecomunicaciones (ITU), que
recomienda una disposición de altavoces de cinco canales, como se muestra en la Figura 1.3. Los
usuarios de la configuración recomendada por la ITU generalmente también utilizan un subwoofer
opcional o un canal de efectos de baja frecuencia (LFE) conocido como el canal .1, que reproduce solo
frecuencias bajas, típicamente por debajo de 120 Hz.
Con los sistemas de sonido multicanal, hay mucha más libertad para la ubicación de la fuente de sonido
dentro del plano horizontal de 360° que con el estéreo. También hay más posibilidades para la
simulación convincente de inmersión dentro de un espacio acústico virtual. Alimentar las señales
apropiadas a los canales adecuados puede crear un sentido realista de amplitud y envolvimiento. Como
Bradley y Soulodre (1995) han demostrado, la envoltura del oyente (LEV) en una sala de conciertos, un
componente de la impresión espacial, depende principalmente de tener fuertes reflexiones laterales que
lleguen al oyente 80 ms o más después del sonido directo.
23
Figura 1.3 Disposición ideal de escucha envolvente de cinco canales según las recomendaciones de la
ITU-R BS.775-1 (ITU-R, 1994), con el oyente equidistante de los cinco altavoces.
También existen algunos desafíos con respecto a la localización del sonido para ciertas áreas dentro de
una zona de escucha multicanal. Panning fuentes hacia los lados (entre 30° y 110°) produce imágenes
de sonido que son inestables y difíciles de localizar con precisión. Por otro lado, la presencia de un
canal central permite que los sonidos se bloqueen en el centro de la imagen de sonido frontal, sin
importar dónde se encuentre el oyente. Cuando las fuentes se desplazan al centro con solo dos
altavoces frontales (izquierdo y derecho), la ubicación percibida de la imagen depende de la ubicación
del oyente.
Resumen
En este capítulo, hemos explorado la escucha activa y su importancia en proyectos de grabación, así
como en la vida cotidiana. Al definir el entrenamiento auditivo técnico, también identificamos algunos
objetivos hacia los cuales trabajamos a lo largo del libro y los módulos de práctica de software.
Terminamos dando una visión general de los principales sistemas de reproducción de sonido. A
continuación, nos centraremos en ideas y ejercicios más específicos relacionados con la ecualización.
24
2
BALANCE ESPECTRAL Y
ECUALIZACIÓN
2.1 Formando el Balance Espectral 27
2.1.1 Ecualización 27
2.1.2 Elección y Colocación del Micrófono 27
2.1.3 Factores Indirectos que Afectan el Balance Espectral 28
2.1.3.1 Monitores y Altavoces 29
2.1.3.2 Acústica de la Sala de Control y Sala de Audición 30
2.1.3.3 Niveles de Sonido y Balance Espectral 31
2.2 Tipos de Filtros y Ecualizadores 31
2.2.1 Filtros: Pasa Bajas y Pasa Altas 31
2.2.2 Ecualizadores Gráficos 32
2.2.3 Ecualizadores Paramétricos 33
2.2.4 Ecualizadores de Estantería (Shelving) 34
2.3 Empezando con la Práctica 35
2.3.1 Tipos de Prácticas 36
2.3.2 Resolución de Frecuencia 37
2.3.3 Número de Bandas 38
2.3.4 Rango de Frecuencia 38
2.3.5 Combinación de Ganancia 38
2.3.6 Q 39
2.3.7 Fuente de Sonido 39
2.3.8 Selección del Ecualizador 39
2.3.9 Control de Archivo de Sonido 40
2.3.10 Límite de Tiempo 40
2.3.11 Atajos de Teclado 41
2.4 Trabajando con el Módulo de Práctica de Ecualización 41
2.4.1 Sonidos de Vocales 42
2.5 Grabaciones Recomendadas para la Práctica 43
Resumen 43
25
Espectro balance se refiere al contenido de frecuencia de una señal de audio y a la potencia relativa de
cada frecuencia o banda de frecuencia a lo largo del rango audible de frecuencias, desde 20 hasta
20,000 Hz. Una señal de audio con un balance espectral plano representaría todas las frecuencias con la
misma amplitud relativa. A menudo, los ingenieros de audio describen el balance espectral del sonido a
través de parámetros de ecualización, ya que el ecualizador es la herramienta principal para alterar el
balance espectral del sonido. Un ingeniero puede aumentar o reducir frecuencias específicas o rangos
de frecuencias con un ecualizador para resaltar detalles de bajo nivel o compensar resonancias no
deseadas.
En el contexto de la grabación y producción de sonido, un balance espectral plano es más probable que
signifique que todo el rango de frecuencias en una grabación de una fuente de sonido se representa
adecuadamente para un proyecto de grabación dado. Sin embargo, no siempre está claro lo que
queremos decir con representar todas las frecuencias "adecuadamente". ¿Significa que queremos que
las grabaciones de instrumentos musicales suenen idénticas a cómo suenan acústicamente? ¿Es eso
posible o incluso deseable? En la grabación de música clásica, los ingenieros generalmente buscan
cierta similitud con las actuaciones en vivo, pero en la mayoría de los otros géneros musicales, los
ingenieros están creando imágenes de sonido que no existen en una situación de actuación en vivo. Los
sonidos y timbres se crean y dan forma en el estudio de grabación y la estación de trabajo de audio
digital, lo que hace posible llevar el sonido grabado en muchas direcciones artísticas posibles.
Aunque el ecualizador es la principal herramienta para alterar directamente el balance espectral, casi
todos los dispositivos electrónicos por los que pasa el audio alteran el balance espectral de una señal de
audio en mayor o menor medida. A veces, esta alteración del contenido de frecuencia es necesaria y
completamente intencional, como con el uso de ecualizadores y filtros. Otras veces, un cambio en el
balance espectral es mucho más sutil o casi imperceptible, como en el causado por diferentes tipos de
preamplificadores de micrófono. El equipo de audio vintage a menudo es buscado debido a alteraciones
únicas y agradables en el balance espectral de una señal de audio. Los cambios en el balance espectral a
veces son causados por distorsión, lo que resulta en armónicos agregados a una señal de audio. Los
ingenieros de audio deben ser capaces de escuchar cómo cada pieza de equipo de audio está alterando
el contenido espectral de sus señales de audio para dar forma al timbre de cada sonido de la manera
más adecuada para una situación dada. La capacidad de distinguir aspectos sutiles pero críticos de la
calidad del sonido proviene de la experiencia de escuchar varios tipos de procesamiento de audio y
establecer vínculos mentales entre lo que se escucha y qué parámetros se pueden controlar en una señal
de audio. En esencia, los profesionales experimentados del audio son como analizadores espectrales
humanos debido a su capacidad para identificar y caracterizar el equilibrio de frecuencias del sonido
reproducido.
Aparte del uso de ecualizadores, el balance espectral también se puede alterar hasta cierto punto
mediante el procesamiento dinámico, que cambia la envolvente de amplitud de una señal y, por
consecuencia, su contenido de frecuencia, y mediante la mezcla de una señal con una versión retrasada
de sí misma, lo que puede producir filtrado en peine. Aunque ambos métodos influyen en el balance
espectral, nos centraremos en dispositivos de procesamiento de señales cuya función principal es alterar
el contenido de frecuencia de una señal.
26
Un ingeniero busca la ecualización y el balance espectral que mejor se adapten a la música que se está
grabando. Por ejemplo, el balance espectral apropiado para una grabación de una batería de jazz
probablemente será diferente al de una grabación de una batería de rock, y un ingeniero de grabación
experimentado, al escuchar dos muestras de audio de este tipo, comprende y puede identificar
diferencias tímbricas específicas entre ellas. Para determinar la ecualización o el balance espectral que
mejor se adapte a una situación de grabación dada, un ingeniero debe tener habilidades de escucha bien
desarrolladas con respecto al contenido de frecuencia y su relación con los parámetros físicos de
ecualización: frecuencia, ganancia y Q. Cada situación de grabación requiere elecciones de ingeniería
específicas y rara vez hay recomendaciones generales de ecualización aplicables a múltiples
situaciones. Al abordar un proyecto de grabación, un ingeniero debe estar familiarizado con
grabaciones existentes de un género musical similar o tener alguna idea de los objetivos tímbricos para
un proyecto para informar el proceso de toma de decisiones durante la producción.
Un ingeniero monitorea el balance espectral de las señales de micrófono individuales, así como el
balance espectral general de múltiples señales de micrófono combinadas en cada etapa de un proyecto
de grabación. Es posible utilizar un analizador espectral en tiempo real para obtener una idea del
contenido de frecuencia y del equilibrio de una señal de audio. Un ingeniero novato puede querer
emplear un analizador espectral en tiempo real para visualizar el contenido de frecuencia de una señal
de audio y aplicar ecualización basada en lo que ve. Los ingenieros profesionales de grabación y
mezcla no suelen medir el espectro de potencia de una señal de música, sino que confían en su
percepción auditiva del balance espectral a lo largo de una pieza de música. 1 Desafortunadamente, los
analizadores en tiempo real no brindan una imagen lo suficientemente clara del contenido de frecuencia
de una grabación de música como para depender de él para tomar decisiones sobre cómo aplicar
ecualización a una señal de música. Además, no hay una indicación clara de cómo debería verse el
gráfico espectral porque no hay una referencia objetiva.
Las señales de música generalmente exhiben fluctuaciones constantes, ya sean grandes o pequeñas, en
la frecuencia y amplitud de cada armónico y sobretono presente. Debido a la naturaleza constantemente
cambiante de una señal de música típica, se vuelve difícil obtener una lectura clara de la amplitud de
los armónicos. Tomar una instantánea de un gráfico espectral de un momento específico en el tiempo
sería más claro visualmente, pero no brinda una vista lo suficientemente amplia de la forma espectral
general de una señal de audio a lo largo del tiempo. La situación se complica un poco más porque con
cualquier análisis espectral objetivo hay un compromiso entre la resolución temporal y la resolución de
frecuencia. Con un aumento en la resolución temporal, la resolución de frecuencia disminuye, mientras
que la presentación de la respuesta de frecuencia se actualiza a una velocidad tan rápida que es difícil
ver detalles con precisión mientras se reproduce una señal de audio. Por lo tanto, las medidas físicas
actualmente disponibles no son apropiadas para determinar qué ecualización aplicar a una señal de
música, y se debe confiar en el sistema auditivo para tomar decisiones sobre ecualización.
1 En cambio, los ingenieros de sonido en eventos en vivo, que están ajustando un sistema de sonido para una actuación
musical en vivo, suelen utilizar analizadores espectrales en tiempo real. La diferencia radica en que cuentan con una
referencia, que suele ser ruido rosa o una grabación, y el analizador compara el espectro de la señal de audio original
(una referencia conocida y objetiva) con la salida de los altavoces. El objetivo en esta situación es un poco diferente al
de la grabación y mezcla, ya que un ingeniero de sonido en vivo ajusta la respuesta de frecuencia de un sistema de
sonido para que la referencia de entrada y el equilibrio espectral de la salida del sistema sean lo más similares posible.
27
2.1 Formación del Equilibrio Espectral
2.1.1 Ecualización
En su caracterización más básica, el equilibrio espectral puede referirse a la relación relativa entre
graves y agudos, lo que puede controlarse con controles de tono básicos en un sistema de sonido de
consumo. Típicamente, durante el proceso de grabación de un instrumento musical acústico, un
ingeniero puede tener control directo sobre el equilibrio espectral del sonido grabado, ya sea una pista
de audio única o una mezcla de pistas, a través de varios métodos diferentes. Además de un
ecualizador, la herramienta más directa para alterar el equilibrio de frecuencias, hay otros métodos
disponibles para controlar el equilibrio espectral de una pista de audio grabada, así como factores
indirectos que influyen en el equilibrio espectral percibido. En esta sección, discutimos cómo los
ingenieros pueden alterar directamente el equilibrio espectral del sonido grabado, así como las formas
en que se puede alterar indirectamente durante la reproducción del sonido.
El método más obviamente deliberado para dar forma al equilibrio espectral de una señal de audio se
logra con un ecualizador o filtro, un dispositivo diseñado específicamente para cambiar la amplitud de
frecuencias seleccionadas. Los ecualizadores se pueden utilizar para reducir resonancias de frecuencia
particulares en una grabación de sonido, ya que pueden enmascarar otros componentes de frecuencia de
un sonido grabado y evitar que el oyente escuche el sonido más fiel de un instrumento. Además de
ayudar a eliminar regiones problemáticas de frecuencia, los ecualizadores también se pueden utilizar
para acentuar o aumentar ciertas bandas de frecuencia para resaltar características de un instrumento o
mezcla. Hay una cantidad significativa de arte en el uso de la ecualización, ya sea para un sistema de
altavoces o una grabación, y un ingeniero debe confiar en lo que se escucha para tomar decisiones
sobre su aplicación. La elección precisa de frecuencia, ganancia y Q es crucial para el uso exitoso de la
ecualización, y el oído es el juez final de la idoneidad de una configuración de ecualización.
2.1.2 Elección y Colocación del Micrófono
Otro método para alterar el equilibrio espectral de una señal de audio es a través de un micrófono. La
elección del tipo y modelo de micrófono tiene un efecto significativo en el equilibrio espectral de
cualquier sonido que se esté grabando, ya que cada marca y modelo de micrófono tiene una respuesta
de frecuencia única debido a la electrónica interna y la construcción física. Los micrófonos son
análogos a filtros o lentes en una cámara; los micrófonos afectan no solo el contenido de frecuencia
general sino también la perspectiva y claridad del sonido que se está "captando". Algunos modelos de
micrófonos ofrecen una respuesta de frecuencia muy cercana a lo plano, mientras que otros se eligen
porque no son planos en su respuesta de frecuencia. A menudo, los ingenieros eligen micrófonos
debido a sus respuestas de frecuencia únicas y cómo se relaciona la respuesta de frecuencia con la
fuente de sonido que se está grabando.
Durante el comienzo de una sesión de grabación, un ingeniero de grabación y un productor comparan
los sonidos de los micrófonos para decidir cuáles usar en una grabación. Al escuchar diferentes
micrófonos mientras los músicos están actuando, pueden decidir qué micrófonos tienen las
características sonoras más apropiadas para una situación dada. La elección tendría en cuenta las
características del instrumento o la voz de un músico, el espacio en el que están grabando y cualquier
mezcla que pueda necesitar ocurrir con otros instrumentos/voz que también estén siendo recogidos por
el micrófono. Además de la respuesta de frecuencia de un micrófono, su orientación física y ubicación
con respecto a una fuente de sonido también afectan directamente el equilibrio espectral de la señal de
28
audio a medida que entran en juego otros factores, como la respuesta polar del micrófono, los patrones
de radiación de una fuente de sonido y la relación entre el sonido directo y el sonido reverberante en un
lugar específico dentro de un espacio acústico. La ubicación de un micrófono en relación con un
instrumento musical puede tener un efecto directo y claro en el equilibrio espectral del sonido recogido.
El sonido radiado desde un instrumento musical no tiene el mismo equilibrio espectral en todas las
direcciones. Como ejemplo, el sonido que emana directamente frente a una campana de trompeta
contendrá un nivel mucho más alto de armónicos de alta frecuencia que el sonido a un lado de la
trompeta. Un ingeniero puede afectar la respuesta de frecuencia de un sonido de trompeta grabado
simplemente cambiando la ubicación de un micrófono en relación con el instrumento. En este ejemplo,
tener al músico apuntando ligeramente arriba o abajo de un micrófono resultará en un sonido
ligeramente más oscuro que cuando la trompeta apunta directamente a un micrófono.
Más allá de las complejas características de radiación de sonido de los instrumentos musicales, los
propios micrófonos generalmente no tienen la misma respuesta de frecuencia para todos los ángulos de
incidencia del sonido. Incluso los micrófonos omnidireccionales, que generalmente se consideran que
tienen la mejor respuesta fuera del eje, tienen alguna variación en su respuesta de frecuencia en varios
ángulos de incidencia del sonido. Simplemente cambiar el ángulo de orientación de un micrófono
puede alterar el equilibrio espectral de una fuente de sonido que se está grabando.
Los micrófonos direccionales, como los patrones polares cardioide y bidireccional, producen un
aumento en el nivel de las bajas frecuencias cuando se colocan cerca de una fuente de sonido, en un
fenómeno conocido como efecto de proximidad o aumento de graves. La respuesta de un micrófono
varía en el rango de bajas frecuencias según su distancia a una fuente de sonido, dentro de un rango de
aproximadamente 1 m. Es importante tener en cuenta los cambios en la respuesta de frecuencia de
bajas frecuencias como resultado de cambios en la distancia de un músico a un micrófono. Este efecto
se puede utilizar a favor para lograr prominentes bajas frecuencias cuando se graba de cerca un bombo,
por ejemplo.
2.1.3 Factores Indirectos que Afectan el Equilibrio Espectral
Al trabajar en la formación del equilibrio espectral de una pista o mezcla, hay algunos factores que
tendrán una influencia indirecta en este proceso. Dado que no hay una conexión directa entre el centro
de procesamiento auditivo del cerebro y los datos de audio digital o la cinta magnética analógica, los
ingenieros deben tener en cuenta que las señales de audio se alteran en la ruta de transmisión entre un
grabador y el cerebro. Tres factores principales influyen en nuestra percepción del equilibrio espectral
de una señal de audio en nuestro control de estudio:
• Monitores/altavoces
• Acústica de la sala
• Niveles de sonido
La Figura 2.1 ilustra la trayectoria de una señal de audio desde la energía eléctrica hasta la acústica,
resaltando tres de los principales modificadores del equilibrio espectral.
29
Figura 2.1: La ruta de la señal que muestra la transmisión de una señal de audio como una señal
eléctrica hacia un altavoz, donde se convierte en una señal acústica, se modifica por una sala de
escucha y, finalmente, es recibida por el oído y procesada por el sistema auditivo. Cada etapa destaca
los factores que influyen en el equilibrio espectral de la señal, tanto física como perceptualmente, a lo
largo de la ruta.
2.1.3.1 Monitores y Altavoces
Los monitores y altavoces son como ventanas a través de las cuales los ingenieros perciben y, por lo
tanto, toman decisiones sobre las señales de audio grabadas. Aunque los monitores no tienen un efecto
directo en el equilibrio espectral de las señales enviadas a un grabador, cada tipo y modelo de monitor y
altavoz ofrece una respuesta de frecuencia única. Debido a que los ingenieros confían en los monitores
para juzgar el equilibrio espectral de las señales de audio, la respuesta de frecuencia y potencia de los
monitores puede alterar indirectamente el equilibrio espectral de las señales de audio. Al escuchar una
grabación a través de monitores que tienen una respuesta débil en frecuencias bajas, un ingeniero puede
tener tendencia a realzar las frecuencias bajas en la señal de audio grabada. Es común que los
ingenieros verifiquen una mezcla en tres o más juegos diferentes de monitores y auriculares para
formar una concepción más precisa del verdadero equilibrio espectral de la señal de audio. Cada
modelo de altavoz dará una impresión ligeramente diferente, y al escuchar una variedad de monitores,
los ingenieros pueden encontrar el mejor compromiso. Más allá de la respuesta de frecuencia inherente
de un altavoz, casi todos los altavoces activos incluyen filtros ajustables por el usuario, como filtros de
estantería de alta y baja frecuencia, que pueden compensar cosas como la acumulación de frecuencias
bajas cuando los monitores están cerca de una pared. Por lo tanto, cualquier decisión tomada sobre el
equilibrio espectral estará influenciada por el efecto acumulativo de la respuesta de frecuencia
inherente de un altavoz más cualquier filtro aplicado por el usuario.
Los analizadores en tiempo real pueden proporcionar alguna indicación de la respuesta de frecuencia de
un altavoz dentro de una habitación, y los ecualizadores se pueden usar para ajustar una respuesta hasta
que sea casi plana. Un punto importante a tener en cuenta es que, a menos que la respuesta de
frecuencia se esté midiendo en una cámara anecoica, la respuesta que se presenta no es puramente la
del altavoz, sino que también incluirá resonancias y reflexiones de la habitación. Cualquier tipo de
medidas objetivas de respuesta de frecuencia realizadas en una sala de escucha o estudio deben
promediarse en diferentes ubicaciones en el área de escucha. Como discutiremos en la siguiente
sección, las resonancias de frecuencia en una habitación son prominentes en algunas ubicaciones y
menos en otras. Midiendo la respuesta de frecuencia desde diferentes ubicaciones, promediamos el
efecto de resonancias dependientes de la ubicación.
30
2.1.3.2 Acústica de la Sala de Control y Sala de Audición
Las dimensiones, el volumen y los tratamientos de superficie de la sala en la que un ingeniero

monitorea señales de audio también tienen un efecto directo en el audio que se está escuchando.
Grupos como la Unión Internacional de Telecomunicaciones (UIT) han publicado recomendaciones
sobre la acústica y características de las salas de escucha. La Recomendación ITU-R BS.1116 (ITU-R,
1997) define varios parámetros físicos y acústicos que se pueden aplicar a una sala de escucha para
crear un espacio acústicamente neutral. Puede parecer, a primera vista, que una sala anecoica libre de
modos y reflexiones sería ideal para escuchar, ya que la sala sería esencialmente "invisible"
acústicamente. Sin embargo, una sala libre de reflexiones no nos proporciona un entorno realista que
refleje el tipo de sala en la que normalmente escuchamos música.
El sonido originado por los altavoces se propaga en una sala, se refleja en objetos y paredes, y se
combina con el sonido que se propaga directamente hacia el oyente. El sonido irradia principalmente
desde la parte frontal de un altavoz, especialmente para frecuencias altas, pero la mayoría de los
altavoces se vuelven más omnidireccionales a medida que disminuye la frecuencia. El sonido de baja
frecuencia que se irradia principalmente desde la parte trasera y los lados de un altavoz se reflejará
hacia la posición de escucha por cualquier pared que pueda estar detrás del altavoz.
Independientemente del entorno en el que estemos escuchando el sonido reproducido, escuchamos no
solo los altavoces sino también la sala. En esencia, los altavoces y el entorno de escucha actúan como
un filtro, alterando el sonido que escuchamos.
Los modos de sala dependen de las dimensiones de la sala e influyen en el equilibrio espectral de lo
que se escucha desde los altavoces en una sala. Los modos de sala son principalmente problemáticos en
el rango de frecuencia baja, típicamente por debajo de 300 Hz. Las frecuencias resonantes
fundamentales que ocurren en una dimensión (modos axiales) tienen longitudes de onda que son dos
veces la distancia entre paredes paralelas. Separar o angilar las paredes no reduce los modos de sala; en
cambio, las frecuencias resonantes se basan en la distancia promedio entre paredes opuestas. Debido a
que las amplitudes de las resonancias de la sala varían según la ubicación, es importante que un
ingeniero camine alrededor y escuche en diferentes lugares dentro de una sala. La posición de escucha
de una sala puede tener un nodo de onda estacionaria a una frecuencia específica. Sin darse cuenta de
este efecto acústico de baja frecuencia, un ingeniero de mezcla puede realzar la frecuencia faltante con
un ecualizador, solo para darse cuenta al escuchar en otra ubicación en la sala de que el aumento de
frecuencia es demasiado grande.
Si un estudio de mezcla está conectado a una sala adyacente disponible, a los ingenieros les gusta dar
un paseo hacia la segunda sala, dejando la puerta contigua abierta, y probar una mezcla, ahora
esencialmente filtrada a través de dos salas. Al escuchar el equilibrio de una mezcla desde esta nueva
ubicación, un ingeniero puede aprender qué componentes del equilibrio cambian desde esta nueva
perspectiva, qué sonidos permanecen prominentes y cuáles se pierden. Puede ser útil centrarse en cuán
bien se pueden escuchar las voces o el instrumento principal desde una ubicación de escucha distante.
Otra forma común y útil de trabajar es probar una mezcla en un segundo y posiblemente tercer juego de
altavoces y auriculares, porque cada conjunto de altavoces nos dirá algo diferente sobre la calidad de
sonido y el equilibrio de la mezcla. Un juego de altavoces puede dar la impresión de que la
reverberación es demasiado fuerte, mientras que otro puede sonar como si no hubiera suficiente graves.
Entre los sistemas de monitoreo disponibles, se puede encontrar un compromiso que se espera permita
que la mezcla final suene relativamente óptima en muchos otros sistemas también. Los ingenieros a
31
menudo dicen que una mezcla "se traduce" bien para describir cuán consistente permanece una mezcla
al ser probada en varios tipos y tamaños de altavoces.
Pueden haber enormes diferencias resaltadas en una mezcla probada en diferentes sistemas, según
cómo se haya realizado la mezcla. Una marca de una grabación bien hecha es que se traducirá bien en
una amplia gama de sistemas de reproducción de sonido, desde minisistemas hasta sistemas de
altavoces a gran escala.
2.1.3.3 Niveles de Sonido y Equilibrio Espectral
El nivel de sonido de un sistema de reproducción de sonido juega un papel significativo en la

percepción del equilibrio espectral. Las conocidas curvas de igual intensidad de Fletcher y Munson
(1933) ilustran que no solo el sistema auditivo humano tiene una amplia variación en su respuesta de
frecuencia, sino que esta respuesta cambia según el nivel de reproducción de sonido. En general, el
oído es menos sensible a las frecuencias bajas y altas, pero a medida que se aumenta el nivel de sonido,
el oído se vuelve más sensible a estas mismas frecuencias en relación con las frecuencias medias. Si se
mezcla a un nivel de sonido alto, como un nivel de presión sonora promedio de 100 dB, y luego de
repente se baja el nivel mucho más bajo, a 55 dB SPL, por ejemplo, el equilibrio espectral percibido
cambiará. Habrá una tendencia a pensar que no hay suficientes frecuencias bajas en la mezcla. Es útil
escuchar una mezcla a varios niveles de reproducción y encontrar el mejor compromiso en el equilibrio
espectral general, teniendo en cuenta las diferencias en la respuesta de frecuencia del sistema auditivo
humano a diferentes niveles de reproducción.
2.2 Tipos de Filtros y Ecualizadores

Ahora que hemos discutido formas de cambiar el equilibrio espectral directamente, así como factores
responsables de alterar nuestra percepción del sonido reproducido, es hora de enfocarnos más
específicamente en los ecualizadores. Hay diferentes tipos de ecualizadores y filtros, como filtros
pasaaltos, filtros pasabajos, filtros pasa banda, ecualizadores gráficos y ecualizadores paramétricos, que
permiten diversos niveles de control sobre el equilibrio espectral. Los filtros son dispositivos que
eliminan un rango o banda de frecuencias, por encima o por debajo de una frecuencia de corte definida.
Los ecualizadores, por otro lado, ofrecen la capacidad de aplicar varios niveles de aumento o
atenuación en frecuencias seleccionadas.
2.2.1 Filtros: Pasa Bajos y Pasa Altos
Los filtros pasa bajos y pasa altos eliminan frecuencias por debajo o por encima de una frecuencia de
corte definida. Por lo general, el único parámetro ajustable es la frecuencia de corte, aunque algunos
modelos ofrecen la capacidad de controlar la pendiente de un filtro, o la rapidez con la que la salida
disminuye más allá de la frecuencia de corte. Las Figuras 2.2 y 2.3 muestran curvas de respuesta de
frecuencia para filtros pasa bajos y pasa altos, respectivamente. En la práctica, los filtros pasa altos se
utilizan generalmente con más frecuencia que los filtros pasa bajos. Los filtros pasa altos pueden
eliminar el zumbido de baja frecuencia de una señal, asegurándose de que la frecuencia de corte esté
establecida por debajo de la frecuencia más baja producida por la señal del instrumento musical.
32
Figura 2.2: La respuesta de frecuencia de un filtro pasa bajos ajustado a 1000 Hz.
Figura 2.3: La respuesta de frecuencia de un filtro pasa altos ajustado a 1000 Hz.
2.2.2 Ecualizadores Gráficos
Los ecualizadores gráficos permiten controlar solo la cantidad de aumento o reducción para un
conjunto dado de frecuencias, generalmente con deslizadores verticales en el panel frontal del
dispositivo. Las frecuencias disponibles para la manipulación suelen basarse en las frecuencias
centrales de la Organización Internacional de Normalización (ISO), como frecuencias de octava 31.5
Hz, 63 Hz, 125 Hz, 250 Hz, 500 Hz, 1000 Hz, 2000 Hz, 4000 Hz, 8000 Hz y 16,000 Hz. También es
posible que un ecualizador gráfico tenga un mayor número de bandas con una mayor resolución de
frecuencia, como frecuencias de tercio de octava o duodécima de octava. El ancho de banda o Q de
cada aumento o reducción a menudo está predeterminado por el diseñador del ecualizador y
generalmente no puede ser cambiado por el usuario. El ecualizador gráfico obtiene su nombre del
hecho de que los deslizadores verticales forman la forma de la curva de ecualización desde frecuencias
bajas a la izquierda hasta frecuencias altas a la derecha.
33
Figura 2.4: La respuesta de frecuencia de un ecualizador paramétrico con un aumento de 12 dB a 4000

Hz y un Q de 2.
Figura 2.5: La respuesta de frecuencia de un ecualizador paramétrico con una reducción de 6 dB a

1000 Hz y un Q de 2.
2.2.3 Ecualizadores Paramétricos
Un término acuñado originalmente por George Massenburg en su artículo de la convención de la

Sociedad de Ingenieros de Audio de 1972, el ecualizador paramétrico permite un control
completamente independiente y ajustable de tres parámetros por banda: frecuencia central, Q y
cantidad de aumento o reducción en esa frecuencia. El Q está inversamente relacionado con el ancho de
banda del aumento o reducción y se define específicamente de la siguiente manera:
Fc es la frecuencia central, el ancho de banda se define como la diferencia entre f 2 y f1 Las dos
frecuencias, f2 y f1 , son los puntos en los cuales la respuesta de frecuencia está en -3db desde el
aumento máximo o +3db desde la reducción máxima. Las Figuras 2.4 y 2.5 ilustran las respuestas de
frecuencia de dos configuraciones diferentes de ecualizador paramétrico.
En la práctica, encontramos que muchos ecualizadores tienen limitaciones en la cantidad de control que
proporcionan. Por ejemplo, en lugar de que el Q sea completamente variable, puede ser conmutado
entre tres puntos discretos, como bajos, medios y altos. La selección de la frecuencia central también
puede no ser completamente variable y, en cambio, estar restringida a un conjunto predeterminado de
frecuencias. Además, algunos ecualizadores no permiten un control independiente de Q y están
diseñados de manera que el Q cambia según la cantidad de ganancia, con el mínimo aumento/reducción
34
dando el Q más bajo (mayor ancho de banda) y el máximo aumento/reducción dando el Q más alto
(menor ancho de banda).
2.2.4 Ecualizadores de Estantería (Shelving Equalizers)
A veces se confunden con los filtros pasa bajos y pasa altos, los ecualizadores de estantería se pueden
utilizar para alterar un rango de frecuencias en la misma cantidad. Mientras que los filtros pasa alto y
pasa bajo solo pueden eliminar un rango de frecuencias, los ecualizadores de estantería pueden
aumentar o atenuar en grados variables un rango de frecuencias. Este rango de frecuencias se extiende
hacia abajo desde la frecuencia de corte para un filtro de estantería baja, o hacia arriba desde la
frecuencia de corte para un filtro de estantería alta. Probablemente, se utilizan con mayor frecuencia
como controles de tono en sistemas de sonido para el hogar o automóviles. Los consumidores pueden
alterar el equilibrio espectral de sus sistemas de reproducción de sonido en casa mediante el uso de
controles de tono y controles de "bajos" y "agudos", que suelen ser filtros de estantería con una
frecuencia fija. Los filtros de estantería alta aplican una cantidad dada de aumento o reducción de
manera igual a todas las frecuencias por encima de la frecuencia de corte, mientras que los filtros de
estantería baja aplican una cantidad dada de aumento o reducción de manera igual a todas las
frecuencias por debajo de la frecuencia de corte. En el estudio de grabación, los filtros de estantería a
menudo se encuentran como una opción conmutable en las bandas de frecuencia más baja y más alta en
un ecualizador paramétrico. Algunos modelos de ecualizador también ofrecen filtros pasa alto y pasa
bajo además de los filtros de estantería.
A continuación se muestran ejemplos de la respuesta de frecuencia de los filtros de estantería en las

Figuras 2.6 y 2.7.
Figura 2.6: La respuesta de frecuencia de un filtro de estantería baja configurado en -6 dB a 100 Hz.
Figura 2.7: La respuesta de frecuencia de un filtro de estantería alta configurado en -6 dB a 2000 Hz.
35
2.3 Empezando con la Práctica
Es fundamental para los profesionales del audio tener un agudo sentido del equilibrio espectral y cómo
se relaciona con instrumentos individuales, así como con mezclas generales. Los ingenieros toman
decisiones sobre el equilibrio de elementos musicales dentro de una grabación de audio, y el equilibrio
espectral de cada elemento individual dentro de la mezcla contribuye a su capacidad de mezclarse y
"fusionarse" con otros elementos para formar una imagen sónica coherente y clara. Para ayudar a
desarrollar habilidades críticas de escucha, se incluye un módulo de software para que el lector
practique escuchando el efecto sonoro de varios parámetros de ecualización.
El uso del módulo de práctica de software de entrenamiento auditivo técnico "TETPracticeEQ" es

esencial para avanzar en la precisión y velocidad de reconocimiento de la ecualización. Se muestra una
imagen de la interfaz de usuario en la Figura 2.8 y se describe la funcionalidad del software a
continuación.
La clave para practicar con cualquiera de los módulos de software es mantener sesiones de práctica
cortas pero regulares, ya sea diariamente o varias veces por semana. En las etapas iniciales, las sesiones
de práctica de 10 a 15 minutos son probablemente las mejores para evitar fatigarse demasiado. Debido
36
a la cantidad de energía requerida para escuchar de manera altamente enfocada, practicar durante
períodos más largos, como un par de horas o más, generalmente se vuelve contraproducente y
frustrante. Con el tiempo, a medida que te acostumbras a este tipo de escucha enfocada, es posible que
desees aumentar el tiempo de práctica, pero típicamente de 45 a 60 minutos será el límite útil superior
para un período de práctica dado. La práctica regular durante períodos más cortos varias veces a la
semana es mucho más productiva que las sesiones de práctica extendidas pero menos frecuentes.
Obviamente, esto podría convertirse en un compromiso de tiempo significativo, pero dedicar incluso 5
minutos al día es probablemente más efectivo que intentar comprimir una sesión de práctica de 2 horas
una vez al mes.
El software producido para los ejercicios en este libro permite al lector practicar con configuraciones
de ecualización generadas aleatoriamente dentro de ciertas limitaciones elegidas por el lector. Una
captura de pantalla en la Figura 2.8 muestra el módulo de software para la ecualización paramétrica. El
objetivo del módulo de práctica es identificar auditivamente los ajustes de parámetros de ecualización
elegidos por el software. Las siguientes secciones describen las funciones principales del software y los
parámetros disponibles para el usuario.
2.3.1 Tipos de Práctica
Comenzando en la esquina superior izquierda de la ventana, justo debajo del encabezado azul, hay una
opción para seleccionar uno de los cuatro tipos de práctica: Coincidencia, Memoria de Coincidencia,
Volver a Plano e Identificación Absoluta:
Coincidencia. Trabajando en modo de Coincidencia, el objetivo es duplicar la ecualización que ha sido

aplicada por el software. Este modo permite cambiar libremente entre "Pregunta" y "Tu Respuesta"
para determinar si la ecualización elegida coincide con la ecualización desconocida aplicada por la
computadora.
Memoria de Coincidencia. Este modo es similar al modo de Coincidencia con una diferencia principal;
una vez que se cambia la ganancia o la frecuencia, la "Pregunta" ya no está disponible para ser
auditada. "Pregunta" y "Bypass" están disponibles para ser auditados libremente antes de realizar
cambios en el ecualizador. El modo de Memoria de Coincidencia nos ayuda a emparejar sonidos por
memoria y puede considerarse moderada o muy difícil según los otros parámetros de práctica elegidos,
como el número de bandas, el límite de tiempo y la resolución de frecuencia.
Volver a Plano. En este modo, el objetivo es revertir o cancelar la ecualización elegida aleatoriamente
aplicada a la señal de audio por la computadora seleccionando la frecuencia correcta y aplicando una
ganancia igual pero opuesta a la que el software ha aplicado. Es similar en dificultad a "Coincidencia",
pero requiere pensar en sentido contrario, ya que el objetivo es eliminar la ecualización y devolver el
sonido a su equilibrio espectral original. Por ejemplo, si escuchas un aumento de 12 dB a 2000 Hz, la
respuesta correcta sería aplicar una reducción de -12 dB a 2000 Hz, devolviendo así la señal de audio a
su estado original y sonando idéntica a la opción "Plano". Dado que la ecualización utilizada es
pico/valle recíproco, es posible eliminar por completo cualquier aumento o reducción de frecuencia
aplicando aumentos o reducciones iguales pero opuestos a las frecuencias respectivas. Cabe señalar
que, si deseas probar estos ejercicios en un contexto diferente fuera de los módulos de práctica de
software incluidos, no todos los tipos de ecualizadores paramétricos disponibles son recíprocos en
37
picos/valles y, por lo tanto, no podrán cancelar un aumento con una reducción igual pero opuesta. Esto
no es una deficiencia, sino simplemente una diferencia en el diseño.
Identificación Absoluta. Este modo de práctica es el más difícil y el objetivo es identificar la

ecualización aplicada sin tener la oportunidad de escuchar lo que se elige como respuesta correcta. Solo
se pueden escuchar "Bypass" (sin ecualización) y "Pregunta" (la ecualización elegida al azar por la
computadora).
2.3.2 Resolución de Frecuencia
Hay dos resoluciones de frecuencia entre las que elegir:
1 octava: la opción más fácil con 9 frecuencias posibles.

1/3 de octava: la más difícil con 25 frecuencias posibles.
Las frecuencias corresponden a las frecuencias de la Organización Internacional de Normalización
(ISO) comunes en todos los ecualizadores gráficos disponibles comercialmente, como se indica en la
Tabla 2.1. El software elige aleatoriamente entre estas frecuencias para aplicar ecualización a la señal
de audio. Los ejercicios con resolución de frecuencia de un tercio de octava son previsiblemente más
difíciles que los de frecuencias de octava. La lista de frecuencias de un tercio de octava incluye todas
las frecuencias de octava con la adición de dos frecuencias entre cada par de frecuencias de octava.
Es crucial trabajar con frecuencias de octava hasta que seas experto en identificar todas las frecuencias
de octava. Una vez que estas frecuencias estén consolidadas, puedes comenzar con ejercicios que
involucren frecuencias de un tercio de octava. Las frecuencias de octava deberían parecer sólidas en el
espectro alrededor de las cuales puedes identificar frecuencias de un tercio de octava.
Una estrategia clave para identificar frecuencias de un tercio de octava es identificar primero la
frecuencia de octava más cercana. Con base en un conocimiento sólido de las frecuencias de octava,
puedes determinar si la frecuencia en cuestión es una de las nueve frecuencias de octava. Si la
frecuencia en cuestión no es una frecuencia de octava, entonces puedes determinar si está por encima o
por debajo de la frecuencia de octava más cercana.
Tabla 2.1 Lista completa de frecuencias (en Hz) mostradas con frecuencias de octava en negrita
100 200 400 800 1600 3150 6300 12.500
63 125 250 500 1000 2000 4000 8000 16.000
80 160 315 630 1250 2500 5000 10.000
Por ejemplo, aquí hay dos frecuencias específicas de octava (1000 Hz y 2000 Hz) con las respectivas
frecuencias de un tercio de octava vecinas:
2500 Hz: vecino superior

2000 Hz: frecuencia de octava anclaje
1600 Hz: vecino inferior
1250 Hz: vecino superior
1000 Hz: frecuencia de octava anclaje
800 Hz: vecino inferior
38
2.3.3 Número de Bandas
Puedes elegir trabajar con una, dos o tres bandas de frecuencia. Esta configuración se refiere al número
de frecuencias simultáneas que se ven afectadas en una pregunta dada. Cuantas más bandas de
frecuencia simultáneas elijas, más difícil será una pregunta. Es importante trabajar con una banda de
frecuencia hasta que te sientas cómodo con las frecuencias de octava y de un tercio de octava.
Progresar a dos o tres bandas es mucho más difícil y puede ser frustrante sin desarrollar confianza con
una sola banda.
Cuando trabajas con más de una banda a la vez, puede ser confuso saber qué frecuencias han sido
alteradas. La mejor manera de trabajar con dos o tres bandas es identificar primero la frecuencia más
obvia y luego comparar tu respuesta con la pregunta del ecualizador. Si la frecuencia elegida coincide
de hecho con una de las frecuencias de la pregunta, esa frecuencia en particular se volverá menos
notable al cambiar entre la pregunta y tu respuesta, y las frecuencias restantes serán más fáciles de
identificar. El software puede aceptar las frecuencias en cualquier orden. Cuando trabajas con menos de
tres bandas de frecuencia, solo los deslizadores del ecualizador más a la izquierda están activos.
2.3.4 Rango de Frecuencia
Podemos limitar el rango de frecuencias probables desde el rango completo de 63 Hz a 16,000 Hz hasta
un rango tan pequeño como tres octavas. Se anima a los usuarios a limitar el rango de frecuencias en
las etapas iniciales a solo tres frecuencias en la región media, como de 500 a 2000 Hz. Una vez que
domines estas frecuencias, el rango se puede ampliar una octava a la vez.
Después de trabajar hasta el rango completo de frecuencias, es posible que aún haya algunas
frecuencias que te estén causando problemas. Por ejemplo, las frecuencias bajas (en el rango de 63 Hz
a 250 Hz) a menudo son más difíciles de identificar correctamente al practicar con grabaciones de
música, especialmente con frecuencias de un tercio de octava. Este rango de frecuencias bajas puede
presentar problemas debido a varias condiciones posibles. Primero, las grabaciones de música no
siempre tienen niveles consistentes en el rango de frecuencias bajas. En segundo lugar, el sistema de
reproducción de sonido que estás utilizando puede no ser capaz de producir frecuencias muy bajas. En
tercer lugar, si reproduce con precisión frecuencias bajas, los modos de la sala (frecuencias resonantes
dentro de una habitación) pueden interferir con lo que escuchas. El uso de auriculares puede eliminar
cualquier problema causado por los modos de la sala, pero los auriculares pueden no tener una
respuesta de frecuencia plana o pueden ser débiles en su respuesta de frecuencia baja. Para
recomendaciones sobre modelos específicos de auriculares, consulta la Sección 1.3.3.
2.3.5 Combinación de Ganancia
La opción de combinación de ganancia se refiere a las ganancias posibles (aumento o atenuación) que
se pueden aplicar a una frecuencia dada. Para cada pregunta, el software elige aleatoriamente un
aumento o atenuación (si hay más de una ganancia posible) de la combinación de ganancias
seleccionada y la aplica a una frecuencia seleccionada aleatoriamente. Cuando solo hay una ganancia
posible, la ganancia saltará automáticamente a la ganancia apropiada cuando se elija una frecuencia.
Como era de esperar, los cambios más grandes en ganancia (12 dB) son más fáciles de escuchar que los
cambios más pequeños en ganancia (3 dB). Los aumentos suelen ser más fáciles de identificar que las
39
atenuaciones, así que es mejor comenzar con aumentos hasta que te hayas vuelto competente en su
identificación. Es difícil identificar algo que se ha eliminado o reducido, pero al cambiar de la versión
ecualizada a la omisión, es posible escuchar que la frecuencia en cuestión reaparece, casi como si se
hubiera aumentado por encima de lo normal.
Cuando trabajas con una banda y una combinación de ganancia que incluye un aumento y una
atenuación, como +/- 6 dB, es posible que una atenuación baja se confunda con un aumento alto y
viceversa. Una sensibilidad a los cambios relativos en la respuesta de frecuencia puede hacer que una
atenuación en el rango de frecuencias bajas suene como un aumento en el rango de frecuencias altas.
2.3.6 Q
El Q es un parámetro estático para cualquier ejercicio. La configuración predeterminada de Q=2 es el

mejor punto de partida para todos los ejercicios. Q más alto (ancho de banda más estrecho) es más
difícil de identificar.
2.3.7 Fuente de sonido
La práctica se puede realizar con ruido rosa, que se genera internamente en el software, o con cualquier
archivo de sonido de dos canales en formato AIFF o WAV a tasas de muestreo de 44,100 o 48,000 Hz.
El ruido rosa tiene potencia igual por octava promediada a lo largo del tiempo, y su espectro de
potencia aparece como una línea plana cuando se grafica logarítmicamente. También suena equilibrado
desde frecuencias bajas hasta altas porque el sistema auditivo es sensible a las relaciones de octava
(logarítmicas) entre frecuencias en lugar de las diferencias lineales. El rango de 20 a 40 Hz representa
una octava (una duplicación de frecuencia), pero una diferencia de solo 20 Hz, mientras que el rango
entre 10,000 Hz y 20,000 Hz también es una octava pero una diferencia de 10,000 Hz. El sistema
auditivo percibe ambos rangos como siendo el mismo intervalo: una octava. En el ruido rosa, ambos
rangos de octava, de 20 a 40 Hz y de 10,000 a 20,000 Hz, tienen la misma potencia. Al usar una señal
de audio que tiene potencia igual en todo el espectro, podemos estar seguros de que un cambio en una
frecuencia será tan audible como un cambio en cualquier otra frecuencia.
También hay una opción para escuchar la fuente de sonido en mono o estéreo. Si un archivo de sonido
cargado contiene solo una pista de audio (en lugar de dos), la señal de audio se enviará solo al canal de
salida izquierdo. Al presionar el botón mono, el audio se enviará a ambos canales de salida izquierdo y
derecho. Es mejor comenzar con ruido rosa al iniciar nuevos ejercicios y posteriormente practicar con
grabaciones de varias instrumentaciones y géneros. Cuanta mayor variedad de grabaciones de sonido se
utilice, más capaz será de transferir las habilidades obtenidas en estos ejercicios a otras situaciones de
escucha.
2.3.8 Selección del ecualizador
En el software de práctica, una señal de audio (ruido rosa o señal de archivo de audio) se dirige a tres
lugares:
• Directamente sin ecualización, sin procesar.

• A través del ecualizador "Pregunta" elegido por la computadora.
• A través del ecualizador del usuario ("Tu Respuesta").
40
Podemos seleccionar cuál de estas opciones escuchar. La selección de "Bypass" nos permite escuchar la
señal de audio original sin ninguna ecualización aplicada. La selección etiquetada como "Pregunta" nos
permite escuchar la ecualización que ha sido elegida al azar por el software y aplicada a la señal de
audio. La selección etiquetada como "Tu Respuesta" es la ecualización aplicada por el usuario, según
los parámetros mostrados en la interfaz de usuario. Consulta la Figura 2.9, que muestra un diagrama de
bloques del módulo de práctica.
Figura 2.9: Un diagrama de bloques de la ruta de la señal para el módulo de práctica del Entrenador
Auditivo Técnico para ecualización paramétrica.
2.3.9 Control de archivo de sonido
La sección de Control de archivo de sonido de la interfaz incluye una pantalla de forma de onda de la
señal de audio. Puedes seleccionar fragmentos del archivo de audio completo haciendo clic y
arrastrando en la forma de onda. El archivo de audio se repite automáticamente una vez que alcanza el
final del archivo o el final de la sección seleccionada. Al hacer clic simplemente en la forma de onda,
se selecciona la forma de onda desde la ubicación del clic hasta el final del archivo.
2.3.10 Límite de tiempo
En el estudio de grabación o en un lugar de sonido en vivo, el tiempo es esencial. Los ingenieros a

menudo deben tomar decisiones rápidas y precisas sobre la calidad del sonido y el procesamiento de la
señal de audio. Para ayudar a prepararse para estas situaciones del mundo real, se puede aplicar un
límite de tiempo en el módulo de práctica para que puedas practicar la identificación de los parámetros
de ecualización con rapidez y precisión.
Los atajos de teclado incluidos en el software son ideales para indicar respuestas rápidamente al usar el
temporizador. Al trabajar en ejercicios con más de una banda de frecuencia, la tecla de tabulación pasa
por las bandas. Las teclas de flecha arriba/abajo se pueden utilizar para aumentar o disminuir las
frecuencias de octava. Alternativamente, las teclas numéricas corresponden a frecuencias de octava (0=
20 Hz, 1 = 63 Hz, 2 = 125 Hz, 3 = 250 Hz, 4 = 500 Hz, 5 = 1000 Hz, 6 = 2000 Hz, 7 = 4000 Hz, 8 =
8000 Hz y 9 = 16,000 Hz) y se pueden usar para saltar a una frecuencia de octava inmediatamente. Las
teclas de flecha izquierda/derecha ajustan la ganancia de una banda seleccionada en incrementos de 3
dB. Para ejercicios con solo una opción de ganancia (por ejemplo, +12 dB), la ganancia se ajusta
automáticamente cuando se cambia el control deslizante de frecuencia de 20 Hz a cualquier otra
frecuencia. Devolver el control deslizante de frecuencia a 20 Hz restablece la ganancia a 0 dB. Para
ejercicios con más de una opción de ganancia (por ejemplo, +/-12 dB), la ganancia se mantiene en 0 dB
hasta que el usuario la ajusta; no cambia automáticamente cuando se modifica la frecuencia.
41
A veces, un límite de tiempo es útil ya que nos obliga a responder con nuestra primera impresión en
lugar de pasar demasiado tiempo pensando y repensando. Los ingenieros novatos de grabación que han
pasado tiempo con el módulo de práctica a menudo han informado que reflexionar demasiado sobre
una pregunta resulta en errores y que sus primeras impresiones suelen ser las más precisas.
2.3.11 Atajos de Teclado
[Barra espaciadora] alterna la Selección de Ecualizador según el Tipo de Práctica:

Coincidencia: alterna entre Pregunta y Tu Respuesta
Coincidencia de Memoria: alterna entre Pregunta y Tu Respuesta, hasta que se cambia un parámetro,
momento en el cual alterna entre Bypass y Tu Respuesta
Volver a Plano: alterna entre Tu Respuesta y Bypass
Identificación Absoluta: alterna entre Pregunta y Bypass
[Enter] o [Return] verifica la respuesta y pasa a la siguiente pregunta
[q] escuchar Bypass
[w] escuchar Pregunta
[e] escuchar Tu Respuesta
Los números del 1 al 9 corresponden a las frecuencias de octava de una banda seleccionada (por
ejemplo, 1 = 63 Hz, 2 = 125 Hz, 3 = 250 Hz, 4 = 500 Hz, 5 = 1000 Hz, 6 = 2000 Hz, 7 = 4000 Hz, 8 =
8000 Hz, 9 = 16,000 Hz)
Las flechas arriba/abajo cambian la frecuencia de la banda seleccionada
Las flechas izquierda/derecha cambian la ganancia de la banda seleccionada
[Tab] selecciona la banda de frecuencia a modificar, si el número de bandas es más de uno
[Esc] apaga el audio
2.4 Trabajando con el Módulo de Práctica de Ecualización (EQ)
Al abrir por primera vez el módulo de práctica de EQ, selecciona ruido rosa en la selección de
monitoreo, enciende el audio y ajusta el nivel de salida a un nivel de escucha cómodo. Asegúrate de
que la Selección de Ecualizador esté configurada en Tu Respuesta y desplázate por cada frecuencia de
octava para tener una idea del sonido de cada frecuencia. Una vez que cambias la frecuencia, la
ganancia saltará automáticamente a 12 dB; este es el ajuste predeterminado de combinación de
ganancia al abrir el módulo de software. Alterna entre Bypass (sin ecualización) y Tu Respuesta para
comparar el cambio en el timbre creado por un aumento en cada frecuencia. Dedica algún tiempo
inicialmente solo escuchando varias frecuencias, alternando entre plano y ecualizado. Después de
familiarizarte con cómo suenan las frecuencias de octava con ruido rosa, carga un archivo de sonido y
haz lo mismo nuevamente, audicionando todas las frecuencias de octava.
Cuando estás auditando un archivo de sonido, comienza a tomar nota de qué instrumentos o
componentes de sonidos de instrumentos son afectados por cada frecuencia de octava en particular. Por
ejemplo, 125 Hz puede resaltar los armónicos bajos en una caja o bajo. En el extremo superior del
espectro, 8 kHz puede resaltar armónicos nítidos de platillos. Si estás auditando una grabación de un
conjunto barroco, es posible que descubras que un impulso a 8 kHz destaca más un clavecín. Los
aumentos en frecuencias específicas a veces pueden resaltar instrumentos individuales en una mezcla, y
de hecho, ingenieros de masterización hábiles utilizan esta capacidad para proporcionar un reequilibrio
sutil en una mezcla.
42
Cada grabación será afectada ligeramente de manera diferente por una frecuencia dada, incluso con una
instrumentación comparable. Dependiendo del contenido de frecuencia y el equilibrio espectral de cada
instrumento individual en una grabación, el efecto de un ajuste de ecualización será algo diferente de
una mezcla a otra. Esta es una razón por la cual un ingeniero debe prestar atención a lo que se requiere
en cada grabación individual, en lugar de simplemente depender de lo que pudo haber funcionado en
grabaciones anteriores. Por ejemplo, solo porque una atenuación a 250 Hz pudo haber funcionado en
un tambor de caja en una grabación no significa que funcionará en todas las grabaciones de tambores
de caja.
A veces, durante el proceso de grabación y mezcla, podemos encontrarnos evaluando y cuestionando

nuestras decisiones de procesamiento y mezcla basadas en la lógica de lo que parece correcto desde un
punto de vista numérico. Por ejemplo, digamos que aplicamos una atenuación de 20 dB a 300 Hz en un
instrumento individual. Puede haber una tentación de evaluar la cantidad de ecualización y pensar que
20 dB es demasiado, basándonos en lo que parecería razonable (es decir, pensando "Nunca he tenido
que hacer esto antes y parece una configuración extrema, ¿cómo puede ser correcta?") en lugar de lo
que suena razonable. La evaluación de una decisión basada en lo que creemos que es apropiado no
siempre coincide con lo que suena claramente más apropiado. Al final, no importa cuán ridícula pueda
parecer una decisión de procesamiento o mezcla desde el punto de vista numérico, siempre y cuando el
resultado sonoro se ajuste a la visión artística que tenemos para un proyecto. Como ingenieros,
podemos tener un efecto directo en la impresión artística creada por la música grabada dependiendo de
elecciones como el equilibrio y los niveles de mezcla, el timbre, la dinámica y el procesamiento
espacial. Los juicios sobre lo que es apropiado y adecuado deben hacerse por el oído sin juzgar los
números de parámetros elegidos realmente.
2.4.1 Sonidos de Vocales
Varios investigadores han notado que asociar sonidos de vocales específicos con frecuencias de octava
puede ayudar a los oyentes a identificar las frecuencias debido a las frecuencias formantes presentes en
cada sonido de vocal (Letowski, 1985; Miskiewicz, 1992; Opolko & Woszczyk, 1982; Quesnel, 2001;
Quesnel & Woszczyk, 1994; Slawson, 1968). Los siguientes sonidos de vocales corresponden
aproximadamente a frecuencias de octava:
250 Hz  [u] como en bota

500 Hz  [o] como en remolque
1000 Hz  [a] como en padre
2000 Hz  [e] como en bet
4000 Hz  [i] como en bit
Correlacionar resonancias de frecuencia con sonidos específicos de vocales puede ayudar con el
aprendizaje y la memoria de estas frecuencias particulares. En lugar de tratar de pensar en un número
de frecuencia, algunos lectores encontrarán útil emparejar el sonido que están escuchando con un
sonido de vocal. El sonido de la vocal puede vincularse entonces a una frecuencia de octava específica.
43
2.5 Grabaciones Recomendadas para la Práctica
La siguiente lista identifica algunas grabaciones comercialmente disponibles de varios géneros que son
adecuadas para usar como fuentes de sonido en el módulo de práctica de ecualización del software.
Representan ejemplos de grabaciones de alta calidad que tienen un buen equilibrio espectral en un
rango de frecuencias amplio. Deben utilizarse versiones de calidad de disco compacto (es decir,
modulación de código de pulso lineal digital de 44.1 kHz, 16 bits AIFF o WAV) para todos los
ejercicios. Las versiones codificadas (como MP3, Windows Media Audio o Advanced Audio Coding)
nunca deben usarse para ejercicios de ecualización, incluso si se han convertido de nuevo a PCM lineal.
Una vez que un archivo de audio ha sido codificado perceptualmente, su calidad se ha degradado y no
se puede recuperar convirtiéndolo de nuevo a PCM lineal.
Anderson, Arild. (2004). "Straight" de The Triangle. ECM Records. (trío de piano de jazz)
Blanchard, Terence. (2001). "On the Sunny Side of the Street" de Let's Get Lost. Sony. (jazz con voces)
Earth, Wind & Fire. (1998). "September" de Greatest Hits. Sony. (R&B pop)
Hellendaal, Pieter. (1991). "Concerto II—Presto" de 6 Concerti Grossi. Interpretado por The European
Community Baroque Orchestra. Channel Classics. (orquesta barroca)
Le Concert des Nations. (2002). "Marche pour la cérémonie" de la banda sonora de la película Tous les
matins du monde. Alia Vox Spain. (orquesta barroca)
Randall, Jon. (2005). Walking Among the Living. Epic/Sony BMG Music Entertainment. (música
roots/bluegrass)
Steely Dan. (2000). "Gaslighting Abbie" de Two Against Nature. Giant Records. (pop)
The Police. (1983). "Every Breath You Take" de Synchronicity. A&M Records. (rock)
También hay algunos artistas que ponen a disposición pistas de varias pistas para su compra o descarga
gratuita. GarageBand y Logic de Apple también ofrecen grabaciones de instrumentos solistas que
pueden ser útiles con el software.
Resumen
La ecualización es una de las herramientas más importantes de cualquier ingeniero de audio. Es posible
aprender a identificar resonancias y antirresonancias auditivamente a través de la práctica. El módulo
de práctica de software incluido puede servir como una herramienta efectiva para progresar en la
formación técnica del oído y la escucha crítica cuando se utiliza de manera regular y consistente.
44
3
ATRIBUTOS ESPACIALES Y
REVERBERACIÓN
3.1 Análisis de Atributos Espaciales Percibidos 45

3.1.1 Fuentes de Sonido 46
3.1.1.1 Ubicación Angular 46
3.1.1.2 Distancia 46
3.1.1.3 Extensión Espacial 47
3.1.2 Espacios Acústicos y Escenarios Sonoros 47
3.1.2.1 Características de la Decadencia de la Reverberación 48
3.1.2.2 Extensión Espacial (Ancho y Profundidad) del Escenario Sonoro 48
3.1.2.3 Amplitud 48
3.1.3 Características Generales de las Imágenes Estéreo 48
3.1.3.1 Coherencia y Polaridad Relativa entre Canales 48
3.1.3.2 Continuidad Espacial de una Imagen Sonora de un altavoz a Otro 49
3.2 Bloques Básicos de Construcción de la Reverberación Digital 50
3.2.1 Retardo en el Tiempo 50
3.2.2 Reverberación 50
3.2.2.1 Tiempo de Decadencia de la Reverberación 52
3.2.2.2 Tiempo de Retardo 53
3.2.2.3 Tiempo de Pre-retardo 53
3.2.3 Presets de Reverberación Digital 53
3.3 Reverberación en Audio Multicanal 54
3.4 Módulo de Entrenamiento de Software 55
3.5 Descripción del Módulo de Entrenamiento de Software 56
3.5.1 Fuentes de Sonido 56
3.5.2 Interfaz de Usuario 56
3.6 Primeros Pasos con la Práctica 56
3.6.1 Tiempo de Decadencia 57
3.6.2 Tiempo de Pre-retardo 57
3.6.3 Nivel de Mezcla 58
3.7 Matrizado Mid-Side 58
3.7.1 El Componente Mid 59
3.7.2 El Componente Side 59
3.7.3 Ejercicio: Escuchar el Procesamiento Mid-Side 59
Resumen 60
45
3.1 Análisis de Atributos Espaciales Percibidos
La reverberación se utiliza para crear distancia, profundidad y amplitud en las grabaciones, ya sea
capturada con micrófonos durante el proceso de grabación o agregada posteriormente durante la
mezcla. En la grabación de música clásica, los ingenieros buscan lograr una representación bastante
natural de un conjunto musical en un escenario en un espacio reverberante. En este tipo de grabación,
los micrófonos se posicionan para capturar el sonido directo que llega directamente desde los
instrumentos, así como el sonido indirecto reflejado desde un recinto circundante (paredes, techo,
suelo, asientos). Los ingenieros buscan lograr un equilibrio adecuado entre el sonido directo e indirecto
ajustando las ubicaciones y ángulos de los micrófonos.
Los estilos de música como pop, rock, electrónica y otros que utilizan predominantemente instrumentos
eléctricos y sonidos generados por computadora no se graban necesariamente en espacios acústicos
reverberantes. En cambio, a menudo se crea una sensación de espacio mediante el uso de reverberación
artificial y retardos después de que la música se ha grabado en un espacio acústico relativamente seco.
La reverberación artificial y el retardo se utilizan tanto para imitar espacios acústicos reales como para
crear espacios con sonidos completamente inusuales.
El retardo y la reverberación ayudan a crear una sensación de profundidad y distancia en una

grabación, posicionando algunas fuentes de sonido más lejos (es decir, colocándolas en escena)
mientras que otros elementos menos reverberantes permanecen en el frente de un escenario de sonido
imaginario. No solo un ingeniero puede hacer que los sonidos parezcan más lejanos y crear la
impresión de un espacio acústico, sino que también puede influir en el carácter y el estado de ánimo de
una grabación musical con el uso cuidadoso de la reverberación. Además del control de profundidad y
distancia, la ubicación angular de las fuentes de sonido se controla mediante el panoramizado de
amplitud.
Al escuchar a través de altavoces, un ingeniero tiene esencialmente dos dimensiones para controlar la
ubicación de una fuente de sonido: la distancia y la ubicación angular (azimut). En conjunto, podemos
considerar las propiedades de la ubicación de la fuente de sonido dentro de un espacio acústico
simulado, las cualidades de un espacio acústico simulado, así como la coherencia y continuidad
espacial de una imagen de sonido colectivamente como los atributos espaciales de una grabación.
El sistema auditivo extrae información sobre los atributos espaciales de una fuente de sonido, ya sea un
instrumento musical acústico o una grabación de un instrumento musical reproducido a través de
altavoces. Los atributos espaciales ayudan a determinar, con niveles variables de precisión, el azimut,
la elevación y la distancia de las fuentes de sonido, así como información sobre el entorno o recinto en
el que se producen. El sistema auditivo binaural se basa en diferencias temporales interaurales,
diferencias de intensidad interaurales y filtrado por las orejas externas para determinar la ubicación de
una fuente de sonido.
La elección de los ajustes de parámetros de reverberación depende de varias cosas, como la naturaleza
transitoria y el ancho de una fuente de sonido seca, así como las características de decaimiento y
reflexión temprana de un algoritmo de reverberación. Los ingenieros profesionales a menudo
identifican cualidades subjetivas de cada reverberación que los acercan a sus objetivos específicos para
cada mezcla, en lugar de simplemente elegir configuraciones de parámetros que funcionaron en otras
46
situaciones. Una combinación particular de ajustes de parámetros para una fuente y reverberación
generalmente no se puede duplicar fácilmente para lograr un efecto idéntico de distancia y amplitud
con una fuente o reverberación diferente.
Podemos beneficiarnos al analizar propiedades espaciales desde perspectivas tanto objetivas como
subjetivas, ya que las herramientas tienen parámetros objetivos, pero nuestro objetivo final en la
grabación es lograr una mezcla con un sonido excelente, no identificar configuraciones específicas de
parámetros. Al igual que con la ecualización, debemos encontrar formas de traducir entre lo que
escuchamos y los parámetros disponibles para el control. Los atributos espaciales se pueden desglosar
en las siguientes categorías y subcategorías:
• Colocación de fuentes de sonido directo/seco

• Características de espacios acústicos e imágenes fantasma de escenarios de sonido
• Características de una imagen sonora general producida por altavoces
3.1.1 Fuentes de Sonido
3.1.1.1 Ubicación Angular

También llamada azimuth, la ubicación angular de una fuente de sonido es su ubicación percibida a lo
largo del plano horizontal en relación con los altavoces izquierdo y derecho. Por lo general, es mejor
distribuir las fuentes a lo largo de la imagen estéreo para reducir el enmascaramiento y lograr más
claridad para cada fuente de sonido. Los sonidos pueden enmascararse entre sí cuando ocupan un rango
de frecuencia y ubicación angular similares.
Cada señal de micrófono puede ser panoramizada a una ubicación específica entre altavoces utilizando
la panoramización convencional de potencia constante que se encuentra en la mayoría de las mesas de
mezclas. También se puede lograr la panoramización al retrasar la salida de la señal a un canal de
altavoz en relación con la otra salida de altavoz. El uso del retraso para la panoramización no es común
porque su efectividad depende en gran medida de la ubicación del oyente en relación con los altavoces.
Equilibrar las señales de un par de técnicas de micrófono estéreo generalmente requerirá que la
panoramización de cada par de señales de micrófono se coloque completamente a la izquierda y
completamente a la derecha. Las posiciones resultantes de las fuentes de sonido que están frente a cada
par de micrófonos dependerán de la técnica de micrófono estéreo utilizada y las ubicaciones respectivas
de cada fuente.
3.1.1.2 Distancia
Aunque la percepción humana de la distancia absoluta es limitada, la distancia relativa de los sonidos
dentro de una imagen estéreo es importante para dar profundidad a una grabación. Los conjuntos
grandes grabados en espacios acústicamente vivos probablemente mostrarán un sentido natural de
profundidad, análogo a lo que escucharíamos como miembros de la audiencia en el mismo espacio.
Con grabaciones realizadas en espacios acústicamente secos como estudios, los ingenieros a menudo
buscan crear profundidad utilizando retardos y reverberación artificial. Los ingenieros pueden controlar
la distancia de la fuente de sonido ajustando parámetros físicos como los siguientes:
47
Nivel de sonido directo. Los sonidos más silenciosos se perciben como más lejanos debido a una
pérdida de intensidad de sonido de 6 dB por cada duplicación de distancia desde una fuente.
Nivel de reverberación. A medida que una fuente se aleja de un oyente en una habitación o sala, el nivel
de sonido directo disminuye y el sonido reverberante permanece igual, reduciendo la proporción de
sonido directo a reverberante.
Distancia de los micrófonos desde las fuentes de sonido. Alejar los micrófonos disminuye la proporción
de sonido directo a reverberante y, por lo tanto, crea una mayor sensación de distancia.
Colocación y nivel del micrófono de sala. Los micrófonos colocados en el lado opuesto de una
habitación o sala donde se encuentran los músicos capturan principalmente sonido reverberante o
difuso.
3.1.1.3 Extensión Espacial
A veces, las ubicaciones de las fuentes de sonido en una mezcla están precisamente definidas, mientras
que otras veces la ubicación de la fuente de sonido es más difusa y difícil de precisar. La extensión
espacial describe el ancho percibido de una fuente. Un concepto relacionado en la investigación de
acústica de salas de conciertos es la anchura aparente de la fuente (ASW), que está relacionada con la
fuerza, el tiempo y la dirección de las reflexiones laterales. La anchura aparente de la fuente se amplía
con reflexiones laterales más fuertes, según encontró Barron (1971).
El ancho percibido de una imagen de sonido producida por altavoces variará con la técnica de
micrófono utilizada y la fuente de sonido que se esté grabando. Los micrófonos espaciados producen
una fuente de sonido más ancha porque el nivel de correlación entre las dos señales de micrófono se
reduce a medida que los micrófonos se separan más. Al igual que con la acústica de salas de conciertos,
el ancho percibido de las fuentes reproducidas por altavoces también puede estar influenciado por
reflexiones tempranas, ya sea grabadas con micrófonos o generadas artificialmente. Si se agregan
reflexiones tempranas artificiales (en estéreo) a una grabación de una fuente de sonido con un solo
micrófono cercano, el sonido directo tiende a fusionarse perceptualmente con las reflexiones tempranas
y produce una imagen más ancha que solo el sonido seco por sí mismo. La extensión espacial de las
fuentes de sonido se puede controlar mediante parámetros físicos como los siguientes:
Patrones de reflexión temprana originados en un espacio acústico real o generados artificialmente con
reverberación.
Tipo de técnica de micrófono estéreo utilizada: los micrófonos espaciados generalmente producen una
imagen espacial más amplia que las técnicas de micrófono coincidentes.
3.1.2 Espacios Acústicos y Escenarios de Sonido
Un ingeniero puede controlar atributos espaciales adicionales, como las características percibidas,
cualidades y tamaño del entorno acústico en el cual se coloca cada fuente de sonido en una imagen
estéreo. El entorno o escenario de sonido puede consistir en un espacio acústico real capturado con
micrófonos de sala, o puede ser creado mediante reverberación artificial agregada durante la mezcla.
Puede haber un tipo común de reverberación para todos los sonidos, o algunos sonidos pueden tener
tipos únicos de reverberación agregada para ayudar a diferenciarlos del resto de los instrumentos. Por
ejemplo, es bastante común tratar las vocales o los instrumentos solistas con una reverberación
diferente a la del resto del conjunto acompañante.
48
3.1.2.1 Carácter del Decaimiento de la Reverberación
El tiempo de decaimiento es uno de los parámetros más comúnmente encontrados en dispositivos de

reverberación artificial. En la grabación de instrumentos acústicos en un espacio acústico en vivo, el
tiempo de decaimiento de la reverberación a menudo no es ajustable, aunque algunos espacios de
grabación han sido diseñados con paneles en las superficies de pared y techo que pueden rotarse para
exponer varios materiales absorbentes o reflectantes de sonido, permitiendo un tiempo de decaimiento
de la reverberación algo variable.
El tiempo de decaimiento se define como el tiempo durante el cual el sonido continúa resonando
después de que ha cesado el sonido directo. Los tiempos de reverberación más largos suelen ser más
audibles que los tiempos más cortos para un nivel de reverberación dado. Sonidos transitorios como
tambores o percusiones revelan más claramente el tiempo de decaimiento que los sonidos sostenidos, lo
que nos permite percibir la tasa de decaimiento de manera más clara. Algunos algoritmos de
reverberación artificial incorporarán modulación en el decaimiento para darle variación y, con suerte,
hacer que suene menos artificial. Un decaimiento perfectamente suave es algo que raramente
escuchamos en una habitación real, y una reverberación artificial simplificada puede sonar de manera
antinaturalmente suave.
3.1.2.2 Extensión Espacial (Ancho y Profundidad) del Escenario Sonoro
Un escenario sonoro es el entorno acústico dentro del cual se escucha una fuente de sonido, y debe
diferenciarse de una fuente de sonido. El entorno puede ser una grabación de un espacio real, o puede
ser algo que se haya creado artificialmente mediante retardo y reverberación artificial.
3.1.2.3 Amplitud
La amplitud representa la percepción de las características físicas y acústicas de un espacio de

grabación. En la acústica de salas de conciertos, está relacionada con el envolvente, pero con solo dos
altavoces en reproducción estéreo, es difícil lograr una verdadera envolvente. Podemos usar el término
"amplitud" para describir la sensación de espacio dentro de una grabación.
3.1.3 Características Generales de las Imágenes Estéreo
También agrupados bajo atributos espaciales, se encuentran elementos que describen impresiones
generales y características de una imagen estéreo reproducida por altavoces. Una imagen estéreo es la
ilusión de la localización de la fuente de sonido desde los altavoces. Aunque solo hay dos altavoces
para estéreo, el sistema auditivo binaural humano permite la creación de imágenes fantasma en
ubicaciones entre los altavoces. En esta sección, consideramos las cualidades generales de una imagen
estéreo que son más generalizadas que aquellas específicas de la fuente y del escenario de sonido.
3.1.3.1 Coherencia y Polaridad Relativa entre Canales
A pesar del uso generalizado de sistemas de reproducción estéreo y multicanal entre los consumidores,
la compatibilidad mono sigue siendo críticamente importante, principalmente porque podemos
escuchar música a través de computadoras y teléfonos móviles con altavoces individuales. Verificar una
mezcla para la compatibilidad mono implica escuchar cambios en el timbre que resultan de la
interferencia destructiva entre los canales izquierdo y derecho. En el peor de los casos, con canales
49
estéreo de polaridad opuesta, la suma a mono cancelará una parte significativa de la mezcla. Cada
proyecto que un ingeniero mezcla debe ser verificado para asegurarse de que los dos canales de una
mezcla estéreo no tengan polaridad opuesta. Cuando los canales izquierdo y derecho son ambos
idénticos y de polaridad opuesta, se cancelarán por completo al sumarlos. Si ambos canales son
idénticos, entonces la mezcla es monofónica y no verdaderamente estéreo. La mayoría de las mezclas
estéreo incluyen alguna combinación de componentes mono y estéreo. Podemos describir la relación
entre componentes de señal en los canales izquierdo y derecho de una mezcla existente en una escala
de correlación entre -1 y 1:
• Izquierda y derecha son idénticas, compuestas por señales que están centradas, con una
correlación de 1.
• Izquierda y derecha no comparten nada en común, señales que están panoramizadas hacia un
lado u otro, o señales similares con una correlación de 0 entre canales.
• Los canales izquierdo y derecho son idénticos pero de polaridad opuesta, señales con una
correlación de -1.
Los medidores de fase proporcionan una forma objetiva de determinar la polaridad relativa de los
canales estéreo, pero si no se dispone de tales medidores, un ingeniero debe confiar en sus oídos. Los
canales izquierdo y derecho de polaridad opuesta pueden identificarse escuchando una imagen estéreo
extremadamente amplia, de modo que cuando se está en la posición de escucha ideal, el sonido de los
altavoces parece provenir de los lados. Otra característica de los canales de polaridad opuesta es que la
imagen estéreo es inestable y tiende a moverse de manera exagerada con pequeños movimientos de
cabeza. La Sección 3.7.3 ofrece más información sobre la audición de canales de polaridad opuesta.
En ocasiones, un instrumento individual puede estar representado en una mezcla por dos señales
idénticas pero de polaridad opuesta panoramizadas completamente a la derecha e izquierda. Si tal señal
está presente, un medidor de fase puede no registrarlo lo suficientemente fuerte como para dar una
indicación visual inequívoca. A veces, las salidas de línea estéreo de instrumentos eléctricos están en
polaridad opuesta o quizás se usó un cable de inversión de polaridad durante la grabación por error. A
menudo, las salidas estéreo (izquierda y derecha) de instrumentos electrónicos no son verdaderamente
estéreo sino mono. Cuando una salida está en polaridad opuesta, los dos canales se cancelarán al
sumarse a mono.
3.1.3.2 Continuidad Espacial de una Imagen Sonora de un Altavoz a Otro
Como atributo general, los ingenieros de mezcla consideran la continuidad y el equilibrio de una
imagen sonora de un altavoz a otro. Una imagen estéreo ideal estará equilibrada entre izquierda y
derecha y no tendrá demasiada o muy poca energía ubicada en el centro. A menudo, las mezclas de
música pop y rock tienen un componente central fuerte debido al número y la fuerza de los
instrumentos que generalmente se ubican en el centro, como el bombo, la caja, el bajo y las vocales.
Las grabaciones de música clásica y acústica pueden no tener una imagen central igualmente fuerte, y
es posible tener una deficiencia en la cantidad de energía en el centro, a veces denominada como tener
un "hueco en el medio". Los ingenieros se esfuerzan por tener una propagación de energía de sonido
pareja y continua de izquierda a derecha.
50
3.2 Bloques Básicos de la Reverberación Digital
A continuación, exploraremos dos procesos fundamentales encontrados en la mayoría de las unidades

de reverberación digital: el retardo temporal y la reverberación.
3.2.1 Retardo Temporal
Aunque es un concepto simple, el retardo temporal puede servir como un bloque de construcción
fundamental para una amplia variedad de efectos complejos. La Figura 3.1 muestra un diagrama de
bloques de un solo retardo combinado con una señal no retardada. La Figura 3.2 muestra cómo sería la
salida del diagrama de bloques si la entrada fuera un impulso. Simplemente retrasando una señal de
audio y mezclándola con la señal original no retardada, el resultado es ya sea un filtrado en peine (para
tiempos de retardo más cortos) o un eco (para tiempos de retardo más largos). Al agregar cientos de
versiones retardadas de una señal de manera organizada, se pueden imitar patrones de reflexión
temprana, como los encontrados en espacios acústicos reales. Efectos como coro y flanger se crean
mediante el uso de retardos que varían con el tiempo.
3.2.2 Reverberación
Figura 3.1: Diagrama de bloques de una línea de retardo.
Figura 3.2: Vista basada en el tiempo de la salida de una señal (en este caso, un impulso) más una
versión retardada de sí misma.
51
Ya sea que provenga de un espacio acústico real o de uno generado artificialmente, la reverberación es
un efecto poderoso que proporciona una sensación de amplitud, profundidad, cohesión y distancia en
las grabaciones. La reverberación ayuda a mezclar las pistas grabadas para crear una imagen de sonido
unificada donde todos los componentes residen en un espacio acústico común. En el sonido
reproducido, la reverberación puede crear la ilusión de estar inmerso en un entorno diferente a nuestro
entorno físico.
Por otro lado, la reverberación, al igual que cualquier otro tipo de procesamiento de audio, también
puede generar problemas en la grabación y producción de sonido. Una reverberación que es demasiado
intensa o con un tiempo de decaimiento muy largo puede destruir la claridad de los sonidos directos o,
como en el caso del habla, afectar la inteligibilidad de lo que se está diciendo. La calidad de la
reverberación debe optimizarse para adaptarse al estilo musical y artístico que se está grabando. La
reverberación y el retardo tienen funciones importantes en la grabación de música, como ayudar a que
los instrumentos y las voces en una grabación se mezclen y "fusionen". A través del uso de la
reverberación, un ingeniero puede influir en la percepción de una mezcla al crear la ilusión de que las
fuentes están actuando en un espacio acústico común. Se pueden agregar capas adicionales de
reverberación y retardo para acentuar y destacar a solistas específicos. El sonido de un instrumento o
cantante capturado de cerca y reproducido por altavoces crea una sensación íntima o incluso incómoda
para el oyente. Escuchar dicha grabación a través de auriculares puede dar la impresión de que un
cantante está a solo unos centímetros del oído, y esto no es algo a lo que los oyentes estén
acostumbrados a escuchar acústicamente en una presentación musical en vivo. Las actuaciones
musicales en vivo suelen escucharse a cierta distancia, lo que significa que el sonido reflejado desde las
paredes, el suelo y el techo de una habitación se fusiona perceptualmente con el sonido que proviene
directamente de una fuente de sonido. Cuando se utiliza un posicionamiento de micrófono cercano
frente a un intérprete musical, a menudo es útil agregar algo de retardo o reverberación a la señal "seca"
para crear cierta distancia percibida entre el oyente y la fuente de sonido.
Los algoritmos convencionales de reverberación digital utilizan una red de retardos, filtros de paso total
y filtros peine como sus bloques de construcción, basados en la idea original de Schroeder (1962) (Fig.
3.3). Se aplica ecualización para alterar el contenido espectral de reflexiones y reverberación. En su
forma más simple, la reverberación artificial es simplemente una combinación de retardos con
retroalimentación o recursividad. Cada vez que una señal pasa por el bucle de retroalimentación, se
reduce en nivel en una cantidad preestablecida para que su intensidad disminuya con el tiempo.
Algoritmos de reverberación más recientes han sido diseñados para convolucionar una respuesta al
impulso de un espacio acústico real con la señal "seca" entrante. Las unidades de hardware capaces de
reverberación basada en convolución han estado disponibles comercialmente desde finales de la década
de 1990, y las implementaciones de software son lanzadas comúnmente como complementos (plug-ins)
con software de estación de trabajo de audio digital. A veces, la reverberación por convolución se
denomina reverberación de muestreo porque una "muestra" de un espacio acústico (es decir, su
respuesta al impulso) se convoluciona con una señal de audio seca. Aunque es posible calcular en el
dominio del tiempo, el proceso de convolución generalmente se realiza en el dominio de la frecuencia
para que el cálculo sea lo suficientemente rápido para el procesamiento en tiempo real. La señal de
audio resultante de un reverberador de convolución es, sin duda, una reverberación con un sonido más
realista que lo posible con la reverberación digital convencional. La principal desventaja es que no hay
tanta flexibilidad o control de parámetros en la reverberación por convolución como es posible con la
reverberación digital basada en filtros peine y de paso total.
52
Figura 3.3: Diagrama de bloques del algoritmo original de reverberación digital de Manfred
Schroeder.
En las unidades de reverberación digital convencionales, hay varios parámetros posibles que se pueden
controlar. Aunque estos parámetros varían de un fabricante a otro, algunos de los más comunes
incluyen los siguientes:
• Tiempo de decaimiento de la reverberación (RT60)

• Tiempo de retardo
• Tiempo de pre-retardo
• Algún control sobre patrones de reflexión temprana, ya sea eligiendo entre conjuntos
predefinidos de reflexiones tempranas o control sobre reflexiones individuales
• Frecuencia de corte del filtro de paso bajo
• Frecuencia de corte del filtro de paso alto
• Multiplicadores de tiempo de decaimiento para diferentes bandas de frecuencia
• Puerta de ruido: umbral, tiempo de ataque, tiempo de retención, tiempo de liberación o
decaimiento, profundidad
Aunque la mayoría de los algoritmos de reverberación digital representan modelos simplificados de la

acústica de un espacio real, se utilizan ampliamente en el sonido grabado para ayudar a mejorar el
espacio acústico grabado o crear una sensación de amplitud que no existía en el entorno de grabación
original.
3.2.2.1 Tiempo de Decadencia de la Reverberación
El tiempo de reverberación se define como el tiempo que tarda un sonido en decaer 60 dB una vez que
se apaga. Comúnmente referido como RT60, W.C. Sabine propuso una ecuación para calcularlo en un
espacio acústico real (Howard y Angus, 2006):
donde V es el volumen en m3 , S es el área de la superficie en m2 para un tipo dado de material de

superficie, y α es el coeficiente de absorción de la superficie respectiva.
Debido a que el RT60 será algún valor mayor que cero incluso si α es 1.0 (absorción del 100% en
todas las superficies), la ecuación de Sabine generalmente solo es válida para valores de α menores a
0.3. En otras palabras, la limitación de la ecuación de Sabine es que incluso en una cámara anecoica, se
53
calculará un tiempo de reverberación, aunque no se mediría acústicamente ninguna reverberación.

Norris-Eyring propuso una variación ligera en la ecuación para un rango más amplio de valores
(Howard y Angus, 2006):
RT60= -0.161V/S ln(1 – α )
Es crucial que un ingeniero tenga un sentido intuitivo de lo que significan tiempos de decadencia de
varios valores en términos de cómo suenan. Un tiempo de decadencia de 2 segundos tendrá un efecto
sónico muy diferente en una mezcla que un tiempo de decadencia de 1 segundo.
3.2.2.2 Tiempo de Retardo
Un retardo simple sin retroalimentación o recursión de una señal de audio a menudo se mezcla con la
señal seca para crear una sensación de espacio y puede complementar o ser un sustituto para el uso de
la reverberación.
Con tiempos de retardo más cortos, menos de aproximadamente 30 milisegundos, el sistema auditivo
tiende a fusionar los sonidos directos y retardados, juzgando la posición del sonido combinado en
función de la ubicación del sonido directo. Este fenómeno se conoce como el efecto de precedencia, el
efecto Haas o la ley de la primera onda frontal. Con tiempos de retardo de más de aproximadamente 30
milisegundos, la señal retardada se escucha como un eco distinto de un sonido directo. La cantidad real
de tiempo de retardo necesario para crear un eco distintivo depende de la naturaleza de la señal de
audio que se retarda. Las señales transitorias y percusivas revelan ecos distintivos con tiempos de
retardo mucho más cortos (menos de 30 milisegundos), mientras que las señales sostenidas y en estado
estable requieren tiempos de retardo mucho más largos (más de 50 milisegundos) para crear un eco
audible.
3.2.2.3 Tiempo de Predisposición
El tiempo de predisposición se define típicamente como el tiempo de retardo entre el sonido directo y
el inicio de la reverberación. Perceptualmente, puede dar la impresión de un espacio más grande a
medida que se aumenta el tiempo de predisposición. En un espacio acústico real sin obstrucciones
físicas entre una fuente de sonido y un oyente, siempre habrá un breve retardo entre la llegada de los
sonidos directos y reflejados. Cuanto más largo sea este retardo inicial, se percibirá un espacio más
grande.
3.2.3 Presets de Reverberación Digital
La mayoría de las unidades de reverberación digital actualmente disponibles, ya sea en forma de

complemento (plug-in) o hardware, ofrecen cientos, si no miles, de presets de reverberación. Lo que
puede no ser inmediatamente evidente para el ingeniero principiante es que, por lo general, solo hay un
puñado de algoritmos diferentes para un tipo o modelo dado de reverberación. Los presets son
simplemente los mismos algoritmos repetidos con variaciones en los ajustes de los parámetros y
nombrados individualmente para reflejar el tipo de espacio que la unidad está modelando o una
aplicación posible, como sala grande, voz brillante, tambores de estudio o teatro. Todos los presets que
54
utilizan un tipo dado de algoritmo representan tipos idénticos de procesos y sonarán de manera idéntica
si los parámetros de cada preset se ajustan.
Dado que los ingenieros ajustan muchos parámetros de reverberación para crear la reverberación más
adecuada para cada aplicación, puede tener sentido elegir cualquier preset y comenzar a ajustar los
parámetros en lugar de tratar de encontrar un preset que funcione sin ningún ajuste. La principal
desventaja de intentar encontrar el preset adecuado para cada instrumento y voz durante una mezcla es
que es posible que el "preset correcto" no exista y probablemente requerirá ajuste de parámetros de
todos modos. Puede ser mejor comenzar de inmediato eligiendo cualquier preset y editando los
parámetros para adaptarse a una mezcla. El proceso de edición de parámetros, en lugar de tratar de
encontrar un preset, también ayudará a aprender las capacidades de cada reverb y el resultado sonoro
de cada cambio de parámetro.
Aunque puede no ser la mejor manera de pasar el tiempo buscar un preset durante el proceso de
mezcla, hay una ventaja en recorrer los presets y escuchar cada uno, ya que puede dar una idea más
clara de cómo puede sonar una unidad de reverberación a través de muchos ajustes de parámetros
diferentes. Este ejercicio auditivo debe hacerse en un momento fuera de un proyecto de mezcla para
permitir tiempo para escuchar y familiarizarse con el hardware y software a nuestra disposición.
3.3 Reverberación en Audio Multicanal
Desde un punto de vista práctico, mi investigación informal y escucha parecen indicar que, en general,
niveles más altos de reverberación son posibles en grabaciones de audio multicanal que en estéreo de
dos canales, manteniendo un nivel aceptable de claridad. Se necesitan pruebas más formales para
verificar este punto, pero puede tener sentido según lo que sabemos sobre el enmascaramiento. El
enmascaramiento de un sonido por otro se reduce cuando los dos sonidos están separados
espacialmente (Kidd et al., 1998; Saberi et al., 1991). Parece que debido a la distribución espacial más
grande del sonido en audio multicanal, en comparación con el estéreo de dos canales, la reverberación
es menos propensa a oscurecer o enmascarar el sonido directo y, por lo tanto, puede ser más
prominente en audio multicanal.
Se podría argumentar que la reverberación es cada vez más crítica en grabaciones mezcladas para
reproducción de audio multicanal porque el audio multicanal ofrece una posibilidad mucho mayor de
recrear una sensación de inmersión en un espacio acústico virtual que el estéreo de dos canales. Ha
habido mucha más investigación en la dimensión espacial del sonido reproducido en los últimos años a
medida que el audio multicanal ha ganado popularidad y su distribución se ha expandido a una
audiencia más amplia. Como tal, los estudiantes de ingeniería de grabación pueden beneficiarse de un
método de entrenamiento sistemático para aprender a igualar configuraciones de parámetros de
reverberación artificial "por el oído" y desarrollar aún más la capacidad de identificar consistentemente
detalles sutiles del sonido reproducido a través de altavoces.
Grabar música y sonido para reproducción multicanal también presenta nuevos desafíos en
comparación con el estéreo de dos canales en términos de crear una imagen de sonido detallada y
envolvente. Una de las dificultades con la reproducción de audio multicanal utilizando el diseño de
altavoces ITU-R BS.775 (ITU-R, 1994) es el gran espacio entre los altavoces delanteros y traseros
(espaciado de 80 a 90°; ver Fig. 1.3). Debido al espacio entre los altavoces y la naturaleza de nuestras
55
habilidades de localización binaural del sonido, las imágenes fantasma laterales son típicamente
inestables. Además, es un desafío producir imágenes fantasma que conecten la imagen de sonido
frontal con la trasera. La reverberación puede ser útil para crear la ilusión de imágenes de sonido que
abarcan el espacio entre altavoces.
3.4 Módulo de Entrenamiento de Software
El módulo de entrenamiento de software incluido es una herramienta para ayudar a percibir detalles y
parámetros sutiles de la reverberación digital artificial en lugar de ser un entrenador de oído para la
percepción de la acústica de la sala. Puede ser posible que las habilidades obtenidas al usar este sistema
ayuden en la percepción de características acústicas, pero no está claro qué tan bien se transfiere una
habilidad a la otra. La mayoría de los algoritmos de reverberación digital convencionales se basan en
varias combinaciones de filtros comb y all-pass según el modelo desarrollado por Schroeder, y aunque
estos algoritmos son eficientes computacionalmente y proporcionan muchos parámetros controlables,
no son modelos físicos del comportamiento del sonido en una sala real. Por lo tanto, no es posible
confirmar que los parámetros de la reverberación artificial, como el tiempo de decadencia, sean
idénticos a los que se encuentran en el sonido en un espacio acústico real. No está claro cuán
estrechamente se relaciona el tiempo de decadencia de la reverberación (RT60) de un algoritmo de
reverberación artificial dado con el tiempo de decadencia del sonido en una sala real. Por ejemplo, si
los tiempos de decadencia de diferentes unidades o complementos de reverb artificial se establecen en
1.5 segundos, el tiempo de decadencia percibido puede diferir entre unidades. Además, el tiempo de
reverberación a veces depende de otros parámetros en un algoritmo. No siempre está claro exactamente
qué otros parámetros, como "tamaño", están controlando o por qué podrían afectar el tiempo de
decadencia percibido sin cambiar el tiempo de decadencia mostrado. Debido a la variabilidad del
tiempo de decadencia percibido entre unidades y algoritmos, quizás sea mejor no aprender tiempos de
decadencia absolutos, sino aprender a escuchar diferencias entre ejemplos representativos y poder
igualar configuraciones de parámetros. No obstante, la reverberación es una herramienta sonora
poderosa disponible para ingenieros de grabación que la mezclan con sonido grabado para crear la
ilusión auditiva de acústica real y contexto espacial. Al igual que es fundamental entrenar a los
ingenieros de audio para reconocer resonancias espectrales, también es importante mejorar nuestra
percepción de sutilezas en la reverberación artificial. Al menos un investigador ha demostrado que los
oyentes pueden "aprender" la reverberación para una sala específica (Shinn-Cunningham, 2000).
También se ha realizado trabajo para entrenar a los oyentes a identificar atributos espaciales del sonido
utilizando descripciones verbales con el propósito de evaluar la calidad espacial del audio. Se ha
llevado a cabo investigación para describir los atributos espaciales del sonido reproducido utilizando
evaluación gráfica (como Ford et al., 2003, y Usher & Woszczyk, 2003). Una ventaja del sistema de
entrenamiento discutido aquí es que se compara una escena espacial con otra, por el oído, y nunca se
requiere traducir o mapear una sensación auditiva a una segunda modalidad sensorial y, posteriormente,
a un medio de expresión, como dibujar una imagen o elegir una palabra. Utilizando el sistema, puedes
comparar y emparejar dos escenas de sonido, dentro de un conjunto dado de parámetros de
reverberación artificial, utilizando solo el sistema auditivo. Por lo tanto, no hay isomorfismo entre
diferentes sentidos y métodos de comunicación. Además, este método tiene validez ecológica, ya que
imita el proceso de un ingeniero de sonido esculpiendo detalles sonoros de una grabación de sonido por
el oído en lugar de a través de gráficos y palabras.
56
3.5 Descripción del Módulo de Entrenamiento de Software
El módulo de entrenamiento de software incluido "TETpracticeReverb" está disponible para ejercicios

auditivos. La computadora aleatoriza los ejercicios y brinda una opción de dificultad y elección de
parámetros para un ejercicio. Funciona de manera muy similar al módulo de EQ descrito en el Capítulo
2.
3.5.1 Fuentes de Sonido
Se anima a los lectores a comenzar el curso de entrenamiento con sonidos simples, transitorios o
impulsivos, como la percusión, y avanzar a sonidos más complejos, como grabaciones de voz y música.
De la misma manera que se usa ruido rosa en las etapas iniciales del entrenamiento auditivo de
frecuencia porque expone una cantidad dada de ecualización mejor que la mayoría de las muestras de
música, los sonidos percutivos o impulsivos se utilizan para los niveles iniciales de entrenamiento en el
procesamiento de efectos basados en el tiempo porque el carácter sónico de la reverberación es más
aparente que con fuentes de estado estable. El carácter temporal de un sonido afecta la capacidad para
escuchar las cualidades de la reverberación cuando se mezclan. Por lo general, los sonidos transitorios
o percutivos revelan la reverberación, mientras que pasajes musicales más estables y sostenidos tienden
a enmascarar o mezclarse con la reverberación, haciendo que los juicios al respecto sean más difíciles.
3.5.2 Interfaz de Usuario
Una interfaz gráfica de usuario (GUI), mostrada en la Figura 3.4, proporciona una superficie de control
para que interactúes con el sistema. Con la GUI, puedes realizar las siguientes acciones:
Elegir el nivel de dificultad.

Seleccionar el(los) parámetro(s) con los que trabajar.
Escoger un archivo de sonido.
Ajustar los parámetros de la reverberación.
Alternar entre la referencia y tu respuesta.
Controlar el nivel general de la salida de sonido.
Enviar una respuesta a cada pregunta y pasar al siguiente ejemplo.
La interfaz gráfica también realiza un seguimiento de la pregunta actual y la puntuación promedio hasta
ese momento, y proporciona la puntuación y la respuesta correcta para la pregunta actual.
3.6 Comenzando con la Práctica
El plan de estudios de entrenamiento abarca algunos de los parámetros más comúnmente encontrados
en unidades de reverberación digital, incluyendo los siguientes:
Tiempo de decadencia.
Tiempo de predelay.
Nivel de reverberación (mezcla).
Combinaciones de dos o más parámetros a la vez.
La tarea principal en los ejercicios y pruebas es duplicar sonoramente una escena de sonido de
referencia escuchando y comparando tu respuesta con la referencia, y realizando los cambios
57
apropiados en los parámetros. El software elige aleatoriamente un valor de parámetro basado en el

nivel de dificultad y el parámetro que se está probando, y te pide que identifiques los parámetros de
reverberación de la referencia ajustando el parámetro correspondiente al valor que se asemeje más al
sonido de la referencia. Puedes alternar entre la pregunta de referencia y tu respuesta ya sea haciendo
clic en los interruptores etiquetados como "Pregunta" y "Tu Respuesta" (ver Figura 3.4) o presionando
la barra espaciadora del teclado de la computadora. Una vez que las dos escenas de sonido coinciden,
puedes hacer clic en el botón de verificar respuesta o presionar la tecla Enter para enviar la respuesta y
ver la respuesta correcta. Haciendo clic en el botón siguiente pasarás a la siguiente pregunta.
3.6.1 Tiempo de Decadencia
Los tiempos de decadencia varían de 0.5 segundos a 2.5 segundos con una resolución inicial de 1.5
segundos y aumentan en dificultad a una resolución de 0.25 segundos.
3.6.2 Tiempo de Predelay
El tiempo de predelay es la cantidad de tiempo de retraso entre el sonido directo (seco) y el inicio de las
primeras reflexiones y la reverberación. Los tiempos de predelay varían entre 0 y 200 milisegundos,
con una resolución inicial de 40 ms y disminuyendo a una resolución de 10 ms.
58
3.6.3 Nivel de Mezcla
A menudo, al mezclar reverberación con sonido grabado, el nivel de la reverberación se ajusta como un
retorno auxiliar en la consola de grabación o la estación de trabajo de audio digital. El sistema de
entrenamiento te permite practicar aprendiendo varios niveles de "mezcla" de reverberación. Un nivel
de mezcla del 100% significa que no hay sonido directo (sin procesar) en la salida del algoritmo,
mientras que un nivel de mezcla del 50% representa una salida con niveles iguales de sonido procesado
y sin procesar. La resolución de los valores de mezcla en el nivel más bajo de dificultad es del 25% y
progresa hasta una resolución del 5%, cubriendo el rango del 0 al 100% de mezcla.
3.7 Matriz Mid-Side (Medios-Laterales)
Michael Gerzon (1986, 1994) ha presentado explicaciones matemáticas de la matriz y el reacomodo de

grabaciones estéreo para mejorar y reequilibrar componentes correlacionados y decorrelacionados de
una señal. Sus técnicas sugeridas son útiles para el entrenamiento técnico del oído porque pueden
ayudar en el análisis y descomposición de una grabación al resaltar componentes de una imagen de
sonido que de otra manera no serían tan audibles. Aplicando principios de la técnica de micrófono
estéreo medios-laterales a grabaciones estéreo completas, es posible reequilibrar aspectos de una
grabación y aprender más sobre las técnicas utilizadas en una grabación. Aunque este proceso toma su
nombre de una técnica específica de micrófono estéreo, cualquier grabación estéreo puede ser
procesada posteriormente para convertir los canales izquierdo y derecho a medios (M) y laterales (S),
independientemente de la técnica de mezcla o de micrófono utilizada. Los ingenieros de masterización
a veces dividen una grabación estéreo en sus componentes M y S y luego los procesan de alguna
manera y los vuelven a convertir en L y R una vez más.
Figura 3.5: Diagrama de bloques de una matriz medios-

laterales que permite el ajuste relativo de los niveles de
medios y laterales desde la izquierda y la derecha, y la
posterior mezcla de nuevo en los canales izquierdo y
derecho. Podemos definir la matriz medios-laterales
como medios =izquierda + derecha y laterales =
izquierda – derecha.
59
La componente central se puede derivar sumando los canales izquierdo y derecho. Prácticamente, esto
se puede lograr llevando ambos canales de audio a dos faders y panoramizándolos ambos al centro. Los
canales L y R pueden dividirse y enviarse a otros dos pares de canales. Un par puede panoramizarse
completamente a la izquierda y con el canal L con polaridad opuesta. El último par de canales L y R
puede panoramizarse a la derecha con el canal derecho con polaridad opuesta. Consulta la Figura 3.5
para obtener detalles sobre la información de enrutamiento de la señal. Ahora que las señales están
divididas en M y S, simplemente podemos reequilibrar estos dos componentes, o podemos aplicarles
procesamiento de manera independiente. La señal S representa los componentes de la señal que
cumplen cualquiera de las siguientes condiciones:
Existir solo en el canal L o solo en el canal R

Tener polaridad opuesta, L en relación con R
3.7.1 Componente Media
La señal media representa todos los componentes de una mezcla estéreo que no tienen polaridad
opuesta entre los dos canales, es decir, cualquier cosa que sea común a ambos canales o simplemente
esté presente en un lado. Como se puede ver en el diagrama de bloques presentado en la Figura 3.5, el
componente M se deriva de L + R.
3.7.2 Componente Lateral
La señal lateral se deriva restando los canales L y R: lateral  L  R. Cualquier cosa que sea común a
ambos L y R se cancelará y no formará parte del componente S. Cualquier señal panoramizada al
centro en una mezcla se cancelará del componente S.
3.7.3 Ejercicio: Escuchar el Procesamiento Medios-Laterales
El módulo de práctica incluido "TETlisteningMidSide" ofrece una forma fácil de escuchar los
componentes medios y laterales de cualquier grabación estéreo (formatos de archivo AIFF o WAV) y
escuchar cómo suenan si se reequilibran. Al convertir una mezcla estéreo (L y R) en señales M y S, se
vuelve posible escuchar elementos de la mezcla que pueden haber sido enmascarados en la mezcla
completa. Además de poder escuchar mejor la reverberación estéreo, a veces se hacen evidentes otros
artefactos. Artefactos como punch-ins, distorsión, compresión de rango dinámico y ediciones pueden
volverse más audibles al escuchar solo el componente S. Muchas mezclas estéreo tienen un
componente central fuerte, y cuando se elimina ese componente, cualquier cosa en el centro de la
imagen estéreo también se elimina. Los punch-ins, que suelen ser más problemáticos en grabaciones de
cinta analógica, son más audibles al escuchar el componente S de manera aislada. Un punch-in
generalmente se realiza durante una sobregrabación de una grabación multipista, donde un instrumento
o voz solista grabará una parte y puede querer corregir una sección específica de la música. Un punch-
in es la pulsación del botón de grabación en el grabador de cinta para una pista específica en algún
lugar en medio de la pieza musical.
Al dividir una mezcla estéreo en sus componentes M y S, se pueden resaltar algunas de las diferencias
creadas por el proceso de codificación perceptual (por ejemplo, MP3 o AAC que se ha convertido de
nuevo a AIFF o WAV). Aunque los artefactos están en su mayoría enmascarados por el audio estéreo,
eliminar el componente M hace que los artefactos sean más audibles. Además, al escuchar el
60
componente lateral al 100%, estamos escuchando una correlación de -1 porque un altavoz está
produciendo el componente lateral original y el otro altavoz está produciendo una versión de polaridad
opuesta del componente lateral.
Resumen
Este capítulo cubre los atributos espaciales del sonido, centrándose principalmente en la reverberación
y el procesamiento medios-laterales. El objetivo del módulo de práctica de software de reverberación
es familiarizar sistemáticamente a los oyentes con los aspectos de la reverberación artificial y aumentar
la sensibilidad auditiva al procesamiento de efectos basados en el tiempo. Al comparar dos escenas de
audio por el oído, un oyente puede igualar uno o más parámetros de la reverberación artificial con una
referencia elegida al azar por el software. Los oyentes pueden avanzar desde comparaciones utilizando
fuentes de sonido percusivas y resolución gruesa entre los valores de los parámetros hasta grabaciones
musicales más estables y resolución más fina entre los valores de los parámetros. A menudo, cambios
muy pequeños en los parámetros de la reverberación pueden tener una influencia significativa en la
profundidad, mezcla, amplitud y claridad de la mezcla final de una grabación de sonido.
61
4
CONTROL DE RANGO
DINÁMICO
4.1 Detección de Señal en Procesadores de Dinámica 63

4.2 Compresores y Limitadores 66
4.2.1 Umbral 67
4.2.2 Tiempo de Ataque 68
4.2.3 Tiempo de Liberación 68
4.2.4 Rodilla 68
4.2.5 Ratio 68
4.2.6 Temporización de Detección de Nivel 68
4.2.7 Visualización de la Salida de un Compresor 69
4.2.8 Control Automático de Nivel mediante Compresión 72
4.2.9 Control Manual de Rango Dinámico 73
4.3 Efectos Timbrales de la Compresión 74
4.3.1 Efecto del Tiempo de Ataque 75
4.3.2 Efecto del Tiempo de Liberación 75
4.3.3 Compresión y Batería 75
4.3.4 Compresión y Voces 76
4.4 Expansores y Puertas de Ruido 77
4.4.1 Umbral 77
4.4.2 Tiempo de Ataque 79
4.4.3 Tiempo de Liberación 79
4.4.4 Visualización de la Salida de un Expansor 79
4.5 Iniciando con la Práctica 79
4.5.1 Tipos de Práctica 81
4.5.2 Fuente de Sonido 82
4.5.3 Grabaciones Recomendadas para la Práctica 82
Resumen 82
62
Lograr un equilibrio adecuado en un conjunto musical es esencial para expresar la intención musical de
un artista. Directores y compositores comprenden la idea de encontrar un equilibrio óptimo en el
conjunto para cada interpretación y pieza musical. Si una parte instrumental dentro de un conjunto no
es lo suficientemente alta como para ser escuchada claramente, los oyentes no reciben el impacto
completo de una pieza musical. El equilibrio general depende del control de las amplitudes individuales
de voces e instrumentos en un conjunto.
Al grabar señales de micrófono en varios tracks y mezclar esos tracks, un ingeniero tiene cierto control
sobre el equilibrio musical y, por ende, la expresión musical. Al mezclar varios tracks, puede ser
necesario ajustar continuamente el nivel de ciertos instrumentos o voces para lograr un equilibrio
consistente desde el principio hasta el final de una pista.
La gama dinámica en el sentido musical describe la diferencia entre los niveles más altos y más bajos
de una señal de audio. Para señales de micrófono con una amplia gama dinámica, ajustar los niveles de
los faders con el tiempo puede compensar las variaciones en el nivel de la señal y mantener una
sonoridad percibida constante. Los ajustes de nivel de fader hechos a lo largo de una pieza equivalen a
una compresión manual de rango dinámico; un ingeniero está reduciendo manualmente la gama
dinámica aumentando los niveles durante secciones silenciosas y atenuando secciones fuertes. Los
controladores de rango dinámico, como compresores y expanders, ajustan niveles automáticamente
según el nivel de una señal de audio y pueden aplicarse a pistas individuales o a toda la mezcla.
Un tipo de sonido que puede tener una gama dinámica extremadamente amplia es una voz principal,
especialmente cuando se graba con un micrófono cercano. En casos extremos en la música pop y rock,
la gama dinámica de un cantante puede variar desde gritos muy fuertes hasta un susurro, todo dentro de
una sola canción. Si el fader de una pista vocal se establece en un nivel y se deja durante toda la pieza
sin compresión, habrá momentos en los que la voz será demasiado fuerte y otros momentos en los que
será demasiado baja. En situaciones de volumen elevado, resulta incómodo para el oyente, quien puede
querer bajar toda la mezcla. En la situación opuesta, una voz con un nivel demasiado bajo es difícil de
entender, ofreciendo una experiencia musical insatisfactoria. Encontrar un nivel de fader estático
satisfactorio sin compresión para una fuente de sonido tan dinámica como las voces pop es
probablemente imposible. Una forma de compensar una amplia gama dinámica es ajustar manualmente
el nivel del fader para cada palabra o frase que canta el cantante. Aunque algunas pistas requieren ese
control manual detallado del nivel del fader, el uso de compresión sigue siendo útil para acercarse al
objetivo de niveles consistentes, inteligibles y musicalmente satisfactorios, especialmente para pistas
con una amplia gama dinámica.
Niveles consistentes para instrumentos y voces ayudan a comunicar de manera más efectiva las
intenciones musicales de un artista. Al mismo tiempo, los ingenieros comprenden que el contraste
dinámico es importante para transmitir emoción musical. Surge la pregunta: si se ajusta el nivel de una
pista vocal de modo que los pasajes fortissimo tengan la misma sonoridad que los pianissimo, ¿cómo
va a percibir el oyente algún contraste dinámico? La primera parte de la respuesta a esta pregunta es
que la aplicación del control de nivel depende en parte del género. La mayoría de las grabaciones de
música clásica no se beneficiarán tanto de este tipo de control activo de nivel. Para la mayoría de los
demás géneros musicales, al menos algún control de rango dinámico es deseable. Específicamente para
grabaciones de pop y rock, se busca una gama dinámica más limitada para ser coherente con las
grabaciones en este estilo.
63
Afortunadamente, la percepción de la gama dinámica permanecerá debido a cambios de timbre entre

niveles dinámicos bajos y altos. Para casi todos los instrumentos, incluida la voz, hay un aumento
significativo en el número y la intensidad de armónicos de frecuencia más alta a medida que el nivel
dinámico va de bajo a alto. Así que incluso si la gama dinámica de una interpretación vocal dinámica
está fuertemente comprimida, la percepción de la gama dinámica persiste debido a cambios en el
timbre de la voz. Independientemente de las diferencias de timbre, aún es posible reducir
excesivamente la gama dinámica, dejando una interpretación musical sin vida. Los ingenieros deben
ser conscientes de no usar demasiada compresión y limitación, ya que puede ser bastante destructivo
cuando se usa en exceso. Una vez que se graba una pista con compresión, no hay forma de deshacer
completamente el efecto. Algunos tipos de procesamiento de audio, como la ecualización recíproca de
picos/dips, permiten deshacer alteraciones menores con parámetros iguales y configuraciones de
ganancia opuestas, pero la compresión y la limitación no ofrecen esa flexibilidad transparente.
Se puede pensar en el control de la gama dinámica como un tipo de modulación de amplitud donde la
tasa de modulación depende del sobre de amplitud de una señal de audio. El procesamiento dinámico
es simplemente una reducción de ganancia aplicada a una señal donde la reducción de ganancia varía
con el tiempo según las variaciones en el nivel de la señal, y la cantidad de reducción se basa en la
amplitud de la señal por encima de un umbral dado. La compresión y expansión son ejemplos de
procesamiento no lineal porque la cantidad de reducción de ganancia aplicada a una señal depende del
nivel de la señal en sí misma, y la ganancia aplicada a una señal cambia con el tiempo. El
procesamiento dinámico, como la compresión, la limitación, la expansión y la puerta de ruido, ofrecen
medios para esculpir y dar forma a las señales de audio de manera única y variable en el tiempo. Es
variable en el tiempo porque la cantidad de reducción de ganancia varía con el tiempo. El control de la
gama dinámica puede ayudar en el proceso de mezcla no solo suavizando los niveles de la señal de
audio, sino también actuando como un pegamento que ayuda a agregar cohesión a varias partes
musicales en una mezcla.
4.1 Detección de Señal en Procesadores de Dinámica
Los procesadores de dinámica trabajan con niveles objetivos de señal de audio, generalmente medidos
en decibelios. La primera razón para medir en decibelios es que el decibelio es una escala logarítmica
comparable a la forma en que el sistema auditivo humano interpreta cambios en la intensidad del
sonido. Por lo tanto, el decibelio como escala de medición parece correlacionarse con la percepción del
sonido debido a su escala logarítmica. La segunda razón principal para usar decibelios es escalar el
rango de niveles de sonido audible a un rango más manejable. Por ejemplo, la audición humana se
extiende desde el umbral de audición, alrededor de 0.00002 Pascales, hasta el umbral del dolor,
alrededor de 20 Pascales, un rango que representa un factor de 1 millón. Los Pascales son una unidad
de presión que mide la fuerza por unidad de área, y se abrevian como Pa. Cuando este rango se
convierte a decibelios, se escala de 0 a 120 dB de nivel de presión sonora (NPS), un rango mucho más
significativo y manejable.
Para controlar el nivel de una pista, debe haber alguna forma de medir e indicar la amplitud de una
señal de audio. Como resulta, hay muchas formas de medir una señal, pero todas suelen basarse en dos
representaciones comunes del nivel de la señal de audio: nivel de pico y nivel RMS (que significa nivel
cuadrático medio). El nivel de pico simplemente indica la amplitud más alta de una señal en un
64
momento dado. Un indicador de nivel de pico comúnmente encontrado es un medidor en un grabador

digital, que informa a un ingeniero qué tan cerca está una señal del punto de recorte digital.
El RMS es algo así como un nivel promedio de señal, pero no es matemáticamente equivalente al
promedio. Con señales de audio donde hay un voltaje que varía entre valores positivos y negativos, un
cálculo promedio matemático no dará ninguna información útil porque el promedio siempre estará
alrededor de cero. El RMS, por otro lado, proporcionará un valor útil y básicamente se calcula
elevando al cuadrado la señal, tomando el promedio de una ventana de tiempo predefinida y luego
tomando la raíz cuadrada de eso. Para tonos senoidales, el RMS se calcula fácilmente porque siempre
estará 3 dB por debajo del nivel de pico o el 70,7% del nivel de pico. Para señales de audio más
complejas como música o voz, el nivel RMS debe medirse directamente a partir de una señal y no
puede calcularse restando 3 dB del valor pico. Aunque RMS y promedio no son matemáticamente
idénticos, el RMS se puede considerar como un tipo de promedio de señal, y usaremos los términos
RMS y promedio indistintamente. Las figuras 4.1, 4.2 y 4.3 ilustran niveles de pico, RMS y factor de
cresta para tres señales diferentes.
Figura 4.1 El valor RMS de una onda senoidal siempre es el 70.7% del valor de pico, lo que equivale a
decir que el valor RMS está 3 dB por debajo del nivel de pico. Esto solo es cierto para una onda
senoidal. El factor de cresta es la diferencia entre los niveles de pico y RMS, generalmente medido en
dB. Una onda senoidal tiene un factor de cresta de 3 dB.
65
Figura 4.2 Una onda cuadrada tiene niveles de pico y RMS iguales, por lo que el factor de cresta es 0
dB.
Figura 4.3 Una onda de pulso es similar a una onda cuadrada, excepto que estamos reduciendo el
tiempo durante el cual la señal está en su nivel de pico. La longitud del pulso determina el nivel RMS,
donde un pulso más corto dará un nivel RMS más bajo y, por lo tanto, un factor de cresta más grande.
66
La gama dinámica puede tener un efecto significativo en la sonoridad de la música grabada. El término
"sonoridad" se utiliza para describir el nivel percibido en lugar del nivel físico medido de presión
sonora. Varios factores contribuyen a la sonoridad percibida, como el espectro de potencia y el factor
de cresta (la relación entre el nivel de pico y el nivel RMS). Dadas dos grabaciones musicales con el
mismo nivel de pico, aquella con un factor de cresta más pequeño generalmente sonará más fuerte
porque su nivel RMS es más alto. Al juzgar la sonoridad de los sonidos, nuestros oídos responden más
a los niveles promedio que a los niveles de pico. La compresión de la gama dinámica aumenta el nivel
promedio mediante un proceso de dos etapas que comienza con una reducción de ganancia de los
niveles más fuertes o de pico, seguida de una ganancia de salida lineal, a veces llamada "makeup gain"
(ganancia de compensación). La compresión y la limitación esencialmente reducen solo los picos (las
partes más fuertes) de una señal de audio y luego aplican una etapa de ganancia lineal para devolver
toda la señal de audio para que los picos estén en el nivel máximo posible para nuestro medio de
grabación (por ejemplo, 0 dB de escala completa [dBFS] para audio digital). La etapa de ganancia
lineal después de la compresión a veces se llama "makeup gain" porque compensa la reducción del
nivel de pico, y algunos compresores y limitadores aplican una ganancia de compensación automática
en la etapa de salida. El proceso de compresión y limitación reduce el factor de cresta de una señal de
audio, y cuando se aplica ganancia de compensación para restaurar los picos a su nivel original, el nivel
RMS también se incrementa, haciendo que la señal en general sea más fuerte. Así que al reducir el
factor de cresta mediante compresión y limitación, es posible hacer que una señal de audio suene más
fuerte incluso si su nivel de pico no cambia.
Puede ser tentador para un ingeniero novato normalizar una señal de audio grabada en un intento de
hacer que suene más fuerte. La normalización es un proceso mediante el cual un programa de edición
de audio digital escanea una señal de audio, encuentra el nivel de señal más alto para todo el fragmento,
calcula la diferencia en dB entre el nivel máximo grabable (0 dBFS) y el nivel de pico de una señal de
audio, y luego eleva todo el fragmento de audio por esta diferencia para que el nivel de pico alcance 0
dBFS. Dado que los ingenieros generalmente desean grabar señales de audio para que los niveles de
pico estén lo más cerca posible de 0 dBFS, es posible que solo obtengan un par de decibelios de
ganancia a lo sumo al normalizar una señal de audio. Esta es una razón por la cual el proceso de
normalización digital de un archivo de sonido no hará necesariamente que una grabación suene
significativamente más fuerte. Sin embargo, los ingenieros aún pueden hacer que una señal parezca
más fuerte mediante el uso de compresión y limitación, incluso si los picos ya alcanzan 0 dBFS.
Además de aprender a identificar los artefactos producidos por la compresión de la gama dinámica,
también es importante aprender a identificar cambios estáticos en la ganancia. Si el nivel general de
una grabación se incrementa, es importante poder reconocer la cantidad de cambio de ganancia
aplicada en decibelios.
4.2 Compresores y Limitadores
Para reducir la gama dinámica de una grabación, se utiliza procesamiento dinámico en forma de
compresores y limitadores. Típicamente, un compresor o limitador atenuará el nivel de una señal una
vez que haya alcanzado o superado un nivel umbral. Los compresores y expansores pertenecen a un
grupo de efectos de procesamiento de sonido que son adaptativos, lo que significa que la cantidad o
tipo de procesamiento se determina por algún componente de la señal misma (Verfaille et al., 2006). En
el caso de compresores y expansores, la cantidad de reducción de ganancia aplicada a una señal
67
depende del nivel de la señal en sí o de una señal secundaria conocida como una entrada de side-chain
o key. Con otros tipos de procesamiento como ecualización y reverberación, el tipo, cantidad o calidad
de procesamiento permanece igual, independientemente de las características de la señal de entrada.
Dependiendo de la naturaleza del procesamiento dependiente de la señal, a veces puede ser más obvio
y otras veces menos obvio que el procesamiento que no es dependiente de la señal. Cualquier cambio
en el procesamiento ocurre de manera sincrónica con cambios en la señal de audio en sí, y es posible
que la señal real enmascare estos cambios o nuestro sistema auditivo asuma que son parte del sonido
original (como en el caso de la compresión). Alternativamente, con errores de cuantización
dependientes de la señal a bajos bits, la distorsión (error) será modulada por la amplitud de la señal y,
por lo tanto, será más notable que el ruido de amplitud constante como el dither, como discutiremos en
la Sección 5.2.3.
Para determinar si un nivel de señal está por encima o por debajo de un umbral especificado, un
procesador de dinámica debe usar algún método para determinar el nivel de señal, como la detección de
nivel RMS o de pico. Otras formas de procesamiento dinámico aumentan la gama dinámica atenuando
secciones de menor amplitud de una grabación. Estos tipos de procesadores a menudo se denominan
expansores o compuertas. A diferencia de un compresor, un expansor atenúa la señal cuando está por
debajo del umbral. El uso de expansores es común al mezclar baterías para música pop y rock. Cada
componente de una batería a menudo se graba de cerca, pero aún hay algo de "fuga" del sonido de
tambores adyacentes en cada micrófono. Para reducir este efecto, se pueden utilizar expansores o
compuertas para atenuar una señal de micrófono entre golpes en su respectivo tambor.
Hay muchos tipos diferentes de compresores y limitadores, y cada marca y modelo tiene su propio
"sonido" único. Esta firma sonora se basa en varios factores, como el circuito o algoritmo de detección
de señal utilizado para determinar el nivel de una señal de audio de entrada y, por lo tanto, si aplicar o
no procesamiento dinámico, y cuánto aplicar según los parámetros establecidos por el ingeniero. En
procesadores analógicos, los componentes eléctricos reales en la cadena de señal de audio y la fuente
de alimentación también afectan la señal de audio.
Varios parámetros son típicamente controlables en un compresor. Estos incluyen umbral, ratio, tiempo
de ataque, tiempo de liberación y knee.
4.2.1 Umbral
Un ingeniero generalmente puede ajustar el nivel umbral de un compresor, aunque algunos modelos
tienen un nivel umbral fijo con una ganancia de entrada variable. Un compresor comienza a reducir la
ganancia de una señal de entrada tan pronto como la amplitud de la señal en sí o una señal de entrada
de side-chain supera el umbral. Los compresores con una entrada de side-chain o key pueden aceptar
una entrada de señal alternativa que se analiza en términos de su nivel y se utiliza para determinar la
función de ganancia que se aplicará a la señal de audio principal de entrada. La compresión a la señal
de entrada se activa cuando la señal de side-chain supera el umbral, independientemente del nivel de la
señal de entrada.
68
4.2.2 Tiempo de Ataque
Aunque el compresor comienza a reducir la ganancia de la señal de audio tan pronto como su amplitud
aumenta por encima del umbral, generalmente toma cierta cantidad de tiempo alcanzar la máxima
reducción de ganancia. La cantidad real de reducción de ganancia aplicada depende de la proporción y
de cuánto se encuentre la señal por encima del umbral. En la práctica, el tiempo de ataque puede ayudar
a un ingeniero a definir o suavizar el ataque de un sonido percusivo o el inicio de una nota musical.
Con el ajuste adecuado del tiempo de ataque, un ingeniero puede lograr que una grabación de pop o
rock suene más "contundente".
4.2.3 Tiempo de Liberación
El tiempo de liberación es el tiempo que tarda un compresor en dejar de aplicar la reducción de

ganancia después de que una señal de audio ha caído por debajo del umbral. Tan pronto como el nivel
de la señal cae por debajo del umbral, el compresor comienza a devolverlo a la ganancia de unidad y
alcanza la ganancia de unidad en la cantidad de tiempo especificada por el tiempo de liberación.
4.2.4 Rodilla
La rodilla describe la transición del control de nivel desde por debajo del umbral (sin reducción de
ganancia) hasta por encima del umbral (reducción de ganancia). Una transición suave de uno a otro se
llama rodilla suave, mientras que un cambio abrupto en el umbral se conoce como rodilla dura.
4.2.5 Ratio
La relación de compresión determina la cantidad de reducción de ganancia aplicada una vez que la
señal se eleva por encima del umbral. Es la relación entre el nivel de entrada y el nivel de salida en dB
por encima del umbral. Por ejemplo, con una relación de compresión de 2:1 (entrada:salida), la porción
de la señal de salida que está por encima del umbral será la mitad del nivel (en dB) de la señal de
entrada que está por encima del umbral en dB. Los compresores configurados con relaciones de
aproximadamente 10:1 o más se consideran generalmente limitadores. Relaciones más altas darán más
reducción de ganancia cuando una señal supera el umbral, y por lo tanto, la compresión será más
evidente.
4.2.6 Sincronización de la Detección de Nivel
Para aplicar una función de ganancia a una señal de entrada, los procesadores dinámicos necesitan
determinar la amplitud de una señal de audio y compararla con el umbral establecido por un ingeniero.
Como se mencionó anteriormente, hay diferentes formas de medir la amplitud de una señal, y algunos
compresores permiten a un ingeniero cambiar entre dos o tres opciones. Por lo general, las opciones
difieren en la rapidez con que la detección de nivel responde al nivel de una señal. Por ejemplo, la
detección de nivel de pico es buena para responder a transitorios pronunciados, y la detección de nivel
RMS responde a señales menos transitorias. Algunos procesadores dinámicos (como el GML 8900
Dynamic Range Controller) tienen ajustes de detección RMS rápidos y lentos, donde el RMS rápido
promedia sobre un período de tiempo más corto y, por lo tanto, responde más a transitorios.
69
Cuando un compresor está configurado para detectar niveles utilizando RMS lento, se vuelve imposible
que el compresor responda a transitorios muy cortos. Debido a que la detección RMS está promediando
a lo largo del tiempo, un transitorio pronunciado no tendrá mucha influencia en el nivel promediado de
la señal.
4.2.7 Visualización de la Salida de un Compresor
Figura 4.4 Esta figura muestra la señal de entrada a un compresor (a), que es una onda senoidal
modulada en amplitud, y la salida del compresor que muestra la respuesta de paso para tres tiempos
diferentes de ataque y liberación: largo (b), medio (c) y corto (d).
70
Para comprender completamente el efecto del procesamiento dinámico en una señal de audio, debemos
ir más allá de la función de transferencia de entrada/salida que comúnmente se ve en las explicaciones
de los procesadores dinámicos. Puede ser útil visualizar cómo cambia la salida de un compresor con el
tiempo dado un tipo específico de señal y, por lo tanto, tener en cuenta los parámetros siempre críticos
conocidos como tiempo de ataque y tiempo de liberación. Los procesadores dinámicos cambian la
ganancia de una señal de audio con el tiempo, por lo que pueden clasificarse como dispositivos no
lineales de variación temporal. Se consideran no lineales porque comprimir la suma de dos señales
generalmente dará como resultado algo diferente de comprimir las dos señales individualmente y luego
sumarlas (Smith, consultado el 4 de agosto de 2009).
Para ver el efecto de un compresor en una señal de audio, se requiere una función de paso como la
señal de entrada. Una función de paso es un tipo de señal que cambia instantáneamente su amplitud y
permanece en la nueva amplitud durante algún período de tiempo. Al utilizar una función de paso, es
posible ilustrar cómo responde un compresor a un cambio inmediato en la amplitud de una señal de
entrada y cómo finalmente se estabiliza en su ganancia objetivo. Para las siguientes visualizaciones,
una onda senoidal modulada en amplitud actúa como una función de paso (ver Fig. 4.4a). El modulador
es una onda cuadrada con un periodo de 1 segundo. La amplitud pico de la onda senoidal se eligió para
cambiar entre 1 y 0.25. Una amplitud de 0.25 está 12 dB por debajo de una amplitud de 1.
La Figura 4.4 muestra las curvas generales de ataque y liberación que se encuentran en la mayoría de
los compresores. Este tipo de visualización no se publica con las especificaciones de un compresor,
pero podemos visualizarlo registrando la salida cuando enviamos una onda senoidal modulada en
amplitud como señal de entrada. Si se llevara a cabo este tipo de medición en varios tipos de
compresores analógicos y digitales, se encontraría que se asemejan en forma a lo que vemos en la
Figura 4.4. Algunos modelos de compresores tienen curvas de ataque y liberación que se ven un poco
diferentes, como en la Figura 4.5. En este compresor parece haber una sobrecompensación en la
cantidad de reducción de ganancia en el ataque antes de estabilizarse en un nivel constante. La Figura
4.6 muestra un ejemplo de una señal de audio que ha sido procesada por un compresor y la función de
ganancia resultante que el compresor derivó, basada en el nivel de la señal de entrada y la
configuración de parámetros del compresor. La función de ganancia muestra la cantidad de reducción
de ganancia aplicada con el tiempo, que varía con la amplitud de la señal de entrada de audio. El
umbral se estableció en 6 dB, lo que corresponde a 0.5 en la amplitud de la señal de audio, por lo que
cada vez que la señal supera 0.5 en nivel (-6 dB), la función de ganancia muestra una reducción en el
nivel.
71
Figura 4.5 La misma onda senoidal modulada a 40 Hz a través de un compresor analógico disponible
comercialmente, con un tiempo de ataque de aproximadamente 50 ms y un tiempo de liberación de 200
ms. Observe la diferencia en la curva respecto a la Figura 4.4. Parece haber una sobrecompensación en
la cantidad de reducción de ganancia en el ataque antes de estabilizarse en un nivel constante. Una
representación visual de los tiempos de ataque y liberación de un compresor, como esta, no es algo que
se incluiría en las especificaciones de un dispositivo. La diferencia que es evidente entre las Figuras 4.4
y 4.5 es típicamente algo que un ingeniero escucharía pero no podría visualizar sin realizar la medición.
72
Figura 4.6 A partir de una señal de audio (arriba) enviada a la entrada de un compresor, se deriva una
función de ganancia (en el medio) basada en los parámetros del compresor y el nivel de la señal. La
señal de audio resultante (abajo) del compresor es la señal de entrada a la que se le aplica la función de
ganancia. La función de ganancia muestra la cantidad de reducción de ganancia aplicada con el tiempo,
lo cual varía con la amplitud de la señal de audio de entrada. Por ejemplo, una ganancia de 1 (ganancia
unitaria) no produce ningún cambio en el nivel, y una ganancia de 0.5 reduce la señal en 6 dB. El
umbral se estableció en -6 dB, lo que corresponde a 0.5 en la amplitud de la señal de audio, por lo que
cada vez que la señal supera 0.5 en nivel (-6 dB), la función de ganancia muestra una reducción en el
nivel.
4.2.8 Control Automático de Niveles a través de la Compresión
La compresión del rango dinámico puede ser uno de los tipos de procesamiento más difíciles para que
el ingeniero principiante aprenda a escuchar y a usar. Probablemente sea difícil de percibir porque, a
menudo, el objetivo de la compresión es ser transparente. Los ingenieros emplean un compresor para
eliminar inconsistencias de amplitud en un instrumento o voz. Dependiendo de la naturaleza de la señal
que se está comprimiendo y de los ajustes de los parámetros elegidos, la compresión puede variar desde
ser altamente transparente hasta ser completamente evidente.
Quizás otra razón por la cual los ingenieros novatos encuentran difícil identificar la compresión es que
casi todos los sonidos grabados que los oyentes escuchan han sido comprimidos en cierta medida. La
compresión se ha vuelto una parte integral de casi toda la música escuchada a través de altavoces, y los
oyentes pueden llegar a esperar que sea parte de todo sonido musical. Escuchar música acústica sin
73
refuerzo de sonido puede ayudar en el proceso de entrenamiento del oído para refrescar la perspectiva y
recordar cómo suena la música sin compresión.
Dado que el procesamiento dinámico depende de las variaciones en la amplitud de una señal de audio,
la cantidad de reducción de ganancia varía con los cambios en la señal. Con la modulación de amplitud
de una señal de audio sincronizada con la envolvente de amplitud de la propia señal de audio, la
modulación puede ser difícil de escuchar porque no está claro si la modulación era parte de la señal
original o no. La modulación de amplitud se vuelve casi inaudible cuando reduce la amplitud de la
señal a una velocidad equivalente pero opuesta a las variaciones de amplitud en una señal de audio. La
compresión o limitación pueden hacerse más fáciles de escuchar al configurar los parámetros de un
dispositivo en sus valores máximos o mínimos: una relación alta, un tiempo de ataque corto, un tiempo
de liberación largo y un umbral bajo.
Si se aplicara modulación de amplitud que no variara sincrónicamente con una señal de audio, es
probable que la modulación sea mucho más evidente porque la envolvente resultante de amplitud no se
correlacionaría con lo que está sucediendo en la señal y se escucharía como un evento separado. Por
ejemplo, con un modulador de onda senoidal, la modulación de amplitud es periódica y no sincrónica
con ningún tipo de señal musical de un instrumento acústico y, por lo tanto, es altamente audible. Esto
no quiere decir que la modulación de amplitud con una onda senoidal deba evitarse siempre. La
modulación de amplitud con una onda senoidal a veces puede producir efectos deseables en una señal
de audio, pero con ese tipo de procesamiento, el objetivo suele ser resaltar el efecto en lugar de hacerlo
transparente.
A través de la acción de la reducción de ganancia, los compresores pueden crear artefactos audibles, es
decir, el timbre de un sonido cambia de una manera no deseada, y en otras circunstancias, estos
artefactos son completamente intencionales y contribuyen significativamente al sonido de una
grabación. En otras situaciones, se aplica el control del rango dinámico sin crear artefactos y sin
cambiar el timbre de los sonidos. Un ingeniero puede querer disminuir las partes fuertes de una manera
que aún controle los picos pero que no perturbe la señal de audio. En cualquier caso, un ingeniero
necesita saber cómo suenan los artefactos para decidir cuánto control de rango dinámico aplicar a una
grabación. En muchos controladores de rango dinámico, los parámetros ajustables por el usuario están
interrelacionados en cierta medida y afectan la forma en que un ingeniero los usa y los escucha.
4.2.9 Control Dinámico de Rango Manual
Dado que los controladores de rango dinámico responden a una medida objetiva del nivel de la señal,
pico o RMS, en lugar de niveles subjetivos de la señal, como la loudness, es posible que la reducción
de nivel proporcionada por un compresor no se ajuste tan bien a una señal de audio como se desee. El
control dinámico de rango automático de un compresor puede no ser tan transparente como se requiere
para una aplicación específica. La cantidad de acción que un compresor está ejerciendo sobre una señal
de audio se basa en cuánto determina que la señal de audio está yendo por encima de un umbral
especificado y, como resultado, aplica una reducción de ganancia basada en medidas objetivas del nivel
de la señal. Los niveles objetivos de la señal no siempre corresponden a los niveles subjetivos de la
señal y, como resultado, un compresor puede medir una señal como más fuerte de lo que se percibiría y,
por lo tanto, puede aplicar una atenuación mayor de la deseada.
74
Cuando se mezcla una grabación de varias pistas, los ingenieros se preocupan por los niveles, la
dinámica y el equilibrio de cada pista, y desean estar atentos a cualquier fuente de sonido que se
enmascare en algún punto de una pieza. A un nivel más sutil, incluso si una fuente de sonido no está
enmascarada, los ingenieros se esfuerzan por encontrar el mejor equilibrio musical posible, ajustando
según sea necesario a lo largo del tiempo y en cada nota y frase de la música. La escucha intencional
ayuda a un ingeniero a encontrar el mejor compromiso en los niveles generales de cada fuente de
sonido. A menudo es un compromiso porque no es probable que cada nota de cada fuente se escuche
perfectamente clara, incluso con un control de rango dinámico extenso. Si cada fuente de sonido se
aumenta sucesivamente para que se escuche por encima de todas las demás, la mezcla terminará
teniendo los mismos problemas nuevamente, por lo que se convierte en un acto de equilibrio donde se
deben establecer prioridades. Por ejemplo, las voces en una grabación de pop, rock, country o jazz
suelen ser el elemento más importante. Por lo general, un ingeniero quiere asegurarse de que cada
palabra de una grabación vocal se escuche claramente. Las voces a menudo son particularmente
dinámicas en amplitud, y la adición de cierta compresión de rango dinámico puede ayudar a que cada
palabra y frase de una interpretación sea más consistente en nivel.
Con el sonido grabado, un ingeniero puede influir en la perspectiva y percepción de un oyente sobre
una pieza de música mediante el control de nivel en fuentes de sonido individuales. Un oyente puede
ser guiado a través de una actuación musical a medida que los instrumentos y las voces se llevan
dinámicamente al primer plano y se envían más atrás, según lo dicte la visión artística de una
interpretación. La automatización del nivel de cada fuente de sonido puede crear una perspectiva
cambiante. Es posible que el oyente no sea consciente de manera consciente de que los niveles están
siendo manipulados y, de hecho, los ingenieros a menudo intentan que el cambio de niveles sea lo más
transparente y musical posible. Un oyente solo debería poder escuchar que cada momento de una
grabación musical es claro y musicalmente satisfactorio, no que se están aplicando cambios continuos
de nivel a una mezcla. Nuevamente, los ingenieros se esfuerzan por hacer que el efecto de la tecnología
sea transparente para una visión artística de la música que están grabando.
4.3 Efectos Timbrales de la Compresión
Además de ser un dispositivo utilitario para gestionar el rango dinámico de los medios de grabación, el
procesamiento dinámico se ha convertido en una herramienta para alterar el color y timbre del sonido
grabado. Cuando se aplica a una mezcla completa, la compresión y la limitación pueden ayudar a que
los elementos de una mezcla se fusionen. Las partes musicales comprimidas tendrán lo que se conoce
en la percepción auditiva como destino común porque sus cambios de amplitud comparten cierta
similitud. Cuando dos o más elementos (por ejemplo, instrumentos) en una mezcla tienen amplitudes
que cambian sincrónicamente, el sistema auditivo tiende a fusionar estos elementos perceptualmente.
El resultado es que el procesamiento dinámico puede ayudar a mezclar elementos de una mezcla.
En esta sección, iremos más allá de la compresión como una herramienta básica para mantener niveles
de señal consistentes y exploraremos la compresión como una herramienta para esculpir el timbre de
una pista.
75
4.3.1 Efecto del Tiempo de Ataque
Con un compresor configurado con un tiempo de ataque largo, en el rango de 100 milisegundos o más,
con un umbral bajo y una relación alta, podemos escuchar cómo el sonido baja de nivel cuando la señal
de entrada supera el umbral. El efecto audible de que el sonido baje a esta velocidad se conoce como
"pumping" y puede ser más notable en sonidos con un pulso fuerte donde la señal claramente sube por
encima del umbral y luego baja, como los producidos por tambores, otros instrumentos de percusión y,
a veces, un contrabajo acústico. Si hay algún sonido de menor nivel o ruido de fondo presente con el
sonido principal que se está comprimiendo, se escuchará un sonido de fondo modulado. Sonidos más
constantes en nivel, como una guitarra eléctrica distorsionada, no exhibirán un efecto de "pumping" tan
audible.
4.3.2 Efecto del Tiempo de Liberación
Otro efecto relacionado está presente si un compresor se configura con un tiempo de liberación largo,
en el rango de 100 milisegundos o más. Al escuchar nuevamente con un umbral bajo y una relación
alta, hay que estar atentos para que el sonido vuelva a subir de nivel después de un pulso fuerte. El
efecto audible de que el sonido vuelva a subir de nivel después de una reducción significativa de
ganancia se llama "breathing" porque puede sonar como alguien respirando. Al igual que con el efecto
de "pumping", es posible que notes este efecto más prominentemente en sonidos de fondo, siseos o
armónicos más altos que resuenan después de un pulso fuerte.
Aunque la compresión tiende a explicarse como un proceso que reduce el rango dinámico de una señal
de audio, hay maneras de usar un compresor que pueden acentuar la diferencia entre los niveles pico
transitorios y cualquier resonancia sostenida que pueda seguir. Esencialmente, lo que se puede lograr
con la compresión puede ser similar a una expansión del rango dinámico porque los picos o pulsos
fuertes pueden destacarse en relación con los sonidos más silenciosos que los siguen inmediatamente.
Puede parecer completamente paradójico pensar en los compresores realizando una expansión del
rango dinámico, pero en la siguiente sección analizaremos qué sucede al experimentar con varios
tiempos de ataque.
4.3.3 Compresión y Tambores
Una grabación con un pulso fuerte, como tambores o percusión, con un transitorio regularmente
repetitivo, activará la reducción de ganancia en un compresor y puede servir como un tipo útil de
sonido para resaltar el efecto del procesamiento dinámico. Al procesar una mezcla estéreo de una
batería completa a través de un compresor con una relación bastante alta de 6:1, se pueden ajustar los
tiempos de ataque y liberación para escuchar su efecto en el sonido de la batería. En una grabación
típica de un tambor que no ha sido comprimido, hay un ataque u inicio natural, tal vez algo de
sostenimiento y luego una disminución. El compresor puede influir en todas estas propiedades según
cómo se configuren los parámetros. El tiempo de ataque tiene la mayor influencia en el inicio del
sonido del tambor, permitiendo a un ingeniero remodelar esta característica particular del sonido.
Aumentar el tiempo de ataque desde un tiempo muy corto hasta uno mucho más largo afecta
audiblemente al inicio de cada golpe de tambor. Un tiempo de ataque muy corto puede eliminar la
sensación de un inicio agudo. Al aumentar el tiempo de ataque, el sonido del inicio comienza a ganar
prominencia y, de hecho, puede acentuarse ligeramente en comparación con la versión sin comprimir.
76
Exploraremos el efecto sonoro en una batería al escuchar a través de un compresor con un umbral bajo,
una relación alta y un tiempo de ataque muy corto (por ejemplo, hasta 0 milisegundos). Con un tiempo
de ataque tan corto, los transitorios se bajan inmediatamente de nivel, casi a la velocidad a la que el
nivel de entrada sube para cada transitorio. Donde la tasa de reducción de ganancia casi coincide con la
tasa a la que una señal transitoria sube de nivel, la naturaleza transitoria de una señal se reduce
significativamente. Así que con tiempos de ataque muy cortos, se pierden los transitorios porque la
reducción de ganancia está bajando el nivel de la señal casi al mismo ritmo que la señal subía
originalmente durante un transitorio. Como resultado, el ataque inicial de una señal transitoria se
reduce al nivel de la parte sostenida o resonante de la envolvente de amplitud. Los tiempos de ataque
muy cortos pueden ser útiles en algunos casos, como en limitadores que se utilizan para evitar la
distorsión. Para dar forma a los sonidos de batería y percusión, los tiempos de ataque cortos son
bastante destructivos y tienden a quitarle vida a los sonidos originales.
Al alargar el tiempo de ataque a solo unos pocos milisegundos, surge un sonido de clic en el inicio de
un transitorio. El clic es producido por unos pocos milisegundos del audio original que pasa mientras
ocurre la reducción de ganancia, y el timbre del clic depende directamente de la duración del tiempo de
ataque. La reducción abrupta de ganancia remodela el inicio de un golpe de tambor. Al aumentar aún
más el tiempo de ataque, el sonido del inicio comienza a ganar prominencia en relación con las
porciones de sostenimiento y disminución del sonido, y puede ser más acentuado que sin
procesamiento. Al comprimir tambores de baja frecuencia, como un bombo, aumentar el tiempo de
ataque aumentará la presencia de armónicos de baja frecuencia. Dado que las frecuencias bajas tienen
períodos más largos, un tiempo de ataque más largo permitirá que ocurran más ciclos de un sonido de
baja frecuencia antes de la reducción de ganancia y, por lo tanto, permitirá que el contenido de baja
frecuencia sea más audible en cada pulso de bajo rítmico.
El tiempo de liberación afecta principalmente la disminución del sonido. La parte de disminución del
sonido es la que se vuelve más silenciosa después del inicio fuerte. Si el tiempo de liberación se
configura largo, entonces la ganancia del compresor no vuelve rápidamente a la unidad después de que
el nivel de la señal ha caído por debajo del umbral (lo que ocurre durante la disminución). Con un
tiempo de liberación largo, la disminución natural del sonido del tambor se reduce significativamente.
Al comprimir una mezcla de una batería completa, se hace más evidente que el tiempo de ataque está
afectando el equilibrio espectral del sonido total. Aumentar el tiempo de ataque desde un valor muy
corto hasta algo más largo aumenta la energía de baja frecuencia proveniente del bombo. A medida que
el tiempo de ataque se alarga desde casi cero hasta varios decenas o cientos de milisegundos, el efecto
espectral es similar a agregar un filtro de estantería baja a la mezcla y aumentar la energía de baja
frecuencia.
4.3.4 Compresión y Vocales
Dado que las interpretaciones vocales tienden a tener un amplio rango dinámico, los ingenieros a
menudo encuentran que algún tipo de control de rango dinámico les ayuda a alcanzar sus objetivos
artísticos para una grabación específica. La compresión puede ser muy útil para reducir el rango
dinámico y para realizar el de-essing en una pista vocal. Desafortunadamente, la compresión no
siempre funciona tan transparentemente como se desearía, y a veces se pueden percibir artefactos del
control automático de ganancia de un compresor.
77
Un par de consejos sencillos pueden ayudar a reducir el rango dinámico sin agregar demasiados efectos
secundarios que puedan restar valor a una actuación:
Utilizar relaciones bajas: Cuanto menor sea la relación, menor será la reducción de ganancia aplicada.
Las relaciones de 2:1 son un buen punto de partida.
Usar más de un compresor en serie: Al encadenar dos o tres compresores en serie en una pista vocal,
cada uno configurado con una relación baja, cada compresor puede proporcionar cierta reducción de
ganancia, y el efecto es más transparente que al usar un solo compresor para toda la reducción de
ganancia.
Para identificar cuándo la compresión se aplica de manera demasiado agresiva, escucha cambios en el
timbre mientras observas el medidor de reducción de ganancia en nuestro compresor. Si hay algún
cambio en el timbre que esté sincronizado con la reducción de ganancia, la solución puede ser reducir
la relación o aumentar el umbral, o ambas cosas. A veces, una pista puede sonar ligeramente más
oscura durante una reducción extrema de ganancia, y puede ser más fácil identificar cambios
sincrónicos al observar el medidor de reducción de ganancia de un compresor.
Un ligero sonido de estallido al inicio de una palabra o frase puede indicar que el tiempo de ataque es
demasiado lento. Por lo general, un tiempo de ataque muy largo no es efectivo en una vocal, ya que
tiene el efecto de acentuar el ataque de una vocal y puede resultar distractor.
La compresión de una vocal generalmente resalta detalles de bajo nivel en una actuación vocal, como
las respiraciones y los sonidos de "s". Un de-esser, que puede reducir el sonido de "s", es simplemente
un compresor que tiene una versión filtrada en pasa altos (alrededor de 5 kHz) de la vocal como su
entrada lateral o clave. Los de-essers tienden a funcionar de manera más efectiva con tiempos de ataque
y liberación muy rápidos.
4.4 Expanders y Puertas
4.4.1 Umbral
Los expanders modifican el rango dinámico de una señal de audio al atenuarla cuando su nivel cae por
debajo de un umbral predefinido, a diferencia de los compresores, que actúan en los niveles de señal
por encima de un umbral. Las puertas son versiones extremas de los expanders y suelen silenciar una
señal cuando cae por debajo de un umbral. La Figura 4.7 muestra el efecto de un expander en una onda
senoidal modulada en amplitud. Al igual que los compresores, los expanders a menudo tienen entradas
de sidechain que se pueden usar para controlar una señal de audio con una señal secundaria. Por
ejemplo, a veces los ingenieros aplican una puerta a un tono sinusoidal de baja frecuencia (alrededor de
40 o 50 Hz) y con una señal de bombo enviada a la entrada de sidechain de la puerta. Esto hace que el
tono sinusoidal suene solo cuando suena el bombo, y ambos se pueden mezclar para crear un nuevo
timbre.
La mayoría de los parámetros controlables en un expander son similares en función a un compresor,

con un par de excepciones: tiempos de ataque y liberación. Estos dos parámetros deben considerarse en
relación con el nivel de una señal de audio, en lugar de en relación con la reducción de ganancia.
78
Figura 4.7 Esta figura muestra la señal de entrada a un expansor (a), que es una onda senoidal
modulada en amplitud, y la salida del expansor que muestra la respuesta escalonada para tres tiempos
de ataque y liberación diferentes: corto (b), medio (c) y largo (d).
79
4.4.2 Tiempo de Ataque
El tiempo de ataque en un expander es la cantidad de tiempo que tarda una señal de audio en regresar a
su nivel original una vez que ha superado el umbral. Al igual que en un compresor, el tiempo de ataque
es la cantidad de tiempo que tarda en realizarse un cambio de ganancia después de que una señal supera
el umbral. En el caso de un compresor, una señal se atenúa por encima del umbral; con un expander,
una señal vuelve a la ganancia de unidad por encima del umbral.
4.4.3 Tiempo de Liberación
El tiempo de liberación en un expander es la cantidad de tiempo que tarda en atenuarse por completo
una señal de audio una vez que ha caído por debajo del umbral. En general, tanto para compresores
como para expanders, el tiempo de liberación no define una dirección particular de control de nivel, ya
sea aumento o disminución. Se define con respecto al nivel de una señal en relación con el umbral.
4.4.4 Visualización de la Salida de un Expander
La Figura 4.7 muestra el efecto que un expander tiene en la amplitud de una función de escalón; en este
caso, es una onda senoidal modulada en amplitud. La Figura 4.8 muestra un fragmento de una
grabación musical con la función de ganancia derivada de la señal de audio y los ajustes de parámetros,
y la señal de audio resultante. Las secciones de bajo nivel de una señal de audio se reducen aún más en
la señal de audio expandida.
4.5 Inicio de la práctica
Las recomendaciones para comenzar con la práctica en la Sección 2.3 son aplicables a todos los
ejercicios de software descritos en el libro, y se anima al lector a revisar esas recomendaciones sobre la
frecuencia y duración de la práctica.
La funcionalidad general de los módulos de software centrados en el procesamiento dinámico,

"TETpracticeDyn" y "TETpracticeExp", es muy similar a la del módulo de ecualización. Con el
enfoque en la dinámica, hay diferentes parámetros y cualidades del sonido para explorar que con la
ecualización.
Los módulos de dinámica permiten practicar con hasta tres parámetros de prueba a la vez: tiempo de
ataque, tiempo de liberación y relación. La práctica puede ocurrir con cada parámetro por separado o en
combinación con uno o dos de los otros parámetros, según la elección de "Combinación de
parámetros". El umbral es completamente variable para todos los ejercicios y controla el umbral tanto
para la "Pregunta" generada por la computadora como para "Su Respuesta". Debido a que el nivel de
una grabación de sonido determinará cuánto tiempo una señal pasa por encima de un umbral, y no se
sabe cómo el nivel de cada grabación se relacionará con un umbral dado, es mejor mantener un umbral
totalmente variable.
80
En el módulo de compresión, el nivel del umbral debe establecerse inicialmente bastante bajo para que
el efecto de la compresión sea más audible. Se incluye un fader de ganancia de compensación para que
los niveles subjetivos de las señales comprimidas y sin comprimir puedan coincidir aproximadamente
por oído si se desea.
Figura 4.8: Desde una señal de audio (arriba) enviada a la entrada de un expansor, se deriva una
función de ganancia (en el medio) basada en los parámetros del expansor y el nivel de la señal. La señal
de audio resultante (abajo) del expansor es la señal de entrada con la función de ganancia aplicada. La
función de ganancia muestra la cantidad de reducción de ganancia aplicada con el tiempo, lo cual varía
según la amplitud de la señal de audio de entrada. Por ejemplo, una ganancia de 1 (ganancia unitaria)
no produce cambios en el nivel, y una ganancia de 0.5 reduce la señal en 6 dB. El umbral se estableció
en -6 dB, lo que corresponde a una amplitud de señal de 0.5, por lo que cada vez que la señal cae por
debajo de 0.5 en nivel (-6 dB), la función de ganancia muestra una reducción en el nivel.
En el caso del módulo de expansión, un umbral más alto hará que el expansor produzca cambios en el
nivel más pronunciados. Además, el nivel de entrada puede reducirse para resaltar aún más los cambios
dinámicos de nivel.
La opción "Nivel de dificultad" controla la cantidad de opciones disponibles para un parámetro dado.
Con niveles más altos de dificultad, hay un mayor número de opciones de parámetros disponibles
dentro de cada rango de valores. La "Combinación de parámetros" determina qué parámetros se
incluirán en un ejercicio dado. Al trabajar con una combinación de parámetros que prueba solo uno o
dos parámetros, el parámetro o los parámetros controlables por el usuario que no se están probando
controlarán el procesamiento tanto para los compresores "Pregunta" como "Su Respuesta".
81
Los módulos de práctica de control de rango dinámico son los únicos de toda la colección en los que la
computadora puede elegir "sin compresión" como una pregunta posible. Prácticamente esto significa
que se podría elegir una relación de 1:1, pero solo cuando la combinación de parámetros incluye
"relación" como una de las opciones. Cuando se encuentra una pregunta en la que no se escucha ningún
control de rango dinámico, indíquelo seleccionando una relación de 1:1, que es equivalente a omitir el
módulo. Si una pregunta tiene una relación de 1:1, se ignorarán todos los demás parámetros en el
cálculo de la pregunta y las puntuaciones promedio.
La Figura 4.9 muestra una captura de pantalla del módulo de práctica de compresión de rango
dinámico.
4.5.1 Tipos de Práctica
Existen dos tipos de práctica en el módulo de práctica de software de dinámica: Coincidencia,

Coincidencia con Memoria e Identificación Absoluta:
• Coincidencia: Trabajando en modo Coincidencia, el objetivo es duplicar el procesamiento

dinámico aplicado por el software. En este modo, el usuario puede alternar libremente entre
"Pregunta" y "Tu Respuesta" para determinar si el procesamiento dinámico elegido coincide
con el procesamiento desconocido aplicado por la computadora.
Figura 4.9: Una captura de pantalla de la interfaz de usuario del software para el módulo de práctica
del Entrenador Auditivo Técnico para la compresión de rango dinámico.
82
• Coincidencia con Memoria: Similar a Coincidencia, este modo permite cambiar libremente
entre "Pregunta", "Tu Respuesta" y "Bypass" hasta que se cambie uno de los parámetros de la
pregunta. En ese momento, la "Pregunta" ya no es seleccionable y su sonido debería haber sido
memorizado lo suficientemente bien como para determinar si la respuesta es correcta.
• Identificación Absoluta: Este modo de práctica es el más difícil y requiere identificar el

procesamiento dinámico aplicado sin tener la oportunidad de escuchar lo que se elige como la
respuesta correcta. Solo puedes escuchar "Bypass" (sin procesamiento dinámico) y "Pregunta"
(los parámetros de procesamiento elegidos al azar por la computadora); no puedes escuchar "Tu
Respuesta".
4.5.2 Fuente de Sonido
Cualquier grabación de sonido en formato AIFF o WAV con una frecuencia de muestreo de 44,100 o
48,000 Hz se puede utilizar para practicar. También hay una opción para escuchar la fuente de sonido
en mono o estéreo. Si un archivo de sonido cargado contiene solo una pista de audio (en lugar de dos),
la señal de audio se enviará solo al canal de salida izquierdo. Al presionar el botón de mono, el audio se
enviará a ambos canales de salida izquierdo y derecho.
4.5.3 Grabaciones Recomendadas para la Práctica
Algunos artistas ofrecen pistas multitrack para su compra o descarga gratuita. Los golpes de tambor
individuales son útiles para comenzar el entrenamiento, y luego tiene sentido progresar hacia kits de
batería, así como otros instrumentos solistas y la voz. Hay sitios web con muestras y bucles de sonido
gratuitos que se pueden utilizar para practicar, como www.freesound.org,
www.realworldremixed.com/download.php y www.royerlabs.com, entre muchos otros. También hay
extractos o bucles de varios instrumentos solistas incluidos con GarageBand y Logic de Apple que se
pueden usar con el software.
Resumen
Este capítulo aborda la funcionalidad de compresores y expanders, así como sus efectos sónicos en una
señal de audio. Los controladores de rango dinámico se pueden utilizar para suavizar los niveles
fluctuantes de una pista o para crear modificaciones timbrales interesantes que no son posibles con
otros tipos de procesamiento de señal. Se describen los módulos de práctica de software de compresión
y expansión, y los oyentes pueden usarlos para practicar la audición de los efectos sónicos de diversas
configuraciones de parámetros.
83
5
DISTORSIÓN Y RUIDO
5.1 Ruido 84
5.1.1 Clicks 84
5.1.2 Pops 85
5.1.3 Zumbidos y Zumbidos 85
5.1.4 Sonidos Acústicos Extraños 86
5.2 Distorsión 86
5.2.1 Recorte Duro y Sobrecarga 88
5.2.2 Recorte Suave 89
5.2.3 Distorsión por Error de Cuantización 90
5.2.4 Ejercicios de Módulos de Software 91
5.2.5 Distorsión del Codificador Perceptual 93
5.2.6 Ejercicio: Comparación de PCM Lineal con Audio Codificado 93
5.2.7 Ejercicio: Sustracción 93
5.2.8 Ejercicio: Escuchar Audio Codificado a través del procesamiento Medio-Lateral 93
Resumen 94
84
En el proceso de grabación, los ingenieros se encuentran regularmente con problemas técnicos que
introducen ruidos o degradan inadvertidamente las señales de audio. Para un oyente cuidadoso, estos
eventos eliminan la ilusión de una tecnología de audio transparente, revelando una actuación musical
grabada y recordándoles que están escuchando una grabación mediada por una tecnología antes
invisible pero ahora claramente evidente. Se vuelve más difícil para un oyente disfrutar completamente
de cualquier declaración artística cuando las elecciones tecnológicas están agregando artefactos
sonoros no deseados. Cuando la tecnología de grabación contribuye negativamente, la atención del
oyente se centra en los artefactos creados por la tecnología y se aleja de la interpretación musical.
Hay muchos niveles y tipos de artefactos sonoros que pueden restar valor a una grabación de sonido, y
ganar experiencia en la escucha crítica promueve una mayor sensibilidad a varios tipos de ruido y
distorsión. Distorsión y ruido son las dos categorías amplias de artefactos sonoros que los ingenieros
suelen tratar de evitar o usar con efectos creativos. Pueden estar presentes en una variedad de niveles o
intensidades, por lo que no siempre es fácil detectar niveles más bajos de distorsión o ruido no
deseados. En este capítulo, nos enfocamos en ruidos adicionales que a veces se filtran en una
grabación, así como algunas formas de distorsión, ya sea intencional o no intencional.
5.1 Ruido
Aunque algunos compositores y artistas utilizan intencionalmente el ruido con fines artísticos,
discutiremos algunos tipos de ruido no deseados que restan calidad a una grabación de sonido. A través
de problemas de conexión a tierra y blindaje inadecuado, ruidos fuertes exteriores, interferencia de
radiofrecuencia y ruido de sistemas de calefacción, ventilación y aire acondicionado (HVAC), hay
muchas fuentes y tipos de ruido que los ingenieros buscan evitar al hacer grabaciones en el estudio. A
menudo, el ruido está a un nivel bajo pero aún audible y, por lo tanto, no se registrará
significativamente en un medidor, especialmente en presencia de señales de audio musicales.
Algunas de las diversas fuentes de ruido incluyen:
• Clicks (Clics): Sonidos transitorios resultantes de un mal funcionamiento del equipo o errores
de sincronización digital.
• Pops (Estallidos): Sonidos resultantes de sonidos vocales explosivos.
• Ground hum and buzz (Zumbido y Zumbido de Tierra): Sonidos que se originan en sistemas
mal conectados a tierra.
• Hiss (Siseo): Básicamente, ruido blanco de bajo nivel originado en electrónica analógica, dither
o cintas analógicas.
• Sonidos acústicos extraños: Sonidos que no están destinados a ser grabados pero que existen en
un espacio de grabación, como sistemas de manejo de aire o fuentes de sonido fuera de una sala
de grabación.
5.1.1 Clicks (Clics)
Los clics son diversos tipos de sonidos transitorios de corta duración que contienen una energía
significativa de alta frecuencia. Pueden originarse en equipos analógicos con mal funcionamiento, al
conectar o desconectar señales analógicas en una matriz de conexión o a través de errores de
sincronización en la interconexión de equipos digitales. Los clics resultantes de un mal funcionamiento
85
del equipo analógico a menudo pueden ser aleatorios y esporádicos, lo que dificulta identificar su
origen exacto. En este caso, los medidores pueden ser útiles para indicar qué canal de audio contiene un
clic, especialmente si los clics se producen en ausencia de material de programa. Una indicación visual
de un medidor con retención de pico puede ser invaluable para rastrear un equipo problemático. Con
conexiones digitales entre equipos, es importante asegurarse de que las tasas de muestreo sean idénticas
en todos los equipos interconectados y que las fuentes de reloj sean consistentes. Sin fuentes de reloj
adecuadamente seleccionadas en el audio digital, los clics son casi inevitables y probablemente ocurran
a intervalos regulares, generalmente espaciados por varios segundos. Los clics que provienen de
fuentes de reloj inadecuadas suelen ser bastante sutiles y requieren vigilancia para identificarlos
auditivamente. Dependiendo de las interconexiones digitales en un estudio, la fuente de reloj para cada
dispositivo debe ser interna, entrada digital o reloj de palabra.
5.1.2 Pops (Estallidos)
Los pops son sonidos transitorios de baja frecuencia que tienen un sonido similar a un golpe. Por lo
general, los pops ocurren como resultado de sonidos vocales explosivos producidos frente a un
micrófono. Los explosivos son sonidos consonantes, como los que resultan de pronunciar las letras p, b
y d, en los que se produce una explosión de aire en la creación de los sonidos. Una explosión de aire
resultante de la producción de un explosivo que llega a una cápsula de micrófono produce un sonido de
baja frecuencia similar a un golpe. Por lo general, los ingenieros intentan contrarrestar los pops durante
la grabación vocal colocando un filtro antipop frente a un micrófono vocal. Los filtros antipop suelen
estar hechos de tela delgada estirada sobre un marco circular. Los pops no son algo que se escuche de
un cantante al escuchar acústicamente en el mismo espacio que el cantante. El artefacto pop es
simplemente el resultado de un micrófono cerca de la boca de un vocalista, respondiendo a una
explosión de aire. Los pops pueden distraer a los oyentes de una actuación vocal porque no esperan
escuchar un golpe de baja frecuencia de un cantante. Usualmente, los ingenieros pueden filtrar un pop
con un filtro de paso alto insertado solo durante el breve momento en que suena un pop.
5.1.3 Zumbido y Zumbido
Los circuitos y cadenas de señales analógicas mal conectados a tierra pueden causar que el ruido en
forma de zumbido o zumbido se introduzca en las señales de audio analógicas. Ambos están
relacionados con la frecuencia de la corriente alterna (CA) eléctrica, que se denomina frecuencia de red
en algunos lugares. La frecuencia de una fuente de alimentación será de 50 Hz o 60 Hz según la
ubicación geográfica y la fuente de alimentación utilizada. La distribución de energía en América del
Norte es de 60 Hz, en Europa es de 50 Hz, en Japón será de 50 o 60 Hz según la ubicación específica
dentro del país, y en la mayoría de los demás países es de 50 Hz. Cuando hay un problema de conexión
a tierra, se genera un zumbido o un zumbido con una frecuencia fundamental igual a la frecuencia de
corriente alterna de la fuente de alimentación, 50 o 60 Hz, con armónicos adicionales por encima de la
fundamental. Un zumbido se identifica como un sonido que contiene principalmente armónicos más
bajos y un zumbido como aquel que contiene armónicos más prominentes.
Los ingenieros quieren asegurarse de identificar cualquier zumbido antes de la grabación cuando el
problema es más fácil de resolver. Intentar eliminar tales ruidos en postproducción es posible pero
llevará tiempo adicional. Dado que un zumbido incluye numerosos armónicos de 50 o 60 Hz, se
necesitan varios filtros de muesca estrechos, cada uno sintonizado a un armónico, para eliminar
eficazmente todo el sonido molesto. Aunque no vamos a discutir los problemas técnicos y de cableado
86
exactos que pueden causar zumbidos y cómo se podrían resolver, hay muchas referencias excelentes
que cubren el tema en gran detalle, como el libro de Giddings titulado "Audio Systems Design and
Installation" (1990).
Aumentar los niveles de monitoreo mientras los músicos no están tocando a menudo expone cualquier
zumbido de tierra de bajo nivel que pueda estar ocurriendo. Si se aplica compresión de rango dinámico
a una señal de audio y la reducción de ganancia se compensa con ganancia de maquillaje, los sonidos
de bajo nivel, incluido el ruido de fondo, se llevarán a un nivel más notable. Si un ingeniero puede
detectar cualquier zumbido de tierra antes de llegar a esa etapa, la grabación será más limpia.
5.1.4 Sonidos Acústicos Adicionales
A pesar de la esperanza de tener espacios de grabación perfectamente silenciosos, a menudo hay

numerosas fuentes de ruido tanto dentro como fuera de un espacio de grabación que deben abordarse.
Algunos de estos sonidos son relativamente constantes, como el ruido de manejo de aire, mientras que
otros son impredecibles y algo aleatorios, como bocinas de automóviles, personas hablando, pasos o
ruido de tormentas.
Con la mayor parte de la población concentrada en ciudades, el aislamiento acústico puede ser
particularmente desafiante a medida que aumentan los niveles de ruido y nuestra proximidad física a
los demás. Además del ruido transmitido por el aire, también hay ruido transmitido por la estructura,
donde las vibraciones se transmiten a través de las estructuras de los edificios y terminan produciendo
sonido en un espacio de grabación.
5.2 Distorsión
Aunque los ingenieros suelen querer evitar o eliminar ruidos como los mencionados anteriormente, la
distorsión, por otro lado, puede usarse creativamente como un efecto, o puede aparecer como un
artefacto no deseado de una señal de audio. A veces, la distorsión se aplica intencionalmente, como a
una señal de guitarra eléctrica, para mejorar el timbre de un sonido, añadiendo a la paleta de opciones
disponibles para la expresión musical. En otras ocasiones, una señal de audio puede distorsionarse
debido a la configuración incorrecta de parámetros, el mal funcionamiento del equipo o el uso de
equipo de baja calidad. Ya sea que la distorsión sea intencional o no, un ingeniero debería poder
identificar cuándo está presente y darle forma para un efecto artístico o eliminarlo, según lo que sea
apropiado para una grabación dada.
Afortunadamente, los ingenieros tienen una ayuda para identificar cuándo una señal se recorta de
manera objetable. Medidores digitales, medidores de pico, luces de clip u otros indicadores de la fuerza
de la señal están presentes en la mayoría de las etapas de entrada de convertidores analógico a digital,
preamplificadores de micrófono, así como en muchas otras etapas de ganancia. Cuando una etapa de
ganancia está sobrecargada o una señal se recorta, una luz roja brillante proporciona una indicación
visual tan pronto como la señal supera un nivel de clip, y permanece encendida hasta que la señal ha
bajado por debajo del nivel de clip. Una indicación visual en forma de una luz de pico, que es síncrona
con el inicio y la duración de un sonido distorsionado, refuerza la conciencia de un ingeniero sobre la
degradación de la señal y ayuda a identificar si y cuándo una señal se ha recortado.
Desafortunadamente, al trabajar con grandes cantidades de señales de micrófono, puede ser difícil
87
atrapar cada destello de una luz de clip, especialmente en el dominio analógico. Los medidores
digitales, por otro lado, permiten retención de pico, por lo que si no se ve un indicador de clip en el
momento del recorte, seguirá indicando que se produjo un clip hasta que un ingeniero lo restablezca
manualmente. Para indicadores de clip momentáneos, se vuelve aún más importante depender de lo que
se escucha para identificar sonidos sobrecargados porque puede ser fácil pasar por alto el destello de
una luz roja.
En el proceso de grabación de cualquier actuación musical, los ingenieros ajustan los preamplificadores
de micrófono para dar el nivel de grabación más alto posible, lo más cerca posible del punto de recorte,
pero sin pasarse. El objetivo es maximizar la relación señal-ruido o relación señal-error de cuantización
grabando una señal cuyos picos alcancen el nivel máximo grabable, que en el audio digital es 0 dB de
escala completa. El problema es que el nivel pico exacto de una actuación musical no se conoce hasta
después de que ha ocurrido. Los ingenieros ajustan la ganancia del preamplificador basándose en una
prueba de sonido representativa, dándose cierto espacio de maniobra en caso de que los picos sean más
altos de lo esperado. Cuando la actuación musical real ocurre después de una prueba de sonido, a
menudo el nivel pico será más alto de lo que fue durante la prueba de sonido porque los músicos
pueden estar actuando a un nivel más entusiasta y dinámico que durante la prueba de sonido.
Aunque es ideal tener una prueba de sonido, hay muchas instancias en las que los ingenieros no tienen
la oportunidad de hacerlo y deben pasar directamente a la grabación, esperando que sus niveles estén
configurados correctamente. Deben estar especialmente preocupados por monitorear los niveles de
señal y detectar cualquier recorte de señal en este tipo de situaciones.
Hay una variedad de sonidos o calidades de sonido que podemos describir como distorsión en una
grabación de sonido. Entre estos sonidos no deseados se encuentran las amplias categorías de distorsión
y ruido. Podemos ampliar estas categorías y describir varios tipos de cada una:
• Clipping o sobrecarga dura. Esto suena áspero y resulta de que los picos de una señal se cuadran
cuando el nivel supera el nivel de entrada o salida máximo de un dispositivo.
• Clipping suave o saturación. Menos áspero y a menudo más deseable para la expresión creativa
que el clipping duro, generalmente resulta de conducir un tipo específico de circuito diseñado
para introducir clipping suave, como un amplificador de guitarra.
• Distorsión por error de cuantización. Resulta de la cuantización de bits bajos en el audio digital
PCM (por ejemplo, convertir de 16 bits por muestra a 8 bits por muestra). Tenga en cuenta que
no estamos hablando de codificación perceptual de bits bajos, sino simplemente de reducir el
número de bits por muestra para la cuantización de la amplitud de la señal.
• Distorsión del codificador perceptual. Hay muchos artefactos, algunos más audibles que otros,
que pueden ocurrir al codificar una señal de audio PCM a una versión reducida de datos (por
ejemplo, MP3 o AAC). Tasas de bits más bajas exhiben más distorsión.
Existen muchas formas y niveles de distorsión que pueden estar presentes en el sonido reproducido.
Todo sonido reproducido por altavoces se distorsiona en cierta medida, aunque sea insignificante. El
equipo con una distorsión excepcionalmente baja puede ser particularmente costoso de producir, y por
lo tanto, la mayoría de los sistemas de audio para consumidores promedio exhibe niveles ligeramente
más altos de distorsión que aquellos utilizados por ingenieros de audio profesionales. Los ingenieros de
audio y los entusiastas audiófilos hacen grandes esfuerzos (y gastos) para reducir la cantidad de
distorsión en su cadena de señal y altavoces.
88
La mayoría de los dispositivos comúnmente disponibles para la reproducción de sonido, como

intercomunicadores, teléfonos y auriculares económicos conectados a reproductores de música digital,
tienen distorsión audible. Para la mayoría de las situaciones, como la comunicación vocal, siempre y
cuando la distorsión sea lo suficientemente baja para mantener la inteligibilidad, la distorsión no es
realmente un problema. En los sistemas de reproducción de audio económicos, el nivel de distorsión
generalmente no es detectable por un oído no entrenado. Esto es parte de la razón del enorme éxito de
formatos de audio perceptualmente codificados como el MP3 que se encuentran en la música en
Internet: la mayoría de los oyentes casuales no perciben la distorsión y la pérdida de calidad, pero el
tamaño de los archivos es mucho más manejable y los archivos de audio son mucho más fáciles de
transferir a través de una conexión de red informática que sus equivalentes PCM.
La distorsión generalmente se produce al amplificar una señal de audio más allá del nivel de salida
máximo de un amplificador. La distorsión también puede ser producida al aumentar el nivel de una
señal más allá del nivel de entrada máximo de un convertidor analógico a digital (ADC). Cuando un
ADC intenta representar una señal cuyo nivel está por encima de 0 dB de escala completa (dB FS),
llamado sobrecarga, el resultado es una distorsión del sonido que suena áspero.
5.2.1 Clipping Duro y Sobrecarga
El clipping duro ocurre cuando se aplica demasiada ganancia a una señal y esta intenta superar los
límites del nivel de entrada o salida máximo de un dispositivo. Los niveles máximos mayores que el
nivel de señal permitido de un dispositivo se aplanan, creando nuevos armónicos que no estaban
presentes en la forma de onda original. Por ejemplo, si una onda sinusoidal se recorta, como se muestra
en la Figura 5.1, el resultado es una onda cuadrada como en la Figura 5.2, cuya forma de onda en el
dominio del tiempo ahora tiene bordes afilados y cuyo contenido de frecuencia contiene armónicos
adicionales. Una onda cuadrada es un tipo específico de forma de onda compuesta por armónicos de
números impares (1º, 3º, 5º, 7º, etc.). Uno de los resultados de la distorsión es un aumento en el número
y nivel de armónicos presentes en una señal de audio. Las especificaciones técnicas de un dispositivo a
menudo indican la distorsión armónica total para un nivel de señal dado, expresado como un porcentaje
del nivel general de la señal. Debido a los armónicos adicionales que se agregan a una señal cuando se
distorsiona, el sonido adquiere un brillo y una aspereza aumentados. Recortar una señal aplana los
picos de una forma de onda, agregando esquinas afiladas a un pico recortado. Las nuevas esquinas
afiladas en la forma de onda en el dominio del tiempo representan un contenido armónico de alta
frecuencia aumentado en la señal, lo que se confirmaría mediante análisis en el dominio de la
frecuencia y la representación de la señal.
Figura 5.1 Una

onda sinusoidal a
1 kHz.
89
Figura 5.2 Una onda sinusoidal a 1 kHz que ha sido recortada bruscamente. Observa los bordes
afilados de la forma de onda que no existían en la onda sinusoidal original.
5.2.2 Soft Clipping
Una forma más suave de distorsión conocida como soft clipping o sobremarcha se utiliza a menudo con
fines creativos en una señal de audio. Su timbre es menos áspero que el recorte (clipping), y como se
puede ver en la Figura 5.3, la forma de onda de una onda sinusoidal sobremarchada no tiene las
esquinas afiladas que están presentes en una onda sinusoidal recortada bruscamente (Fig. 5.2). Como se
sabe por el análisis de frecuencia, las esquinas afiladas y las partes verticales pronunciadas de una
forma de onda sinusoidal recortada indican la presencia de armónicos de alta frecuencia.
La distorsión por recorte duro se produce cuando la amplitud de una señal supera el nivel de salida
máximo de un amplificador. Con etapas de ganancia como preamplificadores de micrófono de estado
sólido, hay un cambio abrupto de ganancia lineal antes del recorte a distorsión no lineal. Una vez que
una señal alcanza el nivel máximo de una etapa de ganancia, no puede subir más, independientemente
de un aumento en el nivel de entrada; así es como se generan los picos aplanados, como se muestra en
la Figura 5.2. Es la brusquedad del cambio de amplificación limpia a recorte duro lo que introduce una
distorsión de sonido tan áspera.
En el caso del soft clipping, hay una transición gradual, en lugar de un cambio abrupto, entre la
ganancia lineal y el nivel de salida máximo. Cuando el nivel de una señal es lo suficientemente alto
como para alcanzar la zona de transición, hay cierto aplanamiento de los picos de una señal (como en la
Fig. 5.3), pero el resultado es menos áspero que con el recorte duro.
En grabaciones de música pop y rock especialmente, hay ejemplos del uso creativo de soft clipping y
sobremarcha que mejoran los sonidos y crean timbres nuevos e interesantes.
90
Figure 5.3 Una onda sinusoidal a 1 kHz que ha sido suavemente recortada o sobremarchada. Observa
cómo la forma de onda está en algún punto intermedio entre la onda sinusoidal original y una onda
cuadrada.
5.2.3 Distorsión por Error de Cuantización
En el proceso de convertir una señal analógica a una representación digital PCM, los niveles de
amplitud analógica para cada muestra se cuantifican a un número finito de pasos. La cantidad de bits de
datos almacenados por muestra determina la cantidad de pasos de cuantización disponibles para
representar los niveles de voltaje analógico.
Un convertidor analógico a digital graba y almacena valores de muestra utilizando dígitos binarios, o
bits, y cuantos más bits estén disponibles, más pasos de cuantización son posibles.
El estándar Red Book para audio de calidad de CD especifica 16 bits por muestra, lo que representa
2^16 o 65,536 posibles pasos desde el nivel de voltaje positivo más alto hasta el valor negativo más
bajo. Por lo general, se eligen profundidades de bits más altas para la etapa inicial de una grabación.
Dada la elección, la mayoría de los ingenieros de grabación grabarán usando al menos 24 bits por
muestra, lo que corresponde a 2^24 o 16,777,216 posibles pasos de amplitud entre los voltajes
analógicos más altos y más bajos.
Incluso si el producto final tiene solo 16 bits, sigue siendo mejor grabar inicialmente a 24 bits porque
cualquier cambio de ganancia o procesamiento de señal aplicado requerirá recuantización. Cuantos más
pasos de cuantización estén disponibles desde el principio, más precisa será la representación de una
señal analógica.
Cada paso cuantizado de audio digital PCM lineal es una aproximación de la señal analógica original.
Debido a que es una aproximación, habrá cierta cantidad de error en cualquier representación digital. El
error de cuantización es esencialmente la distorsión de una señal de audio. Los ingenieros suelen
minimizar la distorsión por error de cuantización aplicando dither o conformado de ruido, que
aleatoriza el error. Con el error aleatorio producido por el dither, la distorsión se reemplaza por un ruido
constante, que generalmente se considera preferible a la distorsión.
Lo interesante del proceso de cuantización de amplitud es que la relación señal-ruido disminuye a
medida que se reduce el nivel de la señal. En otras palabras, el error se vuelve más significativo para
señales de menor nivel. Por cada 6 dB que una señal esté por debajo del nivel de grabación máximo del
audio digital (0 dB FS), se pierde 1 bit de representación binaria. Por cada bit perdido, se reducen a la
mitad los pasos de cuantización. Una señal grabada a 16 bits por muestra con una amplitud de -12 dB
FS solo estará utilizando 14 de los 16 bits disponibles, lo que representa un total de 16,384 pasos de
cuantización. Aunque los picos de señal de una grabación pueden estar cerca del nivel 0 dB FS, a
menudo hay otros sonidos de nivel más bajo dentro de una mezcla que pueden verse más afectados por
91
el error de cuantización. Muchas grabaciones que tienen un amplio rango dinámico pueden incluir
porciones significativas donde las señales de audio se mantienen en algún nivel bien por debajo de 0
dB FS. Un ejemplo de sonido de bajo nivel dentro de una grabación es la reverberación y la sensación
de espacio que crea. Con un error de cuantización excesivo, tal vez como resultado de la reducción de
la profundidad de bits, se pierde parte de la sensación de profundidad y anchura que transmite la
reverberación. Al aleatorizar el error de cuantización mediante el uso de dither durante la reducción de
la profundidad de bits, se puede recuperar parte de la sensación perdida de espacio y reverberación,
pero a costa de añadir ruido.
5.2.4 Ejercicios del Módulo de Software
El módulo de software incluido "TETpracticeDist", centrado en la distorsión, permite al oyente

practicar la audición de tres tipos diferentes de distorsión: recorte suave, recorte duro y distorsión por
reducción de la profundidad de bits.
Hay dos tipos principales de práctica con este módulo de software: Coincidencia e Identificación
Absoluta. El funcionamiento general del software es similar a otros módulos discutidos anteriormente.
5.2.5 Distorsión del Codificador Perceptual
La codificación perceptual de audio reduce significativamente la cantidad de datos necesarios para

representar una señal de audio con solo una degradación mínima en la calidad del sonido. En esta
sección, nos ocupamos de la compresión de datos de audio con pérdida, que elimina audio durante el
proceso de codificación. También existen formatos de codificación sin pérdida que reducen el tamaño
de un archivo de audio sin eliminar ningún sonido. La codificación sin pérdida es comparable al
formato de archivo ZIP en computadoras, donde el tamaño del archivo se reduce pero no se elimina
ningún dato real.
Al convertir un archivo de audio digital lineal PCM a un formato comprimido con pérdida como MP3,
se elimina el 90% de los datos utilizados para representar una señal de audio digital, y sin embargo, la
versión codificada sigue sonando similar al archivo de audio original sin comprimir. Las diferencias en
la calidad del sonido entre una versión codificada de una grabación y la versión PCM original son en su
mayoría imperceptibles para el oyente promedio, sin embargo, estas mismas diferencias en la calidad
del sonido pueden ser una gran fuente de frustración para un ingeniero de sonido experimentado.
Debido a la degradación de la señal durante el proceso de codificación, la codificación perceptual se

considera un tipo de distorsión, pero es un tipo de distorsión que no es fácilmente medible, al menos de
manera objetiva. Debido a la dificultad para obtener mediciones objetivas significativas de distorsión y
calidad de sonido con codificadores perceptuales, su desarrollo ha involucrado a oyentes expertos que
son hábiles para identificar artefactos audibles resultantes del proceso de codificación.
Los oyentes expertos auditivos prueban grabaciones de música codificadas a varias tasas de bits y
niveles de calidad, y luego califican la calidad del audio en una escala subjetiva. Los oyentes expertos
entrenados se vuelven hábiles para identificar rápidamente la distorsión y los artefactos producidos por
codificadores perceptuales porque saben dónde enfocar su atención auditiva y qué escuchar.
Con la proliferación de la música descargable desde Internet, la música codificada de forma perceptual
se ha vuelto ubicua, siendo la versión más conocida el MP3, conocido técnicamente como MPEG-1
92
Audio Layer-3. Hay muchos otros esquemas de codificación-decodificación (codec) que llevan
nombres como AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC-3 (también
conocido como Dolby Digital) y DTS (Digital Theater Systems). Los codecs reducen la cantidad de
datos necesarios para representar una señal de audio digital al eliminar componentes de una señal que
se consideran inaudibles según modelos psicoacústicos. La mejora principal en los codecs a lo largo de
los años de desarrollo y progresión ha sido que son más inteligentes en la forma en que eliminan datos
de audio y son cada vez más transparentes a tasas de bits más bajas. Es decir, producen menos
artefactos audibles para una tasa de bits dada que la generación anterior de codecs.
Los modelos psicoacústicos utilizados en los codecs se han vuelto más complejos, y los algoritmos
utilizados en la detección de señales y la reducción de datos basados en estos modelos se han vuelto
más precisos. Sin embargo, al comparar lado a lado con una señal original e inalterada, es posible
escuchar la diferencia entre ambas.
El proceso de convertir un audio digital lineal PCM (como AIFF, WAV o BWF) a un formato
codificado con pérdida como MP3, AAC, WMA, RealAudio u otro elimina componentes de una señal
de audio que un codificador considera que no podemos escuchar. Los codificadores realizan diversos
tipos de análisis para determinar el contenido de frecuencia y la envolvente de amplitud dinámica de
una señal de audio, y según los modelos psicoacústicos de la audición humana, los codificadores
eliminan componentes de una señal de audio que probablemente sean inaudibles. Algunos de estos
componentes son sonidos más silenciosos que están parcialmente enmascarados por sonidos más
fuertes en una grabación. Cualquier sonido que se determine que está enmascarado o es inaudible se
elimina y la señal de audio codificada resultante puede representarse con menos datos de los que se
utilizaron para representar la señal original. Desafortunadamente, el proceso de codificación también
elimina componentes audibles de una señal de audio y, por lo tanto, los sonidos codificados se
degradan en comparación con una señal original no codificada.
Al explorar los artefactos audibles y la distorsión de audio codificado, aquí hay algunos elementos en
los que enfocarse al practicar la escucha crítica:
• Claridad y nitidez. Escuche alguna pérdida de claridad y nitidez en la percusión y las señales
transitorias. La pérdida de claridad puede traducirse en la sensación de que hay un velo delgado
que cubre la música. En comparación con el PCM lineal, el audio no codificado debería sonar
más directo.
• Reverberación. Busque alguna pérdida de reverberación y otros componentes de baja amplitud.
El efecto de la reverberación perdida suele traducirse en menos profundidad y anchura en una
grabación y el espacio percibido alrededor de la música (acústico o artificial) es menos
aparente.
• Audio codificado. Un poco burbujeante o susurrante. Las notas musicales sostenidas,
especialmente con instrumentos o voces solistas prominentes, no suenan tan suaves como
deberían y el sonido general puede adquirir una calidad metálica.
• Sonidos de alta frecuencia no armónicos. Estos sonidos, como los de los platillos, y sonidos tipo
ruido, como el aplauso de una audiencia, pueden adquirir una calidad susurrante.
93
5.2.6 Ejercicio: Comparación entre PCM Lineal

y Audio Codificado
Es importante investigar cómo varios codificadores perceptuales afectan la calidad del sonido. Una de
las formas de explorar la degradación de la calidad del sonido es codificar archivos de sonido lineal
PCM y comparar el original con la versión codificada para identificar cualquier diferencia audible. Hay
muchos programas gratuitos que codificarán señales de audio, como el iTunes Player de Apple y el
Windows Media Player de Microsoft. Las deficiencias en la calidad del sonido en el audio codificado
pueden no ser inmediatamente evidentes a menos que estemos sintonizados con los tipos de artefactos
que se producen cuando se codifica el audio. Al alternar entre un archivo de audio lineal PCM y una
versión codificada del mismo audio, se vuelve más fácil escuchar cualquier diferencia que pueda estar
presente. Una vez que comenzamos a aprender a escuchar los tipos de artefactos que un codificador
está produciendo, se vuelven más fáciles de identificar sin hacer una comparación lado a lado de
codificado a PCM lineal.
Comienza codificando un archivo de audio lineal PCM a varias tasas de bits en MP3, AAC o WMA y
trata de identificar cómo se degrada una señal de audio. Las tasas de bits más bajas resultan en un
tamaño de archivo más pequeño, pero también reducen la calidad del audio. Diferentes códecs, como
MP3, AAC y WMA, proporcionan resultados ligeramente diferentes para una tasa de bits dada porque
el método de codificación varía de un códec a otro. Alterna entre el audio lineal PCM original y la
versión codificada. Intenta codificar grabaciones de diferentes géneros musicales. Observa los
artefactos sonoros que se producen para cada tasa de bits y codificador.
Otra opción es comparar el audio en streaming desde fuentes en línea con versiones lineales PCM que
puedas tener. La mayoría de las estaciones de radio en línea y reproductores de música utilizan audio de
menor tasa de bits que contiene artefactos de codificación más claramente audibles que los que se
encuentran en el audio de otras fuentes, como a través de la tienda de iTunes.
5.2.7 Ejercicio: Resta
Otro ejercicio interesante de realizar es restar un archivo de audio codificado de una versión original de
PCM lineal del mismo archivo de audio. Para completar este ejercicio, convierte un archivo PCM lineal
a alguna forma codificada y luego conviértelo de nuevo a PCM lineal a la misma frecuencia de
muestreo. Importa el archivo de sonido original y el archivo codificado/decodificado (ahora PCM
lineal) en una estación de trabajo de audio digital (DAW), en dos pistas estéreo diferentes, asegurándote
de alinearlas en tiempo lo más precisamente posible. Al reproducir las pistas estéreo sincronizadas
juntas, invierte la polaridad del archivo codificado/decodificado para que se reste del original. Si las
dos pistas estéreo están alineadas con precisión en el tiempo, cualquier cosa que sea común a ambas
pistas se cancelará y el audio restante que se escucha es el que fue eliminado por el códec. Al realizar
este ejercicio, se resaltan los tipos de artefactos presentes en el audio codificado.
5.2.8 Ejercicio: Escuchar Audio Codificado a través de Procesamiento Medio-Lateral
Al dividir un archivo codificado en sus componentes medio y lateral (M-S), algunos de los artefactos
creados por el proceso de codificación pueden descubrirse. El proceso de codificación perceptual se
basa en el enmascaramiento para ocultar artefactos que se crean en el proceso. Cuando una grabación
estéreo se convierte en componentes M y S y se elimina el componente M, los artefactos generalmente
94
se vuelven mucho más audibles. En muchas grabaciones, especialmente en el género pop/rock, el

componente M forma la mayoría de la señal de audio y puede enmascarar una gran cantidad de
artefactos de codificación. Al reducir el componente M, el componente S se vuelve más audible junto
con los artefactos del codificador. Intenta codificar un archivo de audio con un codificador perceptual a
una tasa de bits común, como 128 kbps, y descodificarlo de nuevo a PCM lineal (WAV o AIFF). Es
posible usar el módulo de software de matriz M-S incluido con este libro para escuchar el efecto que la
decodificación M-S puede tener en resaltar los efectos de un códec.
Resumen
En este capítulo, exploramos algunos de los sonidos indeseados que pueden aparecer en una grabación.
Al practicar con el módulo de entrenamiento auditivo de distorsión incluido y completar los ejercicios,
podemos ser más conscientes de algunas formas comunes de distorsión.
95
6
PUNTOS DE EDICIÓN DE
CLIPS DE AUDIO
6.1 Edición Digital de Audio: La Técnica Origen-Destino 96
6.2 Módulo de Ejercicio de Software 98
6.3 Enfoque del Ejercicio 101
Resumen 103
96
En el Capítulo 4 discutimos la modificación de la envolvente de amplitud de una señal de audio

mediante procesamiento dinámico. En este capítulo exploraremos la envolvente de amplitud y el
entrenamiento auditivo técnico desde una perspectiva ligeramente diferente: la de un editor de audio.
El proceso de edición de audio digital, especialmente con música clásica o acústica utilizando un
método de origen y destino, ofrece una excelente oportunidad para el entrenamiento auditivo.
Asimismo, el proceso de edición musical requiere que un ingeniero tenga un oído agudo para la
conexión transparente del audio. La edición de música implica realizar conexiones o empalmes
transparentes entre tomas de una pieza musical, y a menudo requiere especificar ubicaciones de edición
precisas por el oído. En este capítulo exploraremos cómo los aspectos de la edición digital pueden
utilizarse sistemáticamente como un método de entrenamiento auditivo, incluso fuera del contexto de
una sesión de edición.
El capítulo describe una herramienta de software basada en técnicas de edición de audio que es un
eficaz entrenador auditivo que ofrece beneficios que trascienden más allá de la edición de audio.
6.1 Edición Digital de Audio: La Técnica Origen-Destino
Antes de describir el software y el método para el entrenamiento auditivo, es importante entender

algunas técnicas de edición de audio digital utilizadas con música clásica. La música clásica requiere
un alto nivel de precisión, quizás más que otros tipos de música, para lograr el nivel de transparencia
necesario.
Empíricamente, a través de cientos de horas de edición de música clásica, he encontrado que el proceso
de ajustar repetidamente la ubicación de los puntos de edición y crear transiciones suaves por el oído
no solo resulta en una grabación limpia sino que también puede dar lugar a habilidades de escucha
mejoradas que se traducen a otras áreas de la escucha crítica. A través de una escucha altamente
enfocada requerida para la edición de audio, con el objetivo de emparejar puntos de edición de
diferentes tomas, el ingeniero de edición está participando en una forma efectiva de entrenamiento
auditivo.
Los sistemas de edición de audio digital permiten a un ingeniero ver una representación visual de una
forma de onda y mover, insertar, copiar o pegar archivos de audio en cualquier ubicación a lo largo de
una línea de tiempo visual. Para porciones significativas de edición de grabaciones musicales, primero
se encuentra una estimación aproximada de la ubicación de una edición, seguida de la colocación
precisa de un punto de edición mediante la escucha. A pesar de tener una representación visual de una
forma de onda, a menudo es más eficiente y preciso encontrar la ubicación precisa de una edición por
el oído.
Durante el proceso de edición, a un ingeniero se le proporciona una lista de tomas de una sesión de
grabación y ensambla una pieza musical completa utilizando las mejores tomas de cada sección de una
partitura musical. Un método común de edición de música clásica o acústica se conoce como origen-
destino. El ingeniero construye esencialmente una interpretación musical completa (el destino)
tomando los mejores fragmentos de una lista de tomas de una sesión de grabación (la fuente) y
uniéndolos.
97
En la edición de origen-destino, la ubicación de una edición se encuentra siguiendo una partitura

musical y colocando un marcador en un punto de edición elegido a lo largo de la línea de tiempo visual
que representa la música grabada. El ingeniero de edición suele escuchar un breve fragmento,
típicamente de 0,5 a 5 segundos de duración, de una toma grabada, hasta una nota musical específica en
la que debe ocurrir una edición. A continuación, se escucha y compara el mismo fragmento musical de
una toma diferente. Por lo general, se elige el punto final de dicho fragmento para que ocurra
precisamente en el inicio de una nota musical, y por lo tanto, el punto de conexión será inaudible. El
objetivo de un ingeniero de edición es centrarse en las características sonoras del inicio de la nota que
ocurre durante los últimos milisegundos de un fragmento y emparejar la calidad del sonido entre tomas
ajustando la ubicación del punto de edición (es decir, el punto final del fragmento). El marcador del
punto de edición puede aparecer como un soporte móvil en la forma de onda de la señal de audio, como
se muestra en la Figura 6.1.
Figura 6.1 Una vista típica de una forma de onda en un editor digital con el marcador del punto de
edición que indica dónde ocurrirá el punto de edición y el audio se fundirá en una nueva toma. La
ubicación del marcador, indicada por un gran soporte, es ajustable en el tiempo (izquierda/antes o
derecha/después). La flecha indica simplemente que el soporte puede deslizarse hacia la izquierda o
hacia la derecha. El ingeniero de edición escuchará el audio hasta este gran soporte con un tiempo de
prerrodaje predeterminado que generalmente oscila entre 0.5 y 5 segundos.
Figura 6.2 El ingeniero de edición escucha tanto los archivos de audio fuente como de destino, hasta
un punto de edición elegido, generalmente en el inicio de una nota o un tiempo fuerte. En una sesión de
edición, los dos clips de audio (fuente y destino) serían de material musical idéntico pero de tomas
diferentes. El ingeniero escucha los fragmentos de audio hasta un punto de edición elegido,
generalmente ubicado a mitad del ataque de una nota o un tiempo fuerte. Uno de los objetivos del
ingeniero es responder a la pregunta: ¿coincide el punto final en la fuente con el del destino? Cuanto
mayor sea la similitud entre los dos timbres de corte, más exitosa será la edición. El módulo de
software presentado aquí recrea el proceso de escuchar un fragmento de sonido hasta un punto
predefinido y hacer coincidir ese punto final en un segundo fragmento de sonido.
98
Figura 6.3 Las líneas de tiempo de las formas de onda de la fuente y el destino se muestran aquí en
forma de bloque junto con un ejemplo de cómo un conjunto de tomas (fuente) podría encajar para
formar una actuación completa (destino). En este ejemplo, se asume que las tomas 1, 2 y 5 serían del
mismo material musical y, por lo tanto, se podría producir una versión compuesta de las mejores
secciones de cada toma para formar lo que se etiqueta como el destino en esta figura.
Es crucial que el ingeniero de edición se enfoque en los últimos milisegundos de un fragmento de audio
para encontrar un punto de edición apropiado. Cuando se elige que el punto de edición esté en el inicio
de una nota musical, es importante configurar dicho punto de edición de manera que ocurra durante el
comienzo del ataque de la nota. La Figura 6.1 muestra una puerta (corchete cuadrado que indica el
punto de edición) alineada con el ataque de una nota.
Cuando un ingeniero escucha un fragmento de audio hasta un punto de edición elegido, la nueva nota
que comienza a sonar pero se detiene de inmediato puede formar un sonido transitorio y percusivo. Las
características específicas del sonido real de la nota cortada variarán directamente con la cantidad de la
nota entrante que suena antes de ser cortada. La Figura 6.2 ilustra, en forma de bloque, el proceso de
audición de material de programa fuente y destino.
Una vez que las características de los últimos milisegundos de audio coinciden lo más posible entre
tomas, se realiza una edición con una fundición cruzada de una toma a otra y se audiciona para detectar
posibles anomalías sónicas. La Figura 6.3 ilustra una versión compuesta como el destino, que se ha
extraído de tres tomas diferentes.
Durante el proceso de audición de una fundición cruzada, un ingeniero de edición también presta
mucha atención a la calidad del sonido de la fundición cruzada, que generalmente puede variar desde
unos pocos hasta varios cientos de milisegundos según el contexto (por ejemplo, notas sostenidas
versus transitorios). El proceso de escuchar una fundición cruzada y ajustar los parámetros de la
fundición cruzada, como longitud, posición y forma, también brinda la oportunidad de mejorar las
habilidades de escucha crítica.
6.2 Módulo de Ejercicio de Software
Basado en la edición fuente-destino, el módulo de software de entrenamiento auditivo incluido fue

diseñado para imitar el proceso de comparar los últimos milisegundos de dos clips cortos de música
idéntica de tomas diferentes. La ventaja del módulo de práctica de software es que fomenta habilidades
de escucha crítica sin requerir un proyecto de edición real. La diferencia principal al trabajar con el
módulo de práctica es que el software funcionará con solo una "toma", que puede ser cualquier archivo
de sonido lineal PCM cargado. Debido a esta diferencia, los dos clips de audio serán señales idénticas
99
y, por lo tanto, es posible encontrar puntos finales que suenen idénticos. El beneficio de trabajar de esta
manera es que el software tiene la capacidad de juzgar si los clips de sonido terminan en exactamente el
mismo punto.
Para empezar, el software elige aleatoriamente un fragmento o clip corto (llamado clip 1 o la
referencia) de cualquier grabación de música estéreo cargada en el software. La duración exacta de clip
1 no se revela, pero se puede escuchar. Las longitudes de los fragmentos, que van desde 500
milisegundos hasta 2 segundos, también se eligen al azar para garantizar que no se esté entrenando
simplemente para identificar la duración de los fragmentos de audio. Un segundo clip (clip 2 o tu
respuesta) de duración conocida, y con un punto de inicio idéntico al clip 1, también se puede escuchar
y comparar con clip 1. Los clips se pueden escuchar tantas veces como sea necesario presionando el
botón o la combinación de teclas correspondiente.
El objetivo del ejercicio es ajustar la duración de clip 2 hasta que termine exactamente en el mismo
punto en el tiempo que clip 1. Al escuchar el sobre de amplitud, el timbre y el contenido musical de los
últimos milisegundos de cada clip, es posible comparar los dos clips y ajustar la duración de clip 2 para
que el sonido de su punto final coincida con clip 1. Al seguir un ciclo de audición, comparación y
ajuste de la longitud de clip 2, el objetivo es identificar las características del punto final de clip 1 y
hacer coincidir esas características con clip 2.
La longitud de clip 2 se ajusta "moviendo" el punto final hacia antes o después en el tiempo. Hay
diferentes tamaños de paso de tiempo para elegir, por lo que la duración del clip se puede ajustar en
incrementos de 5, 10, 15, 25, 50 o 100 milisegundos. Cuanto más pequeño sea el tamaño de paso de
avance, más difícil será percibir la diferencia de un paso a otro.
La Figura 6.4 muestra las formas de onda de cuatro clips de sonido de longitud creciente de 825 ms a
900 ms en pasos de 25 ms. Este ejemplo particular muestra cómo el final del clip puede variar
significativamente según la longitud elegida. Aunque las formas de onda segunda (850 ms) y tercera
(875 ms) en la Figura 6.4 se ven muy similares, hay una diferencia notable en el sonido percusivo o
transitorio percibido al final. Con tamaños de paso o avance más pequeños, la diferencia entre los pasos
sería menos obvia y requeriría más entrenamiento para una identificación correcta.
Después de decidir sobre la longitud de clip 2, se puede presionar el botón "Verificar respuesta" para
descubrir la respuesta correcta y continuar escuchando los dos clips para esa pregunta. El software
indica si la respuesta para la pregunta anterior fue correcta o no y, si es incorrecta, indica si el clip 2 era
demasiado corto o demasiado largo y la magnitud del error. La Figura 6.5 muestra una captura de
pantalla del módulo de software.
No hay una vista de la forma de onda como se vería típicamente en un editor digital porque el objetivo
es crear un entorno en el que debemos depender únicamente de lo que se escucha con información
visual mínima sobre la señal de audio. Sin embargo, hay una barra negra que aumenta en longitud a lo
largo de una línea de tiempo, siguiendo la reproducción de clip 2 en tiempo real, como una indicación
visual de que clip 2 se está reproduciendo. Además, los botones de reproducción de los clips
respectivos se vuelven brevemente verdes mientras se reproduce el audio y luego vuelven a gris cuando
el audio se detiene.
100
Figura 6.4 Fragmentos de una grabación musical de cuatro longitudes diferentes: 825 ms, 850 ms, 875
ms y 900 ms. Este ejemplo en particular muestra cómo el final del fragmento puede variar
significativamente según la longitud elegida. El oyente puede centrarse en la calidad del sonido
percusivo al final del fragmento para determinar cuál se asemeja más a la referencia. El fragmento de
825 ms de duración contiene un sonido percusivo tenue al final, pero debido a que la nota que
comienza a sonar (un golpe de tambor en este caso) está casi completamente cortada, suena como un
clic breve. En este ejemplo específico, el oyente puede enfocarse en la calidad percusiva, el timbre y la
envolvente del golpe de tambor entrante al final del fragmento para determinar la longitud correcta del
fragmento de sonido.
Con este método de entrenamiento auditivo, el objetivo es comparar un sonido con otro e intentar
hacerlos coincidir. No es necesario traducir la característica de sonido a un descriptor verbal, sino que
el enfoque se centra únicamente en las características de la señal de audio. Aunque hay una pantalla
numérica que indica la duración del clip de sonido, este número sirve solo como referencia para llevar
un seguimiento de dónde se establece el punto final. El número no tiene ninguna relación con las
características de sonido escuchadas, excepto para un fragmento específico. Por ejemplo, un clip de
600 ms elegido al azar tendrá características de punto final diferentes a la mayoría de los otros clips de
600 ms elegidos al azar.
101
Los ejercicios de práctica deben avanzar desde los ejercicios menos desafiantes que utilizan tamaños de
paso grandes de 100 ms hasta los ejercicios más desafiantes donde el tamaño de paso más pequeño es
de 5 ms.
Casi cualquier grabación estéreo en formato lineal PCM AIFF o WAV se puede usar con el software de
entrenamiento, siempre que tenga al menos 30 segundos de duración.
Figura 6.5 Una captura de pantalla del software de entrenamiento. Los cuadrados grandes con "1" y
"2" son botones de reproducción para los fragmentos 1 y 2, respectivamente. El fragmento 1 (la
referencia) tiene una duración desconocida, y la duración del fragmento 2 debe ajustarse para que
coincida con el fragmento 1. Debajo del botón de reproducción del fragmento 2 hay dos barras
horizontales. La superior indica, con una barra vertical, la duración del fragmento 2, en la línea de
tiempo de 0 a 2000 milisegundos. La barra inferior aumenta en longitud (de izquierda a derecha) hasta
la línea vertical en la barra superior, siguiendo la reproducción del fragmento 2, para servir como una
indicación visual de que el fragmento 2 se está reproduciendo.
6.3 Enfoque del Ejercicio
Con el tipo de programa de entrenamiento descrito en este capítulo, el objetivo principal es centrarse en
la envolvente de amplitud de una señal en un punto específico en el tiempo, que es el final de un
fragmento de audio corto. Aunque el audio no se procesa de ninguna manera, la ubicación del punto
final determina cómo y en qué punto puede cortarse una nota musical. En este ejercicio, concéntrate en
los últimos milisegundos del primer fragmento, retén el sonido final en la memoria y compáralo con el
segundo fragmento. Dado que el software elige aleatoriamente la ubicación de un fragmento, el punto
102
final puede ocurrir en casi cualquier lugar de una señal de audio. No obstante, hay dos casos
específicos donde la ubicación de un corte es importante de describir: aquellos que ocurren al inicio de
una nota o golpe fuerte y aquellos que ocurren durante una nota sostenida, entre golpes fuertes.
En primer lugar, se explora el resultado de un corte al inicio de una nota o golpe fuerte. Si el corte
ocurre durante la porción de ataque de una nota musical, puede producirse una señal transitoria cuyas
características varían donde se corta la envolvente de amplitud de la nota, permitiendo la coincidencia
de un sonido transitorio ajustando el punto de corte. Dependiendo de cuánto de una nota o sonido
percusivo se corte, el contenido espectral de ese sonido particular variará con la duración modificada de
la nota. En cuanto a una nota cortada al final, generalmente, un segmento de nota más corto tendrá un
centroide espectral más alto que un segmento más largo y tendrá una calidad de sonido más brillante.
El centroide espectral de una señal de audio es la frecuencia promedio de un espectro y describe dónde
se encuentra el centro de masa de un espectro. Si hay un clic al final de un fragmento, producido como
resultado de la ubicación del punto final en relación con la forma de onda, puede servir como una señal
para la ubicación del punto final. La calidad espectral del clic puede evaluarse y emparejarse según su
duración.
A continuación, se examina el caso de una señal de audio más sostenida o que decae que se corta. Para
este tipo de corte, el enfoque debe centrarse en la duración de la señal sostenida y coincidir con su
longitud. Esto podría ser análogo a ajustar el tiempo de retención de una compuerta (procesador
dinámico) con un tiempo de liberación muy corto. Con este tipo de emparejamiento, el enfoque puede
cambiar más hacia cualidades musicales como el tempo para determinar cuánto tiempo se mantiene la
nota final antes de ser silenciada. Con cualquier ubicación de punto final, el requisito es realizar un
seguimiento de la envolvente de amplitud y el contenido espectral del final del fragmento. Uno de los
objetivos de este ejercicio es aumentar la agudeza auditiva, facilitando la capacidad de percibir detalles
sutiles en una grabación de sonido que no eran aparentes antes de pasar tiempo extenso haciendo
edición digital. Practicar con este ejercicio puede empezar a resaltar detalles de una grabación que
pueden no haber sido tan evidentes cuando se escuchaba la pieza musical completa. Al escuchar
fragmentos cortos fuera del contexto de la pieza musical, se pueden escuchar sonidos dentro de una
grabación de nuevas formas, y algunos sonidos pueden quedar al descubierto y, por lo tanto, ser más
audibles. Permite centrarse en características que pueden estar parcial o completamente enmascaradas
cuando se escuchan en contexto (es decir, fragmentos mucho más largos) o características que
simplemente son menos evidentes en un contexto más amplio. La repetición de los fragmentos fuera
del contexto de la grabación completa también puede contribuir a un cambio en la percepción de una
señal de audio. Es común que los compositores de música tomen fragmentos de grabaciones musicales
y los repitan para crear un nuevo tipo de sonido y efecto, permitiendo a los oyentes escuchar nuevos
detalles en el sonido que pueden no haber sido evidentes antes.
El método de entrenamiento auditivo puede ayudarnos a enfocarnos en características más silenciosas o

de menor nivel (en medio de características más fuertes) de un material de programa dado. Las
características más silenciosas de un programa son aquellas que pueden estar parcial o principalmente
enmascaradas, perceptualmente menos prominentes o consideradas en el fondo de una escena o etapa
de sonido percibida. Ejemplos podrían incluir lo siguiente (los mencionados anteriormente se incluyen
aquí nuevamente):
Efectos de reverberación y retardo para instrumentos específicos

Artefactos de compresión de rango dinámico para instrumentos específicos
103
Calidad sonora específica de instrumentos musicales: el sonido de las baquetas de un baterista o la

articulación del contrabajo acústico en una pieza de jazz
Características específicas de cada voz/instrumento musical, como la naturaleza temporal o la
ubicación espacial de los componentes de la envolvente de amplitud (ataque, decaimiento,
sostenimiento y liberación)
Definición y claridad de elementos dentro de la imagen de sonido, amplitud de elementos individuales
Los sonidos sacados de contexto comienzan a dar una nueva impresión de la calidad sonora y también
del sentir musical de una grabación. A menudo, se escuchan detalles adicionales de un fragmento
cuando se reproduce repetidamente una breve muestra de música, detalles que no se escucharían
necesariamente en contexto.
Trabajar con este módulo de práctica y un ejemplo musical que presenta voces destacadas, bajo
acústico, guitarra acústica, piano y batería tocados suavemente (como "Desafinado" de Stan Getz y
João Gilberto [1963]), trae nuevas impresiones de los timbres y cualidades sonoras encontradas en la
grabación que no eran evidentes previamente.
En esta grabación, la parte de percusión es bastante silenciosa y más en segundo plano, pero si un
fragmento cae entre frases vocales o acordes de guitarra, la parte de percusión puede moverse
perceptualmente al primer plano a medida que el ejercicio de emparejamiento cambia nuestro enfoque.
También puede ser más fácil centrarse en características de la percusión, como su reverberación o eco,
si esa parte musical particular se puede escuchar más claramente. Una vez que se identifican detalles
dentro de un breve fragmento, puede resultar más fácil escuchar estas características dentro del
contexto de la grabación completa y también transferir el conocimiento de estas características sonoras
a otras grabaciones.
Resumen
Este capítulo esboza un método de entrenamiento auditivo basado en la técnica de edición de audio de
origen y destino. Debido a la escucha crítica requerida para realizar una edición de audio precisa, el
proceso de encontrar y emparejar puntos de edición puede servir como una forma efectiva de
entrenamiento auditivo. Con el módulo de ejercicio interactivo, el objetivo es practicar emparejando la
longitud de un fragmento de sonido con un fragmento de referencia. Al centrarse en el timbre y la
envolvente de amplitud de los últimos milisegundos del fragmento, se puede determinar el punto final
según la naturaleza de cualquier sonido transitorio o la duración de las señales sostenidas. Al no incluir
descriptores verbales o numéricos significativos, el ejercicio se enfoca únicamente en la señal de audio
percibida y en emparejar el punto final de las señales de audio.
104
7
ANÁLISIS DEL SONIDO
7.1 Análisis del Sonido Proveniente de Fuentes Electroacústicas 105
7.1.1 Ancho de Banda General 106
7.1.2 Equilibrio Espectral 107
7.1.3 Imagen Auditiva 107
7.1.4 Impresión Espacial, Reverberación y Efectos Basados en el Tiempo 109
7.1.5 Rango Dinámico y Cambios en el Nivel 110
7.1.6 Ruido y Distorsión 110
7.1.7 Equilibrio de los Componentes Dentro de una Mezcla 110
7.2 Ejemplos de Análisis 111
7.2.1 Sheryl Crow: "Strong Enough" 111
7.2.2 Peter Gabriel: "In Your Eyes" 112
7.2.3 Lyle Lovett: "Church" 113
7.2.4 Sarah McLachlan: "Lost" 113
7.2.5 Jon Randall: "In the Country" 114
7.3 Análisis Gráfico del Sonido 115
7.4 Audio Multicanal 116
7.4.1 El Canal Central 116
7.4.2 Los Canales Surround 117
7.4.3 Ejercicio: Comparación entre Estéreo y Sonido Envolvente 118
7.4.4 Ejercicio: Comparación entre Versiones Originales y Remasterizadas 118
7.5 Tasas de Muestreo Altas 118
7.6 Ejercicio: Comparación entre Altavoces y Auriculares 119
7.6.1 Ejercicio: Comparación de Altavoces y Auriculares 119
7.7 Ejercicio: Mejoradores de Sonido en Reproductores Multimedia 120
7.8 Análisis del Sonido Proveniente de Fuentes Acústicas 120
Resumen 122
105
Después de enfocarnos en atributos específicos del sonido grabado, estamos listos para explorar una
perspectiva más amplia de la calidad del sonido y la producción musical. La experiencia de practicar
con cada uno de los módulos de software y tipos específicos de procesamiento descritos en los
capítulos anteriores nos prepara para centrarnos en estas características sonoras dentro de un contexto
más amplio de sonido grabado y acústico.
Una grabación de sonido es una interpretación y representación específica de una actuación musical.
Escuchar una grabación es diferente de asistir a una actuación en vivo, incluso en grabaciones con poco
procesamiento de señales. Una grabación de sonido puede ofrecer una experiencia más enfocada y
clara que una actuación en vivo, al tiempo que crea una sensación de espacio. Es una perspectiva
paradójica escuchar a los músicos con un alto grado de claridad y, al mismo tiempo, tener la
experiencia de escuchar desde una ubicación más distante debido al nivel de energía reverberante.
Además, un ingeniero y productor de grabación a menudo realiza ajustes en el nivel y procesamiento a
lo largo de una pieza musical que resaltan los aspectos más importantes de una obra y guían a un
oyente hacia una experiencia musical específica.
Cada grabación tiene algo único que contar en términos de sus cualidades tímbricas, espaciales y
dinámicas. Es importante escuchar una amplia variedad de grabaciones de muchos géneros musicales
diferentes y examinar las elecciones de producción realizadas para cada grabación. Un ingeniero puede
familiarizarse con las estéticas de grabación y mezcla para diferentes géneros de música que pueden
informar su propio trabajo. Cuando llega el momento de hacer una grabación, un ingeniero puede
depender de referencias internas de calidad de sonido y equilibrio de mezcla para ayudar a guiar un
proyecto. Para cada grabación que parezca interesante desde el punto de vista de la calidad del sonido y
la producción, toma nota de los créditos del personal de producción, incluyendo productor, ingeniero de
grabación, ingeniero de mezcla e ingeniero de masterización. Con grabaciones distribuidas
digitalmente, los créditos de producción no siempre se enumeran con el audio, pero se pueden consultar
a través de varios sitios web como www.allmusic.com. Encontrar grabaciones adicionales de ingenieros
y productores previamente referenciados puede ayudar en el proceso de caracterizar diversos estilos y
técnicas de producción.
7.1 Análisis del Sonido Proveniente de Fuentes Electroacústicas
En el desarrollo de habilidades de escucha crítica, es necesario examinar, explorar y analizar

grabaciones de sonido para ayudar a comprender las firmas sonoras de un artista, productor o ingeniero
en particular. A través del proceso de análisis, es posible aprender a identificar qué aspectos de sus
grabaciones las hacen particularmente exitosas desde un punto de vista tímbrico, espacial y dinámico.
La calidad del sonido, la fidelidad técnica y las características sonoras de una grabación tienen un
impacto significativo en la claridad con la que se comunican el significado musical y las intenciones de
una grabación a los oyentes. Los componentes de una imagen estéreo pueden descomponerse para
aprender más sobre el uso de reverberación y retardos, paneo, superposición y equilibrio,
procesamiento dinámico y ecualización.
En su nivel más básico, el proceso de mezcla de sonido implica principalmente control de ganancia y
cambios de nivel con el tiempo. Ya sea que esos cambios sean de banda completa o selectivos en
frecuencia, estáticos o variables en el tiempo, manuales o a través de un compresor, el bloque de
106
construcción básico de la mezcla de sonido es el control del nivel de sonido o amplitud. Instrumentos
individuales o incluso notas individuales pueden subirse o bajarse de nivel para enfatizar el significado
musical.
En el proceso crítico de escucha y análisis, hay numerosas capas de descomposición, desde

características generales y generales de una mezcla completa hasta detalles específicos de cada fuente
de sonido. A un nivel mucho más profundo en el análisis de una grabación, un ingeniero más avanzado
en habilidades de escucha crítica puede comenzar a hacer conjeturas sobre modelos específicos de
equipos utilizados durante la grabación y mezcla, basándose en los timbres y envolventes de amplitud
de componentes en una imagen de sonido.
Una imagen estéreo producida por un par de altavoces puede analizarse en términos de características
que van desde completamente obvias hasta casi imperceptibles. Un objetivo del entrenamiento
auditivo, como tipo de aprendizaje perceptivo, es desarrollar la capacidad de identificar y diferenciar
características de una imagen de sonido reproducida, especialmente aquellas que pueden no haber sido
aparentes antes de participar en ejercicios de entrenamiento. Ahora consideraremos algunas de las
características específicas de una imagen estéreo o envolvente que son importantes para analizar. La
lista incluye parámetros delineados en el Documento Técnico 3286 de la Unión Europea de
Radiodifusión titulado "Métodos de Evaluación para la Evaluación Subjetiva de la Calidad del Material
de Programa de Sonido - Música" (Unión Europea de Radiodifusión [EBU], 1997):
• Ancho de banda general

• Equilibrio espectral
• Imagen auditiva
• Impresión espacial, reverberación y efectos basados en el tiempo
• Rango dinámico, cambios en el nivel o ganancia, artefactos de procesamiento dinámico
(compresores/expansores)
• Ruido y distorsión
• Equilibrio de elementos dentro de una mezcla
7.1.1 Ancho de Banda General
El ancho de banda general se refiere al contenido de frecuencia y hasta qué punto se extiende en las
frecuencias más bajas y más altas del espectro de audio. En esta parte del análisis, el objetivo es
determinar si una grabación se extiende desde 20 Hz hasta 20 kHz, o si está limitada de alguna manera.
La radio FM se extiende solo hasta aproximadamente 15 kHz y el ancho de banda de la comunicación
telefónica estándar oscila alrededor de 300 a 3000 Hz. Una grabación puede estar limitada por su
medio de grabación, un sistema de sonido puede estar limitado por sus componentes electrónicos y una
señal digital puede ser muestreada a un ancho de banda más estrecho para ahorrar en la transmisión de
datos. El efecto de estrechar un ancho de banda se puede percibir a través del uso de filtros pasa altos y
pasa bajos. Al realizar un juicio sobre la extensión de altas frecuencias, es necesario considerar los
armónicos más altos presentes en la grabación. Las frecuencias fundamentales más altas en la música
no suelen superar los 4000 Hz, pero los armónicos de platillos e instrumentos de viento metal
fácilmente alcanzan los 20,000 Hz. La elección del equipo de grabación o de filtros por parte de un
ingeniero puede reducir intencionalmente el ancho de banda de un sonido, diferenciando así el ancho
de banda del sonido acústico y grabado de un instrumento.
107
7.1.2 Balance Espectral
Como vimos en el Capítulo 2, el balance espectral se refiere al nivel relativo de bandas de frecuencia
en todo el espectro de audio. En su análisis más simple, puede describir el equilibrio de altas
frecuencias a bajas frecuencias, pero es posible ser más preciso e identificar resonancias y
antirresonancias específicas de frecuencia. El espectro de potencia de una señal de audio, que puede
ayudar a visualizar el equilibrio espectral de una señal, se puede medir de varias maneras. El cálculo
más común del espectro de potencia probablemente sea a través de la transformada rápida de Fourier
(FFT), que especifica el contenido de frecuencia de una señal y las amplitudes relativas de las bandas
de frecuencia. El balance espectral de ruido rosa es plano cuando se promedia a lo largo del tiempo y se
grafica en una escala logarítmica de frecuencia. El ruido rosa se percibe como teniendo una energía
igual en todo el rango de frecuencias y, por lo tanto, como tener un balance espectral plano.
A través del análisis subjetivo del balance espectral, escucha holísticamente una grabación. Donde la
combinación y el número posibles de resonancias de frecuencia se simplificaron en el Capítulo 2, el
análisis está ahora abierto a cualquier frecuencia o combinación de frecuencias. Al adoptar una visión
más amplia de una grabación, se abordan las siguientes preguntas:
¿Hay bandas de frecuencia específicas que son más prominentes o deficientes que otras?
¿Podemos identificar resonancias por su frecuencia aproximada en Hertzios?
¿Hay notas musicales específicas que son más prominentes que otras?
Las resonancias de frecuencia en las grabaciones pueden ocurrir debido al uso deliberado de
ecualización, la ubicación del micrófono alrededor de un instrumento que se está grabando o
características específicas de un instrumento, como la afinación de un parche de tambor. La ubicación y
el ángulo de orientación de un micrófono tendrán un efecto significativo en el equilibrio espectral del
sonido grabado producido por un instrumento. Dado que los instrumentos musicales suelen tener
patrones de radiación de sonido que varían con la frecuencia, la posición de un micrófono con respecto
a un instrumento es crítica en este sentido. (Para obtener más información sobre los patrones de
radiación de sonido de los instrumentos musicales, consulte el libro de Dickreiter titulado "Tonmeister
Technology: Recording Environments, Sound Sources, and Microphone Techniques" [1989].) Además,
dependiendo de la naturaleza y el tamaño de un espacio de grabación, puede haber modos resonantes y
los micrófonos pueden captar estos modos. Los modos resonantes pueden amplificar ciertas frecuencias
específicas producidas por los instrumentos musicales. Todos estos factores contribuyen al balance
espectral de una grabación o sistema de reproducción de sonido y pueden tener un efecto acumulativo
si las resonancias de diferentes micrófonos ocurren en las mismas regiones de frecuencia.
7.1.3 Imagen Auditiva
Una imagen auditiva, como la definió Woszczyk (1993), es "un modelo mental del mundo externo
construido por el oyente a partir de información auditiva" (p. 198). Los oyentes pueden localizar
imágenes de sonido que se producen a partir de combinaciones de señales de audio emanando de pares
o matrices de altavoces. La impresión auditiva de sonidos ubicados en varias posiciones entre dos
altavoces se denomina imagen estéreo. A pesar de tener solo dos fuentes de sonido físicas en el caso del
estéreo, es posible crear imágenes fantasma de fuentes en ubicaciones entre las ubicaciones reales de
los altavoces, donde no existe una fuente física.
108
El uso de una imagen estéreo completa, que abarca todo el rango de izquierda a derecha, es un aspecto
importante y a veces pasado por alto de la producción. La escucha cuidadosa de grabaciones puede
ilustrar una variedad de tratamientos de panoramización e imágenes estéreo. La ilusión de una imagen
estéreo se crea controlando las diferencias de amplitud entre canales a través de la panoramización y las
diferencias de tiempo entre canales mediante el retardo temporal. Las diferencias entre canales no
corresponden a las diferencias interaurales cuando se reproducen a través de altavoces porque el sonido
de ambos altavoces llega a ambos oídos. Las técnicas de micrófono estéreo pueden proporcionar otro
método para controlar las diferencias de amplitud y tiempo entre canales debido a los patrones polares
de los micrófonos y el espaciado físico entre ellos.
En el estudio de técnicas de producción musical y mezcla, se encuentran varias convenciones en la

panoramización de sonidos dentro de la imagen estéreo entre varios géneros musicales. Por ejemplo, el
pop y el rock generalmente enfatizan la parte central de la imagen estéreo, ya que el bombo, la caja, el
bajo y las voces suelen panoramizarse al centro. Las partes de guitarra y teclado a veces se
panoramizan hacia los lados, pero en general, hay una energía significativa que proviene del centro.
Una mirada a un medidor de correlación confirmaría lo que se escucha también, y una grabación con
un componente central fuerte dará una lectura cercana a 1 en un medidor de correlación. Asimismo, si
se invierte la polaridad de un canal y se suman los canales izquierdo y derecho, una mezcla con una
imagen central dominante tendrá una cancelación significativa de la señal de audio. Cualquier
componente de señal de audio que esté presente de manera equitativa en los canales izquierdo y
derecho (es decir, panoramizado al centro o monofónico) tendrá una cancelación destructiva cuando se
resten los dos canales.
La panoramización y la ubicación de sonidos en una imagen estéreo tienen un efecto definido en cuán
claramente los oyentes pueden escuchar sonidos individuales en una mezcla. El fenómeno del
enmascaramiento, donde un sonido oscurece a otro, también debe considerarse con la panoramización.
Separar los sonidos mediante la panoramización resultará en una mayor claridad, especialmente si
ocupan registros musicales similares o contienen contenido de frecuencia similar. La mezcla y el
equilibrio musical, y por lo tanto, el significado y el mensaje musical de una grabación, se ven
afectados directamente por la panoramización de instrumentos, y el uso apropiado de la
panoramización puede brindarle al ingeniero más flexibilidad para ajustar niveles.
Mientras se escucha el ancho de la imagen estéreo y la dispersión de una imagen de un lado a otro, las
siguientes preguntas guían la exploración y el análisis:
Tomada en su conjunto, ¿tiene una imagen estéreo una distribución equilibrada de izquierda a derecha
con todos los puntos entre los altavoces representados de manera equitativa o hay lugares donde parece
que falta una imagen?
¿Qué tan ancho o monofónico es la imagen?
¿Cuáles son las ubicaciones y anchos de las fuentes de sonido individuales en una grabación?
¿Son estables y definidas sus ubicaciones o son ambiguas?
¿Qué tan fácilmente se pueden señalar las ubicaciones de las fuentes de sonido dentro de una imagen
estéreo?
¿La imagen de sonido parece tener la distribución espacial correcta y apropiada de las fuentes de
sonido?
109
Al considerar estos tipos de preguntas para cada grabación de sonido encontrada, se puede desarrollar
un sentido más fuerte para los tipos de panoramización e imágenes estéreo creadas por ingenieros y
productores profesionales.
7.1.4 Impresión Espacial, Reverberación y Efectos Basados en el Tiempo
La impresión espacial de una grabación es crucial para transmitir emoción y drama en la música. La
reverberación y el eco ayudan a establecer el escenario en el que tiene lugar una actuación musical o
acción teatral. Los oyentes pueden ser transportados mentalmente al espacio en el que existe la música
a través de la fuerte influencia de reflexiones tempranas y reverberación que envuelven la música en
una grabación de sonido. Ya sea que se capture un espacio acústico real en una grabación o se agregue
reverberación artificial para imitar un espacio real, los atributos espaciales transmiten una impresión
general sobre el tamaño de un espacio. Un tiempo de reverberación largo puede crear la sensación de
estar en un espacio acústico más grande, mientras que un tiempo de decaimiento de reverberación corto
o un bajo nivel de reverberación pueden transmitir la sensación de un espacio más íntimo y pequeño.
El análisis de la impresión espacial se puede desglosar en las siguientes subáreas:
Tamaño aparente de la habitación:

¿Qué tan grande es la habitación?
¿Hay más de un tipo de reverberación presente en una grabación?
¿Es la reverberación real o artificial?
¿Cuál es el tiempo de reverberación aproximado?
¿Hay ecos o retardos largos en la reverberación y reflexiones tempranas?
Perspectiva de profundidad:
¿Se distinguen claramente los sonidos colocados al frente de los que están en segundo plano?
¿Cuál es el equilibrio espectral de la reverberación?
¿Cuál es la relación directa/reverberante?
¿Hay ecos o retardos fuertes?
¿Hay algún efecto basado en el tiempo aparente, como coro o flanger?
Las grabaciones de música clásica pueden brindar a los oyentes la oportunidad de familiarizarse con la
reverberación de un espacio acústico real. A menudo, orquestas y artistas con presupuestos de
grabación más altos grabarán en salas de conciertos e iglesias con acústicas que se consideran muy
propicias para la interpretación musical. La profundidad y la sensación de espacio que se pueden crear
con una captura adecuada de un espacio acústico real suelen ser difíciles de imitar con reverberación
artificial.
Añadiendo Reverberación Artificial a Sonidos Secos
Agregar reverberación artificial a sonidos secos no es lo mismo que grabar instrumentos en un espacio
acústico en vivo desde el principio. Si se graba un sonido seco en un espacio acústicamente muerto con
micrófonos cercanos, entonces los micrófonos no están captando el sonido que se irradia lejos de los
micrófonos. El sonido que se irradia desde la parte posterior de un instrumento probablemente no se
recogerá en un entorno de estudio seco. Entonces, incluso cuando se agrega reverberación artificial de
la más alta calidad, no sonará igual que un instrumento grabado en un espacio acústico en vivo con
micrófonos cercanos y de sala.
110
7.1.5 Rango Dinámico y Cambios en el Nivel
El rango dinámico puede ser crucial para una grabación musical, y diferentes estilos de música
requerirán diferentes rangos dinámicos. Puede haber amplias fluctuaciones en el nivel de sonido a lo
largo de una pieza musical, a medida que un nivel dinámico sube a fortissimo y baja a pianissimo.
Asimismo, se pueden examinar las microdinámicas de una señal, cuyo análisis generalmente se ve
facilitado por el uso de un medidor de nivel como un medidor de programa de pico (PPM) o un
medidor digital. Para grabaciones de pop y rock, generalmente el rango dinámico desde un punto de
vista de nivel es bastante estático, pero podemos escuchar (y ver en un medidor) pequeñas
fluctuaciones que ocurren en golpes fuertes y entre esos golpes. Un medidor puede fluctuar más de 20
dB para algunas grabaciones o tan solo 2 a 3 dB para otras. Las fluctuaciones de 20 dB representan un
rango dinámico más amplio que las fluctuaciones más pequeñas, y generalmente indican que una
grabación ha sido menos comprimida. Debido a que el sistema auditivo humano responde
principalmente a niveles promedio en lugar de niveles de pico en el juicio de la intensidad, una
grabación con fluctuaciones de amplitud más pequeñas sonará más fuerte que una con fluctuaciones
más grandes, incluso si ambas tienen la misma amplitud máxima.
En esta parte del análisis, escucha los cambios de nivel de instrumentos individuales y de una mezcla
estéreo general. Los cambios de nivel pueden ser el resultado de cambios manuales de ganancia o de
reducción automática de ganancia dependiente de la señal producida por un compresor o expansor. Los
cambios de nivel dinámico pueden ayudar a amplificar intenciones musicales y mejorar la experiencia
auditiva. Un inconveniente de un rango dinámico amplio es que las secciones más silenciosas son
parcialmente inaudibles y, por lo tanto, restan importancia a cualquier impacto musical previsto por un
artista.
7.1.6 Ruido y Distorsión
Muchos tipos diferentes de ruido pueden interrumpir o degradar una señal de audio de una forma u otra
y pueden presentarse en diferentes formas como un zumbido o zumbido de 50 o 60 Hz, golpes de baja
frecuencia causados por un micrófono o un soporte que se golpea, ruidos externos como bocinas de
automóviles o aviones, clics y pops causados por sincronización digital inexacta y deserciones
(períodos muy cortos de silencio) resultantes de un medio de grabación defectuoso. En general, el
objetivo es evitar cualquier instancia accidental de ruido, a menos que, por supuesto, se ajusten a un
efecto artístico deliberado.
A menos que se esté distorsionando intencionalmente un sonido, los ingenieros tratan de evitar la
saturación en cualquiera de las etapas de una cadena de señal. Por lo tanto, es importante reconocer
cuándo está ocurriendo y reducir el nivel de la señal adecuadamente. A veces es inevitable o pasa
desapercibido y está presente en una grabación terminada.
7.1.7 Equilibrio de los Componentes dentro de una Mezcla
Finalmente, en el análisis del sonido grabado, considera la mezcla o el equilibrio de los elementos
dentro de una grabación. El equilibrio relativo de los instrumentos puede tener una influencia altamente
significativa en el significado musical, el impacto y el enfoque de una grabación. La amplitud de un
elemento dentro del contexto de una mezcla también puede tener un efecto en la percepción de otros
elementos dentro de la mezcla.
111
Piensa en preguntas como las siguientes:
¿Están equilibrados apropiadamente los niveles de amplitud de los instrumentos para el estilo de
música?
¿Hay algún instrumento que esté demasiado alto o otro que esté demasiado bajo?
La imagen de sonido percibida en su totalidad se puede analizar como un todo. Asimismo, las
características menos significativas de una imagen de sonido también se pueden analizar y considerar
como un subgrupo. Algunas de estas subcaracterísticas podrían incluir:
Características específicas de cada componente, voz musical o instrumento, como la naturaleza

temporal o la ubicación espacial de los componentes de la envolvente de amplitud (por ejemplo,
ataque, decaimiento, sostenimiento y liberación).
Definición y claridad de elementos dentro de una imagen de sonido.
Ancho y extensión espacial de elementos individuales.
A menudo, para un oyente no entrenado, características específicas de audio reproducido pueden no ser
obvias o reconocibles de inmediato. Un oyente entrenado, por otro lado, probablemente podrá
identificar y distinguir características específicas de audio reproducido que no son aparentes para un
oyente no entrenado. Hay un ejemplo en el mundo del desarrollo de algoritmos de codificación
perceptual, que ha requerido el uso de oyentes entrenados expertos para identificar deficiencias en el
procesamiento. Los artefactos y la distorsión producidos durante la codificación perceptual no son
necesariamente evidentes de inmediato hasta que los oyentes críticos, que están probando el software
de codificación, aprenden qué escuchar. Una vez que un oyente puede identificar los artefactos de
audio, puede volverse difícil no escucharlos.
A diferencia de escuchar música en un concierto en vivo, las grabaciones de música (solo audio, a
diferencia de aquellas acompañadas por video) requieren que los oyentes confíen completamente en su
sentido del oído. No hay información visual para seguir una banda sonora musical, a diferencia de una
actuación en vivo donde la información visual ayuda a completar detalles que pueden no ser tan
evidentes en el dominio auditivo. Como resultado, los ingenieros de grabación a veces exageran ciertas
características sonoras de una grabación, a través del control de nivel, procesamiento de rango
dinámico, ecualización y reverberación, para ayudar a involucrar a un oyente.
7.2 Ejemplos de Análisis
En esta sección, realizaremos un repaso de algunas grabaciones, destacando elecciones timbrísticas,

dinámicas, espaciales y de mezcla que son evidentes al escuchar. Cualquiera de estas pistas sería
apropiada para practicar con el módulo de software de ecualización, probar altavoces y auriculares, y
realizar análisis gráficos (ver Sección 7.3).
7.2.1 Sheryl Crow: "Strong Enough"
Crow, Sheryl. (1993). Tuesday Night Music Club. A&M Records. Producido por Bill Bottrell. La
tercera pista del álbum de Sheryl Crow, Tuesday Night Music Club, es fascinante en su uso de
numerosas capas de sonidos que se organizan y mezclan para formar una pista musical y timbricamente
interesante. Las partes instrumentales se complementan entre sí y están bien equilibradas. Se requieren
numerosas audiciones de la pista para identificar todos los sonidos presentes.
112
La pieza comienza con un sintetizador seguido de dos guitarras acústicas panoramizadas a la izquierda
y a la derecha. El sonido de la guitarra no es tan nítido como se podría imaginar de una guitarra
acústica. En esta grabación, las frecuencias altas de estas guitarras se han atenuado un poco, quizás
porque las cuerdas están desgastadas y se mezcla algo de señal de una pastilla de guitarra acústica.
La voz principal de Crow entra con un sonido seco pero intenso. Hay muy poco reverb en la voz, y el
timbre es bastante brillante. Una guitarra de 12 cuerdas nítida y clara entra en contraste con el sonido
opaco de las otras dos guitarras. El bajo eléctrico sin trastes entra para completar los tonos más bajos.
La percusión manual está panoramizada a la izquierda y a la derecha para llenar el componente espacial
de la imagen estéreo.
El estribillo presenta un platillo de conducción bastante seco y un sonido alto y de órgano Hammond
B3 bastante bajo en la mezcla. Después del estribillo, entra un pedal steel y luego desaparece antes del
siguiente verso. El puente presenta mandolinas brillantes y claras que están panoramizadas a la
izquierda y a la derecha. Las voces de respaldo, panoramizadas a la izquierda y a la derecha, hacen eco
de la voz principal de Crow.
La instrumentación y la estratificación no convencional de sonidos contrastantes hacen interesante esta

grabación desde un punto de vista de análisis subjetivo. La disposición de la pieza resulta en varios
tipos de instrumentos que entran y salen para enfatizar cada sección de la música. A pesar de la entrada
y salida de instrumentos y la cantidad de capas presentes, la música suena clara y coherente.
7.2.2 Peter Gabriel: "In Your Eyes"
Gabriel, Peter. (1986). So. Producido por Daniel Lanois y Peter Gabriel. Ingenieros: Kevin Killen y
Daniel Lanois. The David Geffen Company. Esta pista de Peter Gabriel es un estudio en la exitosa
estratificación de sonidos que crean una mezcla completa de manera timbral, dinámica y espacial. La
música comienza con un sonido de piano con chorus, un pad de sintetizador y percusión. El bajo y la
batería entran poco después, seguidos por la voz principal de Gabriel.
Hay una sensación inmediata de espacio en la primera nota de la pista. No hay un decaimiento evidente
de reverberación al principio, sin embargo, la combinación de todos los sonidos, cada uno con su
propio sentido de espacio, crea una sensación abierta. La decadencia de la reverberación es más audible
después del estribillo cuando la percusión y los sintetizadores vampirizan durante unos compases.
A pesar de múltiples capas de percusión como el tambor hablador y el triángulo, junto con la sección
rítmica completa, la mezcla es agradablemente completa pero sigue siendo despejada. Las diversas
partes de percusión y la batería ocupan un área amplia en la imagen estéreo, ayudando a crear un
espacio en el que se encuentra la voz principal.
El timbre vocal tiene un sonido cálido pero ligeramente áspero. Está completamente respaldado por la
variedad de tambores, bajo, percusión y sintetizadores a lo largo de la pieza. El cantante senegalés
Youssou N'Dour realiza un solo al final de la pieza, que se mezcla con otras voces que se panoramizan
hacia los lados. La línea de bajo es contundente y articulada, sonando como si estuviera comprimida
bastante intensamente, y contribuye significativamente a la base rítmica de la pieza.
113
La distorsión está presente en algunos sonidos, comenzando con el golpe de batería ligeramente
crujiente en el primer tiempo de la pieza. Otros sonidos están ligeramente distorsionados en algunos
lugares y los efectos de compresión son audibles. Esta ciertamente no es la grabación más limpia que se
puede encontrar, sin embargo, los artefactos de distorsión y compresión funcionan para agregar vida y
emoción a la grabación. En general, esta grabación demuestra un uso fascinante de muchas capas de
sonido, incluyendo percusión acústica y sintetizadores electrónicos, que crean la sensación de un gran
espacio abierto en el que se cuenta una historia musical.
7.2.3 Lyle Lovett: "Church"
Lovett, Lyle. (1992). Joshua Judges Ruth. Producido por George Massenburg, Billy Williams y Lyle
Lovett. Grabado por George Massenburg y Nathan Kunkel. Curb Music Company/MCA Records. La
grabación de "Church" de Lyle Lovett representa perspectivas contrastantes. La pista comienza con el
piano dando una nota inicial a un coro gospel, que tararea. La voz principal de Lovett entra
inmediatamente con palmas de manos del coro en los tiempos dos y cuatro. El piano, el bajo y la
batería comienzan a acompañar de manera dispersa la voz y gradualmente construyen partes más
prominentes. Algo que es inmediatamente notable en esta grabación es la claridad de cada sonido. Los
timbres de los instrumentos y las voces representan espectros equilibrados de manera uniforme,
emergiendo de la mezcla de manera natural.
La voz de Lovett está al frente con muy poca reverberación, y su nivel en la mezcla es consistente
desde el principio hasta el final. La batería tiene un ataque nítido con la cantidad justa de resonancia.
Cada golpe de tambor destaca en la mezcla con toms panoramizados en la imagen estéreo. Los platillos
son cristalinos y agregan brillo al extremo superior de la grabación.
El coro en esta grabación acompaña a Lovett y responde a su canto. Curiosamente, el coro suena como
si estuviera en una pequeña iglesia rural, donde la reverberación se destaca especialmente por las
palmas de manos. El coro y las palmas de manos asociadas están panoramizados ampliamente en la
imagen estéreo. A medida que los miembros del coro toman solos cortos, sus voces individuales
avanzan y son particularmente más secas de lo que son con el coro.
Las voces principales y la sección rítmica se presentan de manera bastante seca y frontal, lo que
contrasta con el coro, que claramente está en un espacio más reverberante o, al menos, más distante.
Los niveles y el rango dinámico de cada instrumento están ajustados adecuadamente, presumiblemente
a través de alguna combinación de compresión y control manual de faders. Cada componente de la
mezcla es audible y ninguno de los sonidos está oscurecido. Ruidos y distorsiones son completamente
inexistentes en esta grabación, y evidentemente se ha tenido un gran cuidado para eliminar o prevenir
cualquier ruido externo. Tampoco hay evidencia de clipping, y cada sonido está limpio. Esta grabación
se ha convertido en un clásico en cuanto a calidad de sonido y también se ha mezclado en formato
surround como un lanzamiento independiente.
7.2.4 Sarah McLachlan: "Lost"
McLachlan, Sarah. (1991). Solace. Producido y grabado por Pierre Marchand. Nettwerk/Arista
Records, Bertelsmann Music Group. Esta pista comienza con una guitarra acústica algo reverberante
pero clara y pinceles secos enfocados en una caja. Una voz principal algo etérea entra con un espacio
amplio a su alrededor. La reverberación que crea el espacio alrededor de la voz es bastante baja en
114
nivel, pero el tiempo de decaimiento probablemente esté en el rango de los 2 segundos. La

reverberación se fusiona bien con la voz y parece apropiada para el carácter de la pieza.
El timbre de la voz es claro y equilibrado espectralmente. La mezcla y compresión de la voz han

colocado su nivel de manera consistente adelante del conjunto. Mandolina y guitarra de 12 cuerdas
panoramizadas ligeramente a la izquierda y derecha entran después del primer verso junto con el bajo
eléctrico y el pedal steel reverberante. El bajo toca algunas notas por debajo de las notas bajas estándar
de un bajo, creando un sonido envolvente que respalda el resto de la mezcla. Las voces de respaldo
están panoramizadas ligeramente a la izquierda y a la derecha y se colocan un poco más atrás en la
mezcla que la voz principal. Pads de sintetizador, voces de respaldo y guitarra retardada transforman la
mezcla en una textura soñadora para un verso y luego se desvanecen para un retorno de la mandolina y
la guitarra de 12 cuerdas.
Los timbres en esta pista son claros pero no ásperos. Hay una suavidad general en los timbres y las
frecuencias bajas, principalmente del bajo, proporcionan una base sólida para la mezcla.
(Curiosamente, algunos sonidos en otras pistas de este álbum suenan ligeramente ásperos.) La voz
principal es el sonido más prominente en la mezcla, con las voces de respaldo mezcladas ligeramente
más bajas que la voz principal. Las guitarras, mandolina y bajo son el siguiente sonido más prominente
en la mezcla. La batería prácticamente desaparece después de la introducción pero regresa al final. El
baterista eleva la energía del estribillo final tocando golpes de tom y caja. La batería se mezcla bastante
baja pero aún es audible como una textura rítmica y la caja tiene los snares desconectados.
Con el sonido redondo, suave y completo del bajo, esta grabación es útil para escuchar la respuesta de
bajas frecuencias de altavoces y auriculares. No hay mucho ataque en el bajo para identificar la
articulación, pero su sonido se adapta cómodamente a la música. Con una voz tan prominente y
equilibrada, la grabación también puede servir para identificar resonancias o antiresonancias de
frecuencias medias en un sistema de reproducción de sonido.
7.2.5 Jon Randall: "In the Country"
Randall, Jon. (2005). Walking Among the Living. Producido por George Massenburg y Jon Randall.
Grabado por George Massenburg y David Robinson. Epic/Sony BMG Music Entertainment.
La plenitud y claridad de esta pista están presentes desde la primera nota. La guitarra acústica y la
mandolina inician la introducción seguidas por la voz principal de Randall. La sección rítmica entra en
el segundo verso, lo que amplía el ancho de banda con platillos en el rango de alta frecuencia y bombo
en el rango de baja frecuencia. Varios colores musicales, como el dobro, el violín, el Wurlitzer y la
mandolina, se destacan brevemente en características musicales y luego se desvanecen al fondo. Parece
evidente que se tuvo mucho cuidado en crear una mezcla en constante evolución que presenta frases
musicalmente importantes.
Los timbres en esta pista suenan naturalmente claros y completamente equilibrados espectralmente. La
voz está consistentemente presente por encima de los instrumentos, con un sutil sentido de
reverberación para crear un espacio a su alrededor. Los tambores no son tan prominentes como en la
grabación de Lyle Lovett discutida anteriormente, y son un poco discretos. Los platillos están presentes
y claros, pero no dominan otros sonidos. El bajo es suave y completo, con la suficiente articulación
para su parte.
115
Los sonidos de violín, mandolina y guitarra son todos corpóreos, nítidos y cálidos. Los armónicos altos
de la mandolina y las guitarras rasgueadas se mezclan con los armónicos de los platillos en el rango de
frecuencia superior. Además de la integridad timbral de la pista, no hay evidencia de ningún ruido o
distorsión. La imagen estéreo se utiliza en su máxima expresión con mandolinas, guitarras y batería
panoramizadas ampliamente. El equilibrio en esta grabación es impecable y hace uso de un tratamiento
espacial musicalmente apropiado (reverberación y panoramización), procesamiento dinámico y
ecualización.
7.3 Análisis Gráfico del Sonido
En la investigación sobre la percepción de imágenes sonoras producidas por sistemas de audio para
automóviles, los investigadores han utilizado técnicas gráficas para obtener percepciones de los oyentes
sobre la ubicación y dimensiones de las imágenes sonoras (Ford et al., 2002, 2003; Mason et al., 2000).
El trabajo realizado por Usher y Woszczyk (2003) y Usher (2004) ha buscado visualizar la ubicación,
profundidad y anchura de las imágenes sonoras dentro de un entorno de reproducción multicanal, para
comprender mejor las percepciones de los oyentes sobre las ubicaciones de las fuentes de sonido en un
entorno de reproducción de sonido automotriz. En los experimentos, se pidió a los oyentes que
dibujaran fuentes de sonido utilizando formas elípticas en una interfaz gráfica de computadora.
Al traducir lo que se escucha a un diagrama visual bidimensional, se puede lograr un nivel de análisis
distintivo en comparación con las descripciones verbales. Aunque no hay un método claro para ilustrar
visualmente una percepción auditiva, el ejercicio de hacerlo es muy útil para el análisis y la exploración
sónica. Utilizando una plantilla como en la Figura 7.1, dibuja lo que se escucha proveniente de un
sistema de sonido. La ubicación de escucha en relación con un sistema de sonido tendrá un efecto
directo en la localización de las imágenes fantasma. La Sección 1.3.2 ilustra la ubicación ideal de
escucha para la reproducción de sonido estéreo que dará ubicaciones precisas de imágenes fantasma.
Figura 7.1 Se anima al lector a

utilizar la plantilla mostrada aquí
como guía para el análisis gráfico
de una imagen sonora, para
visualizar las ubicaciones
percibidas de las imágenes sonoras
dentro de una grabación de sonido.
116
Las imágenes dibujadas en la plantilla no deben parecerse a formas reales de instrumentos musicales,
sino ser análogas a las imágenes sonoras que se perciben desde los altavoces. Por ejemplo, la imagen
estéreo de una grabación de piano en solitario será muy diferente de la imagen de un piano tocando con
un conjunto, y sus imágenes visuales correspondientes también se verían significativamente diferentes.
Los dibujos de imágenes estéreo deben etiquetarse para indicar cómo las formas visuales corresponden
a las imágenes auditivas percibidas. Sin etiquetas, pueden parecer demasiado abstractos para ser
comprendidos, pero cuando se consideran en relación con sus respectivas grabaciones de sonido,
pueden ayudar a un oyente a mapear una imagen sonora.
El análisis gráfico permite centrarse en la ubicación, anchura, profundidad y extensión de las fuentes de
sonido en una imagen sonora. Una representación visual de una imagen sonora debe incluir no solo el
sonido directo de cada fuente de sonido, sino también cualquier efecto espacial, como reflexiones y
reverberación, presentes en una grabación.
7.4 Audio Multicanal
Esta sección se centrará en el formato de reproducción multicanal más común con 5.1 canales. El audio
multicanal generalmente permite la reproducción más realista de un campo de sonido envolvente,
especialmente para grabaciones de música puramente acústica en un entorno de sala de conciertos; este
tipo de grabación puede dar a los oyentes la impresión de estar sentados en una sala, completamente
envueltos por el sonido.
Por otro lado, el audio multicanal también ofrece una reproducción más irreal del audio porque permite
a un ingeniero posicionar fuentes de sonido alrededor de un oyente. Por lo general, no hay músicos
ubicados detrás de los miembros del público en un concierto, excepto órgano antifonal, metales o coro,
pero la reproducción de audio multicanal permite a un mezclador de sonido colocar fuentes de sonido
directo detrás de la posición de escucha. Sin duda, el audio multicanal tiene muchas ventajas sobre el
estéreo de dos canales, pero aún hay desafíos que deben considerarse y oportunidades para la escucha
crítica que ayuden con estos desafíos.
Aunque hay altavoces al frente y atrás, en la recomendación ITU-R BS.775-1 (ITU-R, 1994) (ver
Figura 1.3) existe un espacio bastante amplio entre el altavoz frontal (30°) y el altavoz envolvente más
cercano (a 110° a 120°). El amplio espacio entre altavoces delanteros y traseros hace que sea difícil
producir imágenes de sonido laterales, al menos con cierta estabilidad y precisión de ubicación.
7.4.1 El Canal Central
Una característica distintiva del entorno de reproducción 5.1 es la presencia de un altavoz central
situado en 0° entre los canales izquierdo y derecho. La ventaja de un canal central es que puede ayudar
a solidificar y estabilizar las imágenes de sonido que se desplazan al centro. Las imágenes fantasma en
el centro de una configuración convencional de altavoces estéreo parecen provenir solo del centro
cuando el oyente está sentado en la ubicación de escucha ideal, equidistante de los altavoces. Cuando
un oyente se mueve hacia un lado, una imagen fantasma central parece moverse hacia el mismo lado.
Debido a que un oyente ya no está equidistante de los dos altavoces, el sonido llega al oyente desde el
117
altavoz más cercano primero y se localizará en ese altavoz debido a la ley del frente de onda que llega
primero, también conocido como efecto de precedencia o efecto Haas.
Hacer solo el altavoz central de una mezcla surround ayuda a tener una idea de lo que un ingeniero de
mezcla envió al canal central. Al escuchar el canal central y explorar cómo se integra con los canales
izquierdo y derecho, haz preguntas como las siguientes:
¿La presencia o ausencia del canal central hace una diferencia significativa en la imagen frontal?
¿Los instrumentos principales o las voces sonidos en el canal central?
¿Algunos tambores o componentes de la batería están ubicados en el canal central?
¿Está presente el bajo en el canal central?
Si una grabación tiene voces principales destacadas y solo están panoramizadas al canal central, es
probable que parte de la reverberación, eco y reflexiones tempranas estén panoramizadas a otros
canales. En una mezcla así, silenciar el canal central puede facilitar escuchar la reverberación sin
sonido directo.
A veces, las imágenes fantasma producidas por los canales izquierdo y derecho se refuerzan con la
imagen o canal central. Duplicar una imagen fantasma central en el altavoz central puede hacer que la
imagen central sea más estable y sólida. A menudo, la señal enviada a los canales izquierdo y derecho
puede retrasarse o alterarse de alguna manera para que no sea una copia exacta del canal central. Con
los tres canales produciendo exactamente la misma señal de audio, el oyente puede experimentar un
filtrado por peine con cambios en la posición de la cabeza, ya que las señales de tres ubicaciones
diferentes se combinan en los oídos (Martin, 2005).
La calidad espacial de una imagen fantasma producida entre los canales izquierdo y derecho es
notablemente diferente de la imagen sólida del canal central reproduciendo exactamente la misma señal
de audio por sí mismo. Una imagen fantasma entre los altavoces izquierdo y derecho puede seguir
siendo preferida por algunos a pesar de sus deficiencias, como el movimiento de la imagen fantasma
que corresponde a la ubicación del oyente. Una imagen fantasma producida por dos altavoces
generalmente será más ancha y más completa que un solo altavoz central reproduciendo el mismo
sonido, que puede percibirse como más estrecho y más restringido.
Es importante comparar los diferentes canales de una grabación multicanal y comenzar a formar una
referencia interna para diversos aspectos de una imagen de sonido multicanal. Al realizar estas
comparaciones y escuchar de cerca y cuidadosamente, podemos formar impresiones sólidas sobre qué
tipos de sonidos son posibles desde varios altavoces en un entorno de sonido envolvente.
7.4.2 Los Canales Traseros
En el análisis de grabaciones surround, es útil centrarse en qué tan bien una grabación en sonido
surround de 5.1 canales logra una distribución uniforme desde el frente hasta la parte trasera y si existe
una imagen lateral. Las imágenes laterales son difíciles de producir sin un altavoz real posicionado en
el lateral debido a la naturaleza de la audición binaural, que es mucho más precisa para localizar
sonidos que provienen desde el frente. Localiza varios elementos en una mezcla y examina la ubicación
de los sonidos alrededor del área de escucha considerando algunas preguntas como:
118
¿Cómo se panoramizan diferentes elementos en la mezcla?

¿Tienen ubicaciones precisas, o es difícil determinar la ubicación exacta porque un sonido parece venir
de muchas ubicaciones a la vez?
¿Cuál es la naturaleza de la reverberación y dónde está panoramizada?
¿Hay diferentes niveles de reverberación y retardo?
En los sistemas de reproducción surround, los canales traseros están ampliamente espaciados. El
amplio espacio, junto con la audición binaural que tiene menos agudeza espacial en la parte trasera,
hace que sea desafiante crear una imagen trasera cohesiva y uniformemente distribuida. Es importante
escuchar solo los canales surround. Al escuchar toda la mezcla, los canales traseros pueden no ser tan
fáciles de escuchar debido a la predisposición del sistema auditivo a los sonidos que llegan desde el
frente.
7.4.3 Ejercicio: Comparar Estéreo con Surround
Comparar una mezcla estéreo y surround de la misma grabación musical puede ser esclarecedor.
Muchos detalles se pueden escuchar en una mezcla surround que no son tan audibles o están ausentes
en una mezcla estéreo. Los sistemas de reproducción surround permiten a un ingeniero colocar fuentes
de sonido en muchas ubicaciones diferentes alrededor de un área de escucha. Debido a la separación
espacial de las fuentes de sonido, hay menos enmascaramiento en una mezcla surround. Escuchar una
mezcla surround y luego cambiar a su mezcla estéreo correspondiente puede ayudar a resaltar
elementos de una mezcla estéreo que no eran audibles antes.
7.4.4 Ejercicio: Comparar Versiones Originales y Remasterizadas
Se han remasterizado y vuelto a lanzar varias grabaciones varios años después de su lanzamiento
original. Remasterizar un álbum generalmente implica regresar a su mezcla estéreo original y aplicar
nueva ecualización, procesamiento dinámico, ajustes de nivel, procesamiento de medios y laterales, y
posiblemente reverberación. Comparar una versión original de un álbum con una versión remasterizada
es un ejercicio útil que puede ayudar a resaltar características timbrales, dinámicas y espaciales
típicamente alteradas por un ingeniero de masterización.
7.5 Altas Tasas de Muestreo
Ha habido varios debates acalorados sobre las ventajas o beneficios de las altas tasas de muestreo en
audio digital. El formato de audio digital del disco compacto especifica una tasa de muestreo de 44,100
Hz y una profundidad de bits de 16 bits por muestra, según el estándar del CD Red Book. A medida que
la tecnología de grabación ha evolucionado, ha permitido la grabación y distribución de audio a oyentes
a tasas de muestreo mucho más altas. No hay duda de que profundidades de bits mayores a 16 bits por
muestra mejoran la calidad de audio, y los ingenieros generalmente graban con al menos 24 bits por
muestra. Como ejercicio, compara una grabación de 24 bits con una versión atenuada a 16 bits de la
misma grabación y toma nota de las diferencias audibles.
La tasa de muestreo determina la frecuencia más alta que se puede grabar y, por lo tanto, el ancho de
banda de una grabación. El teorema de muestreo establece que la frecuencia más alta que podemos
grabar es igual a la mitad de la frecuencia de muestreo. Tasas de muestreo más altas permiten un ancho
de banda más amplio para la grabación. Aunque la diferencia entre una tasa de muestreo alta (96 kHz o
119
192 kHz) y una tasa de muestreo de 44.1 kHz es sutil y puede ser difícil de escuchar, comparar una tasa
de muestreo alta con audio de calidad de CD puede ser útil para perfeccionar las habilidades auditivas.
A medida que se progresa para percibir diferencias audibles más finas entre los sonidos, puede ser útil
comparar sonidos grabados a diferentes tasas de muestreo. Algunos ingenieros informan que una
grabación hecha a 96 kHz y luego reducida a 44.1 kHz suena mejor que una grabación que se originó a
44.1 kHz.
Una grabación con una tasa de muestreo de 2.8224 MHz de un Super Audio CD (SACD) puede ofrecer
una diferencia mayor que 96 kHz o 192 kHz en comparación con el audio de calidad de CD. Una de las
diferencias tiene que ver con una mayor claridad espacial. El paneo de instrumentos y fuentes de
sonido dentro de una imagen estéreo o surround puede definirse más claramente, las ubicaciones de las
fuentes son más precisas y la decadencia de la reverberación es generalmente más suave.
7.6 Ejercicio: Comparación de Altavoces y Auriculares

Con cualquiera de estas comparaciones, es más fácil percibir diferencias cuando el audio se reproduce a
través de altavoces o auriculares de alta calidad. Los dispositivos de reproducción de baja calidad no
permiten disfrutar completamente de los beneficios de las altas tasas de muestreo. Los sistemas de
reproducción de alta calidad no siempre tienen que ser costosos, especialmente en sistemas para
consumidores.
7.6.1 Ejercicio: Comparación de Altavoces y Auriculares
Cada modelo particular de altavoces o auriculares tiene un sonido único. La respuesta de frecuencia, la
respuesta de potencia, las características de distorsión y otras especificaciones contribuyen al sonido
que un ingeniero escucha y, por lo tanto, influyen en las decisiones durante las sesiones de grabación y
mezcla.
Para este ejercicio, realiza lo siguiente:
Elige dos pares diferentes de altavoces, dos pares diferentes de auriculares o un par de altavoces y un
par de auriculares.
Elige varias grabaciones de música familiares.
Documenta la marca/modelo de los altavoces/auriculares y el entorno de escucha.
Compara la calidad de sonido de los dos dispositivos de reproducción de sonido diferentes.
Describe las diferencias audibles con comentarios sobre los siguientes aspectos y características del
campo de sonido:
Calidad tímbrica: Describe las diferencias en respuesta de frecuencia y equilibrio espectral.
¿Un modelo es deficiente en una banda de frecuencia específica?
¿Un modelo es especialmente resonante en cierta banda de frecuencia?
Características espaciales: ¿Cómo suena la reverberación?
¿Un modelo hace que la reverberación sea más prominente que el otro?
¿El diseño espacial de la imagen estéreo es el mismo en ambos?
¿La claridad de las ubicaciones de las fuentes de sonido es la misma en ambos? Es decir, ¿las fuentes
de sonido se pueden localizar en la imagen estéreo igual de bien en ambos modelos?
120
Si se comparan auriculares con altavoces, ¿podemos describir las diferencias en esos componentes de
la imagen que están panoramizados al centro?
¿Cómo se comparan las imágenes centrales en términos de su ubicación delante/detrás y su anchura?
Claridad general de la imagen de sonido:
¿Cuál de ellos está más definido?
¿Se pueden escuchar detalles en uno que son menos audibles o inaudibles en el otro?
Preferencia: ¿Cuál se prefiere en general?
Diferencias generales: Describe cualquier diferencia más allá de la lista presentada aquí.
Archivos de sonido: Es mejor usar solo archivos PCM lineales (AIFF o WAV) que no hayan sido
convertidos de MP3 o AAC.
Cada dispositivo de reproducción de sonido y entorno tiene un efecto directo en la calidad y el carácter
del sonido que se escucha, y es importante que un ingeniero conozca su sistema de reproducción de
sonido (la combinación altavoz/cuarto) y tenga algunas grabaciones de referencia que conozca bien.
Las grabaciones de referencia no tienen que ser grabaciones perfectas siempre y cuando sean
familiares.
7.7 Ejercicio: Mejoradores de Sonido en Reproductores Multimedia
Muchos reproductores multimedia de software utilizados para reproducir audio en una computadora
ofrecen controles de mejora de sonido. Este tipo de control a menudo está activado por defecto en
reproductores multimedia como iTunes y ofrece otra oportunidad para la escucha crítica. Puede ser
informativo comparar la calidad de audio con la mejora de sonido activada y desactivada y tratar de
determinar auditivamente cómo afecta el algoritmo al sonido. El procesamiento que emplea puede
mejorar el sonido de algunas grabaciones pero degradar el sonido de otras. Considera cómo afecta un
mejorador de sonido a la imagen estéreo y si la anchura general de la imagen se ve afectada o si el
panoramizado y la ubicación de las fuentes de sonido se alteran de alguna manera:
¿Se ve afectado el nivel de reverberación?

La calidad tímbrica probablemente se alterará de alguna manera. Intenta identificar tan precisamente
como sea posible cómo cambia el timbre. Identifica si se ha agregado alguna ecualización y qué
frecuencias específicas se han alterado.
¿Hay algún procesamiento de rango dinámico en curso? ¿Hay artefactos de compresión presentes o la
versión mejorada suena más fuerte?
La configuración de mejora de sonido en los reproductores multimedia puede estar o no alterando el
audio de una manera deseable, pero ciertamente ofrece un ejercicio de escucha crítica para determinar
las diferencias en las características de audio
7.8 Análisis del Sonido de Fuentes Acústicas
Las presentaciones en vivo de música acústica pueden ser instructivas y esclarecedoras para el
desarrollo de habilidades de escucha crítica. La mayoría de la música se escucha a través de
transductores electroacústicos de algún tipo (altavoces o auriculares), y puede ser fácil perder de vista
cómo suena un instrumento acústicamente, ya que proyecta sonido en todas direcciones en una sala o
sala de conciertos. Al menos un fabricante de sistemas de audio para consumidores alienta a su
personal de investigación y desarrollo a asistir a conciertos de música acústica. Esta práctica es
increíblemente importante para desarrollar un punto de referencia para ajustar altavoces. El acto de
121
escuchar la calidad del sonido, el timbre, las características espaciales y el rango dinámico durante un
concierto de música en vivo puede perfeccionar habilidades para la escucha técnica a través de
altavoces.
Puede parecer contraproducente utilizar actuaciones de música acústica para la formación en un campo
que depende de la tecnología de reproducción de sonido, pero los patrones de radiación de sonido de
los instrumentos musicales son diferentes de los altavoces, y es importante recalibrar el sistema
auditivo al escuchar activamente música acústica. Al asistir a conciertos de jazz, música clásica, música
acústica contemporánea o música folklórica, se puede escuchar el resultado de los patrones de
radiación de sonido natural de cada instrumento en la habitación. El sonido emana de cada instrumento
en la habitación, teatro o sala y se mezcla con el de otros instrumentos y voces.
Sentado en la audiencia en un concierto de música en vivo, concéntrate en aspectos del sonido que a
menudo se consideran al equilibrar pistas en una grabación. Al igual que el diseño espacial (paneo) y la
profundidad de una grabación reproducida a través de altavoces se pueden analizar, estos aspectos
también se pueden examinar en un entorno acústico. Comienza intentando localizar a los diversos
miembros o secciones del conjunto que está actuando. Con los ojos cerrados, puede ser más fácil
concentrarse en la sensación auditiva e ignorar lo que informa el sentido de la vista. Intenta localizar
instrumentos en un escenario y piensa en el sonido general en términos de una "imagen estéreo", como
si dos altavoces estuvieran produciendo el sonido y se escucharan imágenes fantasma entre los
altavoces. La localización de fuentes de sonido puede no ser la misma para todos los asientos en la sala
y puede estar influenciada por reflexiones tempranas de las paredes laterales en el espacio de actuación.
Al comparar la música reproducida a través de un par de altavoces con la que se interpreta en un

espacio acústico en vivo, la imagen de sonido percibida será significativamente diferente en términos
de timbre, espacio y dinámica. Algunas preguntas pueden guiar la comparación:
• ¿El sonido de la música en vivo suena más ancho en general o más estrecho que los altavoces
estéreo?
• ¿La relación directo-reverberante es consistente con lo que se podría escuchar en una
grabación?
• ¿Cómo se compara el timbre con lo que se escucha a través de altavoces? Si es diferente,
describe la diferencia.
• ¿Qué tan bien se escuchan pasajes muy silenciosos?
• ¿Cómo se compara el rango dinámico?
• ¿Cómo se compara la sensación de amplitud y envolvimiento?
Los miembros de la audiencia casi siempre se sientan mucho más lejos de los intérpretes musicales de
lo que típicamente se colocarían los micrófonos, y están fuera del radio de reverberación o distancia
crítica. Por lo tanto, la mayoría de la energía acústica que están escuchando es sonido indirecto:
reflexiones y reverberación. Por lo tanto, es mucho más reverberante que lo que se escucha en una
grabación. Este nivel de reverberación probablemente no sería aceptable en una grabación, pero los
miembros de la audiencia lo encuentran agradable. Quizás porque los músicos son visibles en un
entorno en vivo, el sistema auditivo es más tolerante, o tal vez las señales visuales ayudan a los
miembros de la audiencia a conectarse con la música al poder ver los movimientos de los intérpretes
sincronizados con las notas que se están tocando.
122
Idealmente, el campo reverberante, la zona de asientos de la audiencia, debería ser algo difuso, lo que
significa que el sonido indirecto debe escucharse igualmente desde todas las direcciones. En una sala
de conciertos real u otro espacio de actuación musical, esto puede no ser así y puede ser posible
localizar la reverberación. Si la reverberación es localizable, entonces concéntrate en la anchura y
extensión espacial de la misma. ¿Está principalmente ubicada detrás o también se extiende hacia los
lados? ¿Es envolvente? ¿Hay alguna reverberación proveniente del frente, donde suelen estar ubicados
los músicos?
Las reflexiones tempranas también pueden ser discernibles como una característica de cualquier campo
de sonido. Aunque las reflexiones tempranas suelen llegar al oyente dentro de decenas de milisegundos
de un sonido directo y, por lo tanto, son imperceptibles como sonidos discretos, hay ocasiones en las
que las reflexiones pueden acumularse o enfocarse desde una ubicación específica y alterar nuestra
percepción de la ubicación de una fuente de sonido. Cualquier pared curva tenderá a enfocar las
reflexiones, haciendo que se sumen y, por lo tanto, aumenten en amplitud a un nivel mayor que el
sonido directo.
Las reflexiones tempranas desde el lado pueden ayudar a ampliar la anchura percibida de la imagen de
sonido. Aunque estas reflexiones pueden no ser perceptibles como ecos discretos, trata de enfocarte en
la anchura general. Presta atención también a cómo el sonido directo se mezcla y se une al sonido que
viene de los lados y la parte trasera. ¿El sonido envuelve continuamente por todos lados o hay
interrupciones en el campo de sonido, como puede ocurrir al escuchar grabaciones multicanal?
A veces, los ecos, reflexiones y reverberaciones son más audibles cuando hay sonidos transitorios o
percusivos presentes. Los sonidos que tienen un ataque agudo y una sostenibilidad y decaimiento
cortos permitirán que se escuche el sonido indirecto que viene inmediatamente después, porque el
sonido directo estará en silencio y, por lo tanto, no enmascarará el sonido indirecto.
Resumen
El análisis del sonido, ya sea puramente acústico o proveniente de altavoces, ofrece oportunidades para
descomponer y descubrir características y elementos de una imagen sonora. Cuanto más se escucha
grabaciones y sonidos acústicos con participación activa, más características sonoras se pueden
identificar y focalizar. Con el tiempo y la práctica continua, la percepción de eventos auditivos se
expande y se empiezan a notar características sonoras que antes no eran audibles. Cuanto más se
descubre a través de la escucha activa, más profundo puede ser el disfrute del sonido, pero esto requiere
práctica dedicada a lo largo del tiempo.
De igual manera, habilidades de escucha más enfocadas y efectivas conducen a una mayor eficiencia y
efectividad en la grabación de sonido, producción, composición, refuerzo y desarrollo de productos. El
entrenamiento técnico del oído es crucial para cualquier persona involucrada en ingeniería de audio y
producción musical, y las habilidades de escucha crítica están al alcance de cualquiera que esté
dispuesto a pasar tiempo prestando atención a lo que está escuchando.
Aquí van algunas palabras finales de consejo: escucha tantas grabaciones como sea posible. Escucha a
través de una amplia variedad de auriculares y sistemas de altavoces. Durante cada sesión de escucha,
toma notas sobre lo que se escucha. Descubre quién fue el ingeniero de sonido de las grabaciones más
admiradas y encuentra más grabaciones de los mismos ingenieros. Observa las similitudes y diferencias
123
entre varias grabaciones de un mismo ingeniero, productor o sello discográfico. Observa las similitudes
y diferencias entre varias grabaciones de un mismo artista que ha trabajado con diferentes ingenieros o
productores.
La actividad más desafiante al trabajar en cualquier proyecto de audio es la escucha activa continua. La
única manera de saber cómo tomar decisiones sobre qué equipo usar, dónde colocar los micrófonos y
cómo ajustar los parámetros es escuchando atentamente cada sonido que emana de los monitores y
auriculares. Al escuchar activamente en todo momento, se puede obtener información esencial para
servir mejor a la visión musical de cualquier proyecto de audio. En la grabación y producción de
sonido, el sistema auditivo humano es el juez final de la calidad y la visión artística.
124
BIBLIOGRAFÍA
Barron, M. (1971). The subjective effects of first reflections in concert
halls: The need for lateral reflections. Journal of Sound and Vibration,
15, 475–494.
Bech, S. (1992). Selection and training of subjects for listening tests on
sound-reproducing equipment. Journal of the Audio Engineering
Society, 40, 590–610.
Blesser, B., & Salter, L.-R. (2006). Spaces speak, are you listening?
Experiencing aural architecture. Cambridge, MA: MIT Press.
Bradley, J. S., & Soulodre, G. A. (1995). Objective measures of listener
envelopment. Journal of the Acoustical Society of America, 98(5),
2590–2597.
Brixen, E. B. (1993). Spectral ear training. Proceedings of the 94th Convention
of the Audio Engineering Society, Preprint 3474, Berlin, Germany.
Case, A. U. (2007). Sound FX: Unlocking the creative potential of
recording studio effects. Boston: Focal Press/Elsevier.
Corey, J. (2002). An integrated system for dynamic control of auditory
perspective in a multichannel sound field. Ph.D. thesis. Montreal,
Canada: McGill University, http://www-personal.umich.edu/~coreyja.
Corey, J. (2004). An ear training system for identifying parameters of
artificial reverberation in multichannel audio. Proceedings of the
117th Convention of the Audio Engineering Society, Preprint 6262, San
Francisco.
Corey, J. (2007). Beyond splicing: Technical ear training methods derived
from digital audio editing techniques. Proceedings of the 123rd
Convention of the Audio Engineering Society, Preprint 7212, New York.
Corey, J., Woszczyk, W., Martin, G., & Quesnel, R. (2001). An integrated
multidimensional controller of auditory perspective in a multichannel
soundfield. Proceedings of the 111th Convention of the Audio
Engineering Society, Preprint 5417, New York.
Dickreiter, M. (1989). Tonmeister technology: Recording environments,
sound sources, and microphone techniques. New York: Temmer
Enterprises.
European Broadcasting Union (EBU) (1997). Assessment methods
for the subjective evaluation of the quality of sound programme
material—Music. Technical Document 3286-E, European
Broadcasting Union, Geneva, Switzerland.
Fletcher, H., & Munson, W. A. (1933). Loudness, its definition,
measurement and calculation. Journal of the Acoustical Society of
America, 5(2), 82–108.
Ford, N., Rumsey, F., & Nind, T. (2002). Subjective evaluation of perceived
spatial differences in car audio systems using a graphical assessment
language. Proceedings of the 112th Convention of the Audio Engineering
Society, Preprint 5547, Munich, Germany.
125
Ford, N., Rumsey, F., & Nind, T. (2003). Evaluating spatial attributes of
reproduced audio events using a graphical assessment language:
Understanding differences in listener depictions. Proceedings of
the Audio Engineering Society 24th International Conference, Banff,
Canada.
Geddes, E., & Lee, L. (2003). Auditory perception of nonlinear distortion:
Theory. Proceedings of the 115th Convention of the Audio Engineering
Society, Preprint 5890, New York.
Gerzon, M. A. (1986). Stereo shuffling: New approach—old technique.
Studio Sound, 28, 122–130.
Gerzon, M. A. (1994). Applications of blumlein shuffling to stereo
microphone techniques. Journal of the Audio Engineering Society,
42(6), 435–453.
Getz, S., Gilberto, J., & Jobim, A. (1964). “Desafinado” from Getz/Gilberto.
Verve Records.
Gibson, E. J. (1969). Principles of perceptual learning and development.
New York: Appleton-Century-Crofts.
Giddings, P. (1990). Audio systems design and installation. Boston: Focal
Press.
Howard, D., & Angus, J. A. S. (2006). Acoustics and psychoacoustics
(3rd ed.). Oxford: Focal Press/Elsevier.
ITU-R. (1994). Multichannel stereophonic sound system with and
without accompanying picture, Recommendation BS.775-1,
International Telecommunication Union Radiocommunication
Assembly, Geneva, Switzerland.
ITU-R. (1997). Methods for the subjective assessment of small
impairments in audio systems including multichannel sound systems,
Recommendation BS.1116-1, International Telecommunication
Union Radiocommunication Assembly, Geneva, Switzerland.
Iwamiya, S., Nakajima, Y., Ueda, K., Kawahara, K., & Takada, M. (2003).
Technical listening training: Improvement of sound sensitivity for
acoustic engineers and sound designers. Acoustical Science and
Technology, 24(1), 27–31.
Kassier, R., Brookes, T., & Rumsey, F. (2007). Training versus practice in
spatial audio attribute evaluation tasks. Proceedings of the 122nd
Convention of the Audio Engineering Society, Vienna, Austria.
Kidd, G., Mason, C. R., Rohtla, T. L., & Deliwala, P. S. (1998). Release from
masking due to spatial separation of sources in the identification
of nonspeech auditory patterns. Journal of the Acoustical Society of
America, 104(1), 422–431.
Letowski, T. (1985). Development of technical listening skills: Timbre
solfeggio. Journal of the Audio Engineering Society, 33, 240–244.
Levitin, D. J. (2006). This is your brain on music: The science of a human
obsession. New York: Dutton/Penguin Group.
Martin, G. (2005). A new microphone technique for five-channel
126
recording. Proceedings of the 118th Convention of the Audio

Engineering Society, Preprint 6427, Barcelona, Spain.
Mason, R., Ford, N., Rumsey, F., & de Bruyn, B. (2000). Verbal and nonverbal
elicitation techniques in the subjective assessment of spatial
sound reproduction. Proceedings of the 109th Convention of the
Audio Engineering Society, Preprint 5225, Los Angeles.
Massenburg, G. (1972). Parametric equalization. Proceedings of the 42nd
Convention of the Audio Engineering Society, Los Angeles.
Massenburg, G. (accessed August 7, 2009). GML 8900 dynamic range
controller series III user’s reference, www.massenburg.com/cgi-bin/
ml/8900ref.html.
Miskiewicz, A. (1992). Timbre solfege: A course in technical listening
for sound engineers. Journal of the Audio Engineering Society, 40,
621–625.
Moore, B. C. J. (1997). An introduction to the psychology of hearing (4th
ed.). San Diego, CA: Academic Press.
Moorefield, V. (2005). The producer as composer: Shaping the sounds of
popular music. Cambridge, MA: MIT Press.
Neher, T., Brookes, T., & Rumsey, F. (2003). Unidimensional simulation of
the spatial attribute “ensemble depth” for training purposes. Part 1:
Pilot study into early reflection pattern characteristics. Proceedings
of the Audio Engineering Society 24th International Conference, Banff,
Canada.
Neher, T., Rumsey, F., & Brookes, T. (2002). Training of listeners for the
evaluation of spatial sound reproduction. Proceedings of the 112th
Convention of the Audio Engineering Society, Preprint 5584, Munich,
Germany: AES.
Olive, S. (1994). A method for training listeners and selecting program
material for listening tests. Proceedings of the 97th Convention of the
Audio Engineering Society, Preprint 3893, San Francisco.
Olive, S. (2001). A new listener training software application. Proceedings
of the 110th Convention of the Audio Engineering Society, Preprint
5384, Amsterdam, Netherlands.
Opolko, F. J., & Woszczyk, W. R. (1982). A combinative microphone
technique using contact and air microphones. Proceedings of the
72nd Convention of the Audio Engineering Society, Anaheim, CA.
Quesnel, R. (1996). Timbral ear-trainer: Adaptive, interactive training
of listening skills for evaluation of timbre. Proceedings of the
100th Convention of the Audio Engineering Society, Preprint 4241,
Copenhagen, Denmark.
Quesnel, R. (2001). A computer-assisted method for training and
researching timbre memory and evaluation skills. Ph.D. thesis.
Montreal, Canada: McGill University.
Quesnel, R., & Woszczyk, W. R. (1994). A computer-aided system for
timbral ear training. Proceedings of the 96th Convention of the Audio
Engineering Society, Amsterdam, Netherlands.
Quesnel, R., Woszczyk, W., Corey, J., & Martin, G. (1999). A computer
127
system for investigating and building synthetic auditory spaces,

part 1. Proceedings of the 107th Convention of the Audio Engineering
Society, Preprint 4992, New York.
Saberi, K., Dostal, L., Sadralodabai, T., Bull, V., & Perrott, D. R. (1991).
Free-field release from masking. Journal of the Acoustical Society of
America, 90, 1355–1370.
Schellenberg, E. G., Iverson, P., & McKinnon, M. C. (1999). Name
that tune: Identifying popular recordings from brief excerpts.
Psychonomic Bulletin & Review, 6(4), 641–646.
Schroeder, M. R. (1962). Natural sounding reverberation. Journal of the
Audio Engineering Society, 10(3), 219–223.
Shinn-Cunningham, B. (2000). Learning reverberation: Considerations
for spatial auditory displays. Proceedings of the 2000 International
Conference on Auditory Display, Atlanta, GA.
Slawson, A. W. (1968). Vowel quality and musical timbre as functions
of spectrum envelope and fundamental frequency. Journal of the
Acoustical Society of America, 43(1), 87–101.
Smith, J. O. (accessed August 4, 2009). Introduction to digital filters with
audio applications, http://ccrma.stanford.edu/~jos/filters. Online book.
Stone, H., & Sidel, J. L. (1993). Sensory evaluation practices (2nd ed.). San
Diego, CA: Academic Press.
Usher, J. (2004). Visualizing auditory spatial imagery of multi-channel
audio. Proceedings of the 116th Convention of the Audio Engineering
Society, Berlin, Germany.
Usher, J., & Woszczyk, W. (2003). Design and testing of a graphical
mapping tool for analyzing spatial audio scenes. Proceedings of the
Audio Engineering Society 24th International Conference, Banff,
Canada.
Verfaille, V., Zölzer, U., & Arfib, D. (2006). Adaptive digital audio effects
(A-DAFx): A new class of sound transformations. IEEE Transactions
on Audio, Speech, and Language Processing, 4(5), 1–15.
Woszczyk, W. R. (1993). Quality assessment of multichannel sound
recordings. Proceedings of the AES 12th International Conference on
the Perception of Reproduced Sound (pp. 197–218), Copenhagen,
Denmark.

Producción de Audio y Escucha Crítica Entrenamiento Técnico de Oido

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Producción de Audio y Escucha Crítica Entrenamiento Técnico de Oido

Cargado por

Copyright:

Formatos disponibles

1

Aunque el conocimiento técnico de electrónica analógica, procesamiento de señales digitales, análisis

desapareciendo gradualmente de la práctica de la ingeniería de audio. A pesar de esta evolución en la

• ¿Qué habilidades auditivas poseen ingenieros de sonido, productores, tonmeisters y músicos

Atributos del Audio

Hay tres objetivos principales de este libro y el software:

El procesamiento dinámico se utiliza ampliamente en la música grabada. Efectos de procesamiento de

El Software que Acompaña

Este libro no se centra en modelos específicos de software o hardware de procesamiento de audio

Lo que este libro no intenta hacer es proporcionar recomendaciones para configuraciones de

1.1 ¿Qué es el Entrenamiento Técnico del Oído? 12

• ¿Qué sonidos están presentes en un momento dado?

1.1 ¿Qué es el Entrenamiento Técnico del Oído?

• Contenido espectral. Todas las frecuencias presentes en un sonido.

El proceso de grabación de sonido ha tenido un efecto profundo en el desarrollo de la música desde

Los ingenieros de sonido, diseñadores de hardware y software, y desarrolladores de los últimos

1.1.1 Mapeo Isomórfico

Idealmente, un ingeniero de grabación debería tener tanto control de un estudio de grabación y su

1.1.2 Aumento de la Conciencia

• Modelo, ubicación y orientación del micrófono para cada instrumento grabado.

1.1.3 Aumento de la Velocidad de Detección

Es común encontrar versiones de software de muchos dispositivos de procesamiento de señales

1.2 Moldeando Sonidos

Un efecto que el estudio de grabación ha tenido en la música es que ha ayudado a músicos y

En el proceso de grabación y mezcla, un ingeniero puede manipular cualquier cantidad de parámetros,

1.3 Sistema de Reproducción de Sonido Configuraciones

1.3.1 Monofónico: Reproducción de Sonido de un Solo Canal

Un solo canal de audio reproducido a través de un altavoz se llama típicamente

Figura 1.1 Escucha monofónica o de un solo canal.

1.3.2 Estéreo: Reproducción de Sonido de Dos Canales

Figura 1.2 Ubicación ideal para escucha estéreo de dos canales.

1.3.4 Recomendaciones de Auriculares

1.3.5 Sonido Envolvente: Reproducción de Sonido Multicanal

2.1 Formación del Equilibrio Espectral

2.1.2 Elección y Colocación del Micrófono

2.1.3 Factores Indirectos que Afectan el Equilibrio Espectral

2.1.3.1 Monitores y Altavoces

2.1.3.2 Acústica de la Sala de Control y Sala de Audición

Las dimensiones, el volumen y los tratamientos de superficie de la sala en la que un ingeniero

2.1.3.3 Niveles de Sonido y Equilibrio Espectral

El nivel de sonido de un sistema de reproducción de sonido juega un papel significativo en la

2.2 Tipos de Filtros y Ecualizadores

2.2.1 Filtros: Pasa Bajos y Pasa Altos

2.2.2 Ecualizadores Gráficos

Figura 2.4: La respuesta de frecuencia de un ecualizador paramétrico con un aumento de 12 dB a 4000

Figura 2.5: La respuesta de frecuencia de un ecualizador paramétrico con una reducción de 6 dB a

2.2.3 Ecualizadores Paramétricos

Un término acuñado originalmente por George Massenburg en su artículo de la convención de la

2.2.4 Ecualizadores de Estantería (Shelving Equalizers)

A continuación se muestran ejemplos de la respuesta de frecuencia de los filtros de estantería en las

2.3 Empezando con la Práctica

El uso del módulo de práctica de software de entrenamiento auditivo técnico "TETPracticeEQ" es

2.3.1 Tipos de Práctica

Coincidencia. Trabajando en modo de Coincidencia, el objetivo es duplicar la ecualización que ha sido

Identificación Absoluta. Este modo de práctica es el más difícil y el objetivo es identificar la

2.3.2 Resolución de Frecuencia

Hay dos resoluciones de frecuencia entre las que elegir:

1 octava: la opción más fácil con 9 frecuencias posibles.

2500 Hz: vecino superior

2.3.3 Número de Bandas

2.3.4 Rango de Frecuencia

2.3.5 Combinación de Ganancia

El Q es un parámetro estático para cualquier ejercicio. La configuración predeterminada de Q=2 es el