Oir, Escuchar, Actuar

Oír, escuchar, actuar… por Claude Bailblé
Actualmente, todo el mundo (o casi) toma el sonido… con su teléfono celular. Sin embargo, el
resultado que se obtiene no es gran cosa: "no oigo nada... ¿qué es ese ruido que se escucha detrás?"
“¿Pero, dónde estás?”, dice uno. “Espera, que me voy a un lugar tranquilo”, dice otro… Y lo que
pasa es que semejante toma de sonido se realiza en monofonía, con un solo micrófono, y que su
restitución se realiza mediante un solo audífono. Un audífono debilucho que no llega a cubrir el
ruido ambiente.... Entonces, aguzamos el oído, nos llenamos del interlocutor, sin darnos cuenta de
que hablamos demasiado alto con la esperanza (totalmente vana) de obtener un mejor nivel de
retorno, es decir, una mejor inteligibilidad… Cos dos audífonos bien aislados, la situación mejoraría
completamente, la monofonía se tornaría casi agradable, pero ¿quién lo sabe?
Menos numerosos son los que poseen una videocámara, aunque no son pocos. Hay videocámaras
automáticas que ajustan el foco, la luz y el sonido. La toma de sonido – en estéreo – se realiza sin
casco y sin aparatos específicos. Los resultados que se obtienen son obligatoriamente
decepcionantes: discontinuidad sonora entre un plano y otro, reverberación excesiva, ruidos
ambientales exagerados, planos sonoros cada vez más diluidos o lejanos, ruido del viento,
inteligibilidad reducida, escucha agotadora… “¡El sonido no es nada bueno! Es extraño, la imagen
es excelente”, decimos asombrados. Con una percha y un micrófono bien instalados, con un casco
de control y una modulación bien ajustada, las cosas empezarían a mejorar. Evidentemente, nos
estaríamos acercando a la práctica profesional, que tiene otra historia.
Fue en el año 1930 que el sonido grabado en cera vino a sumarse al borde de la película. Hasta ese
momento, las imágenes y los sonidos habían navegado independientemente, separando en alguna
medida al radio y al cine. Con el cine hablado se unen, pero el atraso técnico y ergonómico del
sonido se deja escuchar: micrófonos pesados, camiones para sonidos ópticos, banda de frecuencias
limitada, sonidos agresivos. En cuanto al documental, es la era del trabajo en estudio, de los efectos
sonoros en sala, de los comentarios grabados en cabina. En efecto, es difícil transportar cámaras con
blindaje insonorizante y camiones de sonido al gran set de lo real, mientras que aún resulta fácil
llevar una Paillard o un Caméflex hasta lo más intricado de una selva tropical o en medio de un
conflicto social. Tras el término de la segunda guerra mundial (1950), los progresos de la
electrónica y la llegada de la película magnética van a permitir una mayor perfección, un sonido más
suave, más dinámico, menos estratificado, pero la movilidad de los aparatos seguirá siendo limitada.
Es solo con la llegada del transistor (y de su alimentación con pilas) que una grabadora casi ligera, al
menos portátil, vendrá a imponerse. Concebida por Kudelski en el año 1958, la Nagra III se
convierte en el instrumento de toma de sonido por excelencia: Finalmente, podemos ir a buscar los
silencios, los efectos de aire, los ambientes, las voces y las músicas en todos los rincones del mundo,
como lo habían hecho los camarógrafos de los hermanos Lumière sesenta y tres años antes. Palabras
hasta entonces inauditas son finalmente oídas, grabadas, restituidas. Los paisajes naturales, las
escenas callejeras, las guerras, los susurros de los enamorados, los sonidos de las fábricas, de las
manifestaciones, de las danzas rituales... Mucho antes de que la mini-DV viniera a apoderarse a
su vez - en obligado sincronismo – de las imágenes y de los sonidos automáticamente vinculados,
los exploradores del mundo sonoro habían captado – gracias a la colocación de sus micrófonos en el
lugar apropiado – escenas auditivamente claras, expresivas y parlantes, sabiamente compuestas
desde uno o varios puntos de captación del sonido.
1
Estos pioneros todo terreno habían aprendido que la selección del punto de escucha – deberíamos
decir punto de oído, por analogía con el punto de vista – es decisiva; que el seguimiento suave y
fluido – utilizando una percha – de las fuentes sonoras en movimiento, garantizaría una imagen
estabilizada en cuanto a timbre, volumen o plano sonoro, por tanto aceptable para el auditor a pesar
de la monofonía y que la búsqueda de lugares más bien silenciosos permitiría agregar posteriormente
sonidos solos, ambientes y efectos que se ajustarían durante la mezcla. Como conocían el retorno
monofónico de sus aparatos, los encargados de tomar el sonido en los años sesenta inventaron los
procedimientos instrumentales precisos que hicieron al sonido verosímil, es decir, a la vez cercano y
diferente de lo que escuchamos. Lo suficientemente parecido para ser creído y reconocido, y lo
suficientemente diferente para ir hacia una escritura sensible y expresiva de lo sonoro.
Del micrófono al oído
Con el casco sobre los oídos, un ingeniero de sonido le da indicaciones a su perchista. Se concentra
en su escucha, hace algunas señas. El micrófono está fuera de su lugar, se le vuelve a orientar. Por
unos pocos centímetros, el sonido cambia, la relación entre los sonidos evoluciona, la acústica ya no
es la misma. Se busca un nuevo plano sonoro, una localización óptima. Se evalúa la legibilidad, se
prueba una voz, se atenúa un ruido ambiente. Al observar la escena, el profano – aquel que nunca ha
tenido un micrófono en su mano – se pregunta si los del sonido no acaban por agregarle algo. ¿Para
qué todos esos ajustes puntillosos?
Ubicados en el mismo lugar, el tímpano del oído y la membrana de un micrófono reciben más o
menos las mismas vibraciones. Efectivamente, uno y otra recogen las ondas sonoras disponibles en
ese punto del espacio. Más bien deberíamos hablar de “magma sonora”, dado que las ondas llegan
juntas allí, mezcladas como si se sumaran. Utilicemos una metáfora aritmética. Si, por ejemplo,
decimos que "¡el resultado es 88!". “¿Cómo podemos saber si 88 es la suma de “80 + 8 ó de 22 + 46
+ 20 o tal vez de 13 + 27 + 35 + 23?” “¿Cómo encontrar el desglose de la suma si solamente
disponemos del resultado?”. “¿Cómo encontrar y diferenciar las fuentes sonoras si solamente
disponemos de su suma?”.
Y es justamente esta mezcla la que se difunde sin precauciones à través de la bocina de restitución
en las sesiones familiares en torno de la videocámara. ¡Inaudible, diríamos nosotros! El cerebro no
puede simplemente escoger y seleccionar entre las vibraciones emitidas. ¿Y por qué? Porque el
espacio sonoro ambiental fue compactado y simplificado en una sola información (en el punto de
captura), y restituido poco después de la misma manera (en el punto de difusión).
Vayamos a un café en el que haya apenas ruido, cerremos los ojos y tapémonos el oído que
está hacia la escena sonora: ¡henos aquí transformados en un micrófono omnidireccional! Ya no
entendemos nada, la reverberación es excesiva, el ambiente desmesurado, las percusiones
exageradas, etc.… Abramos los dos ojos y los dos oídos volviéndonos hacia la escena: los sonidos
ambientes se calman, retoman su lugar exacto en la distancia y la dirección. Repitamos el
experimento varias veces seguidas – escucha monoaural y luego biaural: ¡el efecto es impresionante!
Reencontramos la inteligibilidad. Podemos incluso seguir una conversación de cerca, sirviéndonos
eventualmente de la lectura facial y labial. El cerebro, al disponer de dos informaciones diferentes
(oído izquierdo y oído derecho), puede limpiar automáticamente el espacio acústico (BMLD o
binaural masking level difference), domar los ruidos ambientes en cierta medida y escuchar
2
voluntariamente la fuente que interesa (ILD o intelligence level difference), confiriéndole presencia
y precisión.1.
Aquí vemos hasta qué punto la escucha humana es diferente de la captación microfónica. Es
doblemente diferente: no se limpia el BMLD (los lejanos regresan, la reverberación aumenta, los
ruidos enmascaran mucho): no hay enfoque de ILD (la fuente que interesa no aumenta ni su
precisión ni en presencia). Para atenuar estas carencias, hay que buscar lugares más silenciosos –
menos ruidosos, en todo caso – y acercarse abiertamente a las fuentes, tal y como lo hacen los
perchistas. Acercarse a la fuente sonora, escuchar qué nos brinda, ajustar la distancia y el eje hasta
obtener una imagen plausible, e incluso muy bella, de la fuente.
En efecto, cada colocación del micrófono es el centro de una mezcla física entre las ondas directas
que emanan de las diferentes fuentes en actividad y las ondas indirectas que disminuyen al chocar
contra las paredes de la sala: semejante mezcla devuelve siempre una confusión de sonidos, una
especie de versión à la vez objetiva y desordenada de la presión acústica que reina en ese punto. Por
consiguiente, hay que escoger la buena versión aguzando la percha como mismo se aguza el oído.
Es el único medio que se conoce de reconstruir una perspectiva sonora, es decir: afirmar un sonido
principal, atenuar los sonidos anexos demasiado insistentes, recuperar los detalles significativos,
hacer jugar los efectos de enmascaramiento entre los sonidos, ajustar lo preciso y lo difuso,
escalonar la profundidad… etc. Es por este motivo que los micrófonos de las videocámaras para el
gran público no resultan de gran ayuda. El realismo del micrófono no es más, poder decirlo así, que
un realismo tecnológico, que queda muy por debajo del realismo depurado de la escucha biaural.
¿Entonces quién se las puede arreglar sin el o la perchista?
Algo más complicado: la cadena auditiva …

Un simple ruido de pasos puede desencadenar una reacción emotiva (júbilo, miedo súbito), incluso
una acción determinante (acercamiento agresivo, disimulo propicio, impulso salvador), o incluso una
total indiferencia. Lo mismo sucede con todos los sonidos, ya sean pequeños o grandes, fuertes o
débiles. Un silencio helado, un grito, suspiros, un ambiente cargado y tenso, una voz agradable o
mordaz, un clic repentino: en la vida, la escucha de los ruidos y de las palabras a veces compromete
al ser en su totalidad.
Los documentalistas comprendieron muy pronto el interés (estético, escenográfico, dramatúrgico)
que tenía hacer jugar el in y el off, lo que-no-se-ve y lo que-se-da-a-entender, es decir, lo imaginado
y lo percibido. La puesta en escena auditiva, fuera del cuadro de la pantalla, trabaja las
representaciones y las expectativas del espectador – secuencia tras secuencia – mientras que dentro
del campo visual – plano tras plano – le agrega su energía a los movimientos de la imagen que, si
bien es cierto, resulta intermitente, siempre expresiva.
Al llevar la escucha más allá de un supuesto realismo, al desvincularnos, por ejemplo, del
naturalismo prestado al sonido sincrónico o a la captación monofónica del sonido directo, la banda
sonora se ha convertido más que nunca en el lugar de una escritura, de una composición. Difundidos
en mono o en multicanales, los sonidos (voces, ruidos y ambientes) ocupan su lugar en la geometría
1
En monofonía, si el proyector es la bocina, las pantallas de recepción no son más que los tímpanos! Como reciben
por la izquierda y por la derecha las mismas vibraciones (el mismo estímulo), el cerebro no puede espacializar los
sonidos, que es la condición previa para cualquier « limpieza » auditiva (BMLD) e incluso para cualquier
focalización de la atención (ILD) en dirección a una fuente.
3
de la escena: los círculos múltiples de la acción rodean virtualmente al espectador durante toda la
secuencia2.
Mientras que la pantalla sigue estando recta ante nosotros, como un rectángulo luminoso que acoge
la sucesión cambiante de los planos, el dispositivo sonoro ya está instalado en torno a ella: es una
multitud de círculos concéntricos y oscuros3, posiblemente poblados de sonidos cercanos o lejanos,
sincrónicos o asincrónicos por su origen, pero sincrónicos por su destino.
Tal vez sea necesario que, antes de abordar los datos instrumentales y el proyecto escenográfico –
como lo hace concretamente Daniel Deshays – se dé un rodeo por las diferentes etapas del
tratamiento auditivo para medir con precisión las diferentes implicaciones que resultan de las
diferencias entre captación microfónica y escucha biaural.
Durante mucho tiempo limitado a la fisiología, el estudio de los fenómenos sonoros se ha ampliado
mucho. Ahora se extiende a otros campos – perceptivos, estéticos, cognoscitivos – hasta explicar la
diferenciación que se establece entre lo que se siente subjetivamente – algo tan diferente entre un
espectador y otro – y las percepciones relativamente invariables, sobre las que se apoya el cineasta
intuitivamente. Pero aquí, las cosas se complican seriamente.
a/ Las fuentes
En el plano acústico, las fuentes son emisoras, omnidireccionales en los graves, más bien directivas
en los agudos. Intermitente, continua o aislada, la emisión refleja necesariamente una energía en
movimiento: natural (tempestad, orillas del mar...), social (tráfico, trabajos….) o doméstica (tetera,
timbre…). La más interesante es la actividad corporal. Normalmente ligera y silenciosa, la energía
muscular se deja escuchar a través de un sonido más o menos intenso (cosas chocando unas con
otras, manipulación de objetos, desplazamiento...), que desencadena la escucha causal. Tan bien
vemos de qué se trata, que el material sonoro – grano, masa, contorno, altura, timbre – es casi
olvidado en el “por qué” de su emisión: la intención de un gesto va incluida en el despliegue
temporal del sonido.
Sin embargo, espeso o ligero, grave o agudo, liso o con grano, el sonido marca al auditor con su
rastro sensorial para poder imaginar mejor la cadena causal de donde procede: Subito forte, poco a
poco decrescendo, staccato, subito piano, sforzando, etc… Se escucha energía en el perfil temporal,
en la evolución del timbre y de las tesituras. En su forma débil (furtiva, fundida con el ambiente) o
robusta (resistente al ruido, fuerte), el sonido llama a reconstruir los datos, a poner nuevamente en
juego un ya conocido categorizado (chirrido de los neumáticos, por ejemplo), en una situación
precisa (ese frenazo, en esa curva).
Los instantes sonoros, sucesivamente articulados (patinazo, choque de tablones, gritos), se reúnen
entonces en una figura temporal más o menos larga; en una figura que se precisa o que se pierde, que
se afirma o que se interrumpe, no sin haber ilustrado con imágenes sus hipótesis, antes (causas) o
después (consecuencias).
Esta figura temporal más o menos definida (el accidente, los heridos) apela con frecuencia a una
confirmación visual, a una validación detallada del hecho (los pasajeros, el tipo de auto, la causa del
2
El sonido escapa al desglose en planos. Es mezclado para la secuencia: Con frecuencia, se trata de simular la
atención auditiva y su división [una zona escuchada, un ambiente a su alrededor] cubriendo las elipses ocultas en los
cuts, entre los planos, para establecer un continuum aparente, a pesar de lo apretado del tiempo.
3
Aquí también reside el interés del desglose en el cine. Unas veces oscuras (en off), y otras a la luz (en in), las
fuentes sonoras se entrevén sucesivamente: en el modo imaginario, en el modo memoria, en el modo visual y en el
modo auditivo.
4
accidente). De esta manera, podríamos diferenciar los sonidos “familiares”, ya regulados por el
orden social o los hábitos familiares (el tráfico, la aspiradora) de los sonidos "en infracción"
(insultos, klaxon, rotura de platos...), que son infracciones que perturban o dañan este orden.
b/ La propagación
Como fuente activa, cada objeto sonoro dispone de un alcance – de un perímetro de espera – que
depende de la potencia y de la directividad de la emisión, pero también de los obstáculos que se
encuentra, e incluso de la dirección del viento. ¿Hasta dónde llega la voz? Si bien el nivel
disminuye generalmente con el cuadrado de la distancia recorrida (perspectiva geométrica en 1/d 2),
el alcance sigue siendo relativamente importante en el campo cerrado –que llamamos
semirreverberante - debido a los repliegues y rebotes que sufre contra las paredes de las salas. En
lugar de perderse en la distancia, la energía se repliega y se difunde invisiblemente, disminuida por
las paredes, hasta esquivar los obstáculos, si los encuentra, Mientras que en el campo libre – al aire
libre – la disminución es muy rápida debido a los volúmenes encontrados y/o a la absorción por el
suelo. Por otra parte, el sonido se ablanda con la distancia, pierde su filo, su rugosidad (una especie
de perspectiva aérea, descrita hace mucho tiempo por Leonardo de Vinci como una decoloración del
sonido lejano, una falta creciente de distinción de los detalles).
Así se presenta provisionalmente la perspectiva auditiva, con un doble aspecto parecido al de la
perspectiva visual: a la vez perspectiva jerárquica vinculada con la potencia de las fuentes (y no a la
ocupación espacial) y perspectiva de profundidad, regulada por los alejamientos. Un objeto sonoro
muy cercano, de tamaño imponente, puede quedar casi silencioso, mientras que un objeto lejano, que
ocupe poco espacio puede resultar muy sonoro. Silencio, fondo de aire, sonidos lejanos y poco
definidos pequeños ruidos ligeros, ambiente sostenido, algarabía, barullo, etc… constituyen igual
número de representaciones subjetivas de la potencia, pero son indicaciones muy relativas,
fuertemente modificables por la proximidad o la lejanía. ¡Y sin embargo! ¡Un camión que se aleja
no se convierte en una camioneta, ni siquiera en un camioncito! Sucede que la puesta en el espacio –
y para esto, dos oídos y un cerebro no están de más – restablece la masa original de un sonido, le
confiere su peso verdadero, al mismo tiempo que su proveniencia exacta, a pesar de las fluctuación
de la imagen recibida.
Estamos tan habituados a estabilizar el mundo auditivo, a objetivarlo, de cualquier manera, que
olvidamos con agrado lo siguiente: cada emplazamiento de escucha es un punto de mezcla que
recibe las diferentes vibraciones aéreas para mezclarlas por orden de intensidad relativa, aún cuando,
algunas veces, nos vemos obligados a apartarnos para escapar de un ruido molesto (chorro de agua,
motor, martillo neumático), para atenuar el sonido demasiado intenso que fatiga al oído y arruina la
escucha inteligente. Instintivamente, sin conocerla siquiera, ponemos en juego la ley de 1/d 2 que, en
algunos metros solamente, reduce el sonido molesto en una decena de decibeles.
En realidad, el mundo auditivo se vuelve silencio únicamente debido a la pérdida aérea de las
vibraciones, es decir, por la disminución que resulta del alejamiento. Es la disipación que
observamos ya en los bombillos eléctricos que, en la oscuridad de la noche, no alumbran casi
algunos metros más allá4. Esta constatación es amplificada por el efecto de máscara propio de la
audición, un efecto que pone a competir los sonidos en el plano de inteligibilidad, a pesar del
desenmascaramiento biaural (BMLD) anteriormente citado: algunos sonidos se escapan o emergen
súbitamente, sin vínculo evidente con la distancia, pero en relación directa con el medio circundante
4
¡Pero ningún foco sonoro puede compararse con el sol como fuente de energía! ¿Cuántos terawatts ? No sabría
decir. Cuando se sabe la energía acústica de un avión al despegar (30kW) o la del piano (0,3 watt)…
5
inmediato, más o menos enmascarador.5 Con el micrófono, a falta de desenmascaramiento biaural
(BMLD), la competencia entre los sonidos va aumentar terriblemente, y eso hace que el punto de
captación (espacial, temporal) sea aún más decisivo.
c/ El oído
Las diferencias de captación (entre el oído izquierdo y el derecho) son importantes. La cabeza le
hace sombra a las frecuencias agudas (diferencia de intensidad según el ángulo de llegada), mientras
que introduce para las graves un retraso (diferencia de tiempo, según la distancia). Solamente un
fuente colocada justo delante anula las diferencias izquierda/derecha. Por otra parte, los numerosos
repliegues del caracol externo efectúan un "filtrado en forma de peine” (de 3 a 15 kHz), que varía
con la proveniencia de las fuentes6. Los pequeños ruidos secos, ricos en agudos, también son muy
fácilmente localizables. Además, el conducto auditivo acentúa - como un conducto resonante - las
frecuencias cercanas a 2,5 kHz7. El conjunto de estas disposiciones se conoce bajo el nombre de
“funciones de transferencia relativas a la cabeza" /HRTF, head related transferí functions).
Por ende, gracias a estas diferencias de captura, el cerebro puede reconstituir el espacio sonoro que
está a su alrededor. ¡Pero este espacio, irregularmente e intermitentemente habitado, es mucho
menos preciso y menos definido que el espacio visual continuamente disponible mientras dure la
luz! ¡Qué decir de los vacíos auditivos, de los largos silencios o de los sonidos breves, separados por
largos intervalos mudos! Sin embargo, el sonido dinámico se expresa en diez octavas, de ppp a fff
(contraste promedio: 1 a 20000), mientras que el objeto visual iluminado se expresa solamente por
su albedo coloreado (contraste máximo de 1 a 20). Consecuencias: el camarógrafo ajusta su
diafragma y ya no lo toca más durante la toma; el ingeniero de sonido, por el contrario, vigila
constantemente sus niveles y hace uso del potenciómetro para evitar cualquier submodulación o
sobremodulación con la ayuda del perchista, quien acerca o aleja su micrófono.
De hecho, el aparato auditivo actúa de la misma manera: la cadena de huesecillos interviene para
elevar un nivel demasiado bajo (aguzar el oído) o para proteger de los estampidos sonoros las
frágiles células del oído interno. El sistema actúa como un compresor limitador de un tamiz de
seguridad que filtra las crestas de los estímulos. Las vibraciones pueden entonces ser recibidas por el
caracol coclear para luego ser extendidas sobre la membrana basilar y traducidas inmediatamente en
un impulso nervioso.
Las vibraciones que entran se propagan haciendo un travelling de onda sobre esta membrana de 32
mm de largo que tiene asombrosas propiedades mecánicas: flexible y pesada en su extremo libre, es
por el contrario, ligera y rígida en la unión. Según la teoría que se admite normalmente, las
diferentes frecuencias se encuentran también extendidas a todo lo largo, en una sucesión de
resonancias localizadas. Cada frecuencia viene a ocupar su posición en un lugar fijo, efectuando una
tonotipia (tonos, tono, topos, lugar): así que no es el espacio el cual se extiende sobre la membrana
sino más bien la altura de los sonidos. 3500 células especializadas (provistas de cilios vibrátiles),
efectúan punto tras punto, la traducción eléctrica de la intensidad.
Observar: esta transducción no es linear, sino logarítmica.
5
De ahí esta disparidad que se siente a veces entre el ver y el escuchar : un espacio aparentemente inmóvil (las
fuentes puedes estar ocultas a la vista)’puede dar lugar a veces a un paisaje sonoro intenso, que incluso cambie
continuamente…
6
Los pliegues del oído externo provocan interferencias constructivas y destructivas (filtrado en peine) que varían
según la procedencia de los agudos.
7
Este conducto parecería adaptado para captar desde lejos el llanto del bebé, cuyas frecuencias vocales son
particularmente fuertes, incluso a buena distancia…
6
La misma comprime las frecuencias en octavas y las intensidades en sonías. Además, la captación
facilita el alto medio y el bajo agudo (de 800Hz a 4000Hz) en detrimento de los graves (sobretodo
los niveles débiles, como lo muestran las curvas llamadas isosónicas). De esta manera, un camión
que se aleja por la carretera se debilita en su intensidad al cambiar de timbre: pierde netamente los
bajos y los agudos extremos (el timbre se encoge por los extremos del espectro). A una buena
distancia, solamente subsisten las frecuencias medianas. También se entiende como alejamiento la
decoloración de la imagen de referencia.
Además, la membrana del oído interno, al deformarse localmente bajo la influencia de un sonido
intenso, tiende a ignorar otras vibraciones menos intensas y, al mismo tiempo, escondidas y
absorbidas por la deformación principal, por falta de una suficiente selectividad. El efecto de
máscara borra de esta forma los sonidos débiles o medios, ubicados inmediatamente encima del
sonido fuerte. Debido a esto, tenemos la siguiente paradoja: ¡mientras más fuerte es un sonido,
menos cosas hay que oír! Por consiguiente, la audibilidad de cada oído solamente se apoya en la
envoltura dinámica instantánea que resulta de la onda propagada por la membrana: jamás
escuchamos el espectro objetivo de una fuente con todos sus armónicos (el timbre entero), sino
solamente el conjunto de armónicos emergentes, no enmascarados 8 (es decir, el timbre aparente, el
que nos importa)
En total, las setenta mil fibras del nervio auditivo (en lugar de las seis millones del nervio óptico)
conducen las señales nerviosas hacia el córtex. Si lo sonoro representa algo, aunque sea
aproximadamente, se debe obligatoriamente a que toma un poco de tiempo (sobre un modo
secuencia) y no instantáneamente (sobre un modo masivamente paralelo) como en la visión, mejor
equipada de este punto de vista.
d/ La percepción
Diferentes “módulos” retoman el tratamiento auditivo en el plano neuronal. Tres grandes funciones
parecen ser necesarias antes de efectuar cualquier identificación de las fuentes sonoras.
1/ La externalización: los sonidos son vueltos a situar en su lugar exacto, en el campo objeto
circundante (en distancia y en dirección). ¡Sin esta externalización, el sonido se quedaría pegado a
los tímpanos, como una sensación táctil! En realidad, las diferencias interaurales de intensidad y de
tiempo son transformadas en espacio concreto de localización y de acción. Y como el espacio
auditivo permanece estable, cualesquiera que sean los movimientos de la cabeza, todo indica que los
movimientos corporales son tomados en cuenta para compensar las fluctuaciones (∆i, ∆t) provocadas
por la reorientación de la cabeza y el cuello.
2/ La fusión y la fisión: los sonidos inicialmente mezclados sobre las membranas cocleares se
dividen en grupos et se separan para formar entidades diferenciadas, fuentes localizadas,
intermitentes o continuas. En cada una de ellas, sin embargo, los instantes sucesivos se agrupan para
formar un flujo (un continuum temporal). La fisión separa los sonidos (espacialmente) mientras que
la fusión los reúne (temporalmente) en un perfil unificado. Y esto más claramente en la medida en
que la atención esté preparada para ello. Pensamos en las teorías de la forma (Gestalt-theorie), pero
aplicadas en este caso a la audición.
3/ La extracción de los índices auditivos: para identificar y reconocer un sonido, tenemos que poder
extraer determinados rasgos pertinentes y significativos. Algunos tienen que ver con la envoltura
8
Los compositores, los mezcladores, juegan constantemente con el efecto de máscara. Y también las industrias
electroacústicas, que también comprimen los datos (ATRAC, MPEG) acogiéndose al mismo principio.
7
temporal (perfil de ataque o de extinción, amplitud, velocidad, duración); otros atañen al contenido
espectral (densidad, altura y posición de los formantes, fluctuaciones del espectro). Sin embargo, el
mundo real no es directamente audible como tal. Se refleja en la consciencia en forma de qualia,
especie de sensaciones elementales cuya agrupación combinada culmina en la figura auditiva, que es
a la vez imagen (por sus qualias combinadas) y objeto (por su reproyección exacta en el espacio
tiempo). De esta manera, la masa, el perfil, la altura, el grano, el timbre –criterios schaeferianos 9–
parecen pertenecer al objeto espacializado, ¡cuando no son más que las transcripciones fenomenales
de las vibraciones que llegaron a los tímpanos!
En otras palabras, el cerebro construye internamente sensaciones que se perciben externamente, en el
lugar exacto de la fuente emisora. Sin embargo, estas transcripciones parecen ser más bien robustas
y bastante bien conectadas con las propiedades mecanoacústicas del objeto sonoro: percusiones,
frotamientos, oscilaciones, resonancias.
Según las neurociencias, hoy resulta que la extracción de los índices proviene de dos tipos de
funciones complementarias: una ausculta el perfil temporal, otra el timbre. Esta dualidad
“contorno-materia” nos recuerda la antigua distinción "morphê-hulê” que gustaba tanto a los
filósofos antiguos. Más claramente, el cortex motor examina el perfil dinámico, la masa temporal
evolutiva y la energía que está en juego, mientras que el cortex auditivo se interesa en el timbre, en
el grano, en el color y en la ubicación de los sonidos.
Existe un origen en este doble recorrido: todos los sonidos que producimos – y que escuchamos,
ipso facto – están conectados con nuestra actividad motora: el andar, el esfuerzo muscular, la
manipulación de las herramientas y, naturalmente, la voz, el grito, el suspiro.
El gesto normal y familiar y el sonido que éste produce se conocen, sin que se movilice el menor
gasto consciente. Se pueden ajustar el uno al otro en una especie de preconsciente, sin que les
prestemos demasiada atención. En otras palabras, el cortex premotor prepara - silenciosamente- los
actos deseados mientras que el cortex auditivo escucha el resultado -discretamente- y ajusta -es una
rutina- la intención motora. Igualmente, el oído y la voz se conocen muy bien, pero interiormente,
sin que tampoco tengan que pasar por la consciencia. El perfil de esfuerzo (respiración,
articulaciones) y el perfil de intensidad (acentos, matices) se regulan mutuamente hasta obtener
–espontáneamente, diríamos nosotros– la entonación y el fraseado que buscamos, el alcance y la
altura que deseamos.
Si bien el tono, los acentos, el ritmo de una palabra son captados perfectamente por un auditor, esto
se debe, sobre todo, a que se corresponden con gestos vocales ya vividos y memorizados, es decir, a
perfiles de expresión ya probados en el momento de hablar. Una reciente teoría (TMPP o teoría
motora de la palabra percibida) enuncia que la percepción de la palabra no se debe buscar solamente
en la “superficie acústica" de las palabras, sino también en la estructura articulatoria subyacente. La
cadena hablada tiene, en efecto, una serie de pasos: desde el gesto intencional hasta la orden motora,
desde la orden motora hasta los desplazamientos de articuladores (lengua, mandíbulas, labios), con
el resultado final que es una palabra. Entonces, para encontrar los gestos intencionales à partir de
cómo se profiere, tenemos que recorrer el camino inverso, es decir, hacer que dependa la resonancia
vocal tanto del cortes premotor, memento-agenda de gestos vocales ya probados, de articulaciones
intencionales aprendidas, y del cortex auditivo, repertorio de sílabas y vocalizaciones familiares10.
9
Pierre Schaeffer fue, junto con Pierre Henry, el iniciador de la música concreta, justo después de la segunda guerra
mundial. Entre otras cosas, teorizó y clasificó los componentes internos de los objetos sonoros, que se conocían mal
hasta entonces.
10
Para la TMMP, porque cada auditor es también un locutor, al que le es posible encontrar a través de la superficie
acústica, la estructura articulatoria subyacente. El análisis de los sonidos (y de los movimientos que los causan)
descansa entonces en el conocimiento implícito de las reglas motoras que organizan los gestos. Según Jean Decety,
8
Lo mismo sucede con todos los sonidos que emanan de la actividad corporal, y más precisamente, de
aquellos que emanan de las prácticas consolidadas: doblemente memorizados, sensoriales y motores
a la vez, estos sonidos no sufren la menor aproximación de timbre o de interpretación porque
cualquier fórmula acústica inexacta o artificial se vería confrontada con la precisión que resulta de la
memoria corporal del movimiento, a la cual se vincula la precisión y la verdad de nuestros actos, ya
sean voluntarios o involuntarios. Esto me hace pensar en lo que dijo Daniel Deshays con respecto a
Alain Cavalier: el cineasta fue a buscar a personas del oficio (carniceros y fotógrafos reclutados por
la ANPE) para que actuaran en su película Libera Me, probablemente para ser lo más preciso posible
tanto a nivel de la imagen como de los sonidos.
Podríamos sugerir entonces otra forma de clasificar los sonidos : están aquellos –muy precisos- que
entran en la experiencia sensomotora (táctil, manual, muscular) ; los –menos evidentes- que están en
relación con las fuentes vistas y escuchadas, pero sin un eco particular en una práctica; otros que
solamente nos remiten a una experiencia auditiva (sonidos nocturnos o inaccesibles à la vista); y,
finalmente, esos que –inauditos o desconocidos– reclaman una imaginación basada en la asociación
o en el parecido.
Una vez identificados, los índices auditivos -acústicos y/o motores- nos presentan necesariamente
una representación ya categorizada en la "pictorización" de los sonidos vinculados a una imagen. Lo
ya conocido se repite en lo percibido, en una especie de atajo rápido con uso de explicación
inmediata. Sin embargo, tenemos que llegar más lejos que a la simple identificación genérica, el
esquema-tipo. La imagen genérica (un avión, un perro, una manifestación) resulta insuficiente para
establecer la cadena causal, para definir el objeto en su singularidad11. Hay que precisar, completar,
dilucidar. Es en este momento que la visión releva a la audición mediante ajustes sucesivos de la
mirada o incluso desde la primera ojeada, si la convergencia de las informaciones es lo
suficientemente fuerte.
e/ La atención
El oído tiene esta facultad original de proteger al ser vivo, de acechar las modificaciones ínfimas del
dato sonoro –silencio o ruido súbito, pasos sobre las hojas, paso suspendido y luego reiniciado-
aunque solo fuera para “refrescar” la memoria espacial inmediata (la presencia de uno en el mundo)
o seguir haciendo la pregunta vital - ¿Qué? ¿Quién? -, lo que evita, por ejemplo, que nos arrollen al
cruzar una calle. La escucha “protectora” desencadena una reacción de orientación en dirección al
intruso auditivo, con el fin de ver y escuchar con más claridad la fuente/objeto que surge,
Si tomamos esto en consideración, dicha actividad involuntaria, casi automática, no impide en modo
alguno que otras facultades auditivas funciones en el nivel más central de la actividad consciente y
preconsciente. El comportamiento humano perdería, en efecto, toda coherencia si tuviera que
vincularse, como una veleta o un gorrión trémulo, a una sucesión imprevisible de señales externas en
un encadenamiento sin fin de reorientaciones reflejas obligadas.
investigador de las neurociencias, « una misma red neuronal (en el córtex premotor) se activa cuando veo a otro
actuar, cuando imagino esa acción y cuando yo mismo actúo.” [cf. « Mouvement réel, mouvement imaginé »
(Movimiento real, movimiento imaginado) en Science & Vie N°204, septiembre 1998]. Son las famosas « neuronas
espejos » desencadenadoras de inferencias.
11
El paso del significante (conjunto de qualias) al significado (representación genérica) depende obligatoriamente de
las experiencias, del hábito, de la práctica social de cada cual. De ahí esta diversidad, tantas veces observada, de la
escucha de los espectadores: algunos sonidos quedan sin ser entendidos, otros desencadenan recuerdos, afectos.
9
La atención auditiva prefiere escoger, concentrar su potencia iluminadora sobre tal o cual sector del
espacio, para aislar mejor el objeto escuchado. Un orador, música a lo lejos, un pequeño ruido
insólito, unos pasos conocidos que se acercan. La escucha voluntaria selecciona su blanco,
aumentándole su nitidez con una presencia aumentada. Análogamente, los demás sectores están
como relegados a ser sonidos de ambiente, que alisados, nivelados en su dinámica, parecen menos
presentes.
La consciencia atencional, al asignarse un sonido que debe escuchar, se alza sobre la percepción
direccional: el punto de escucha está mentalmente centrado, mientras que el ambiente se pone
provisionalmente fuera de cualquier intención localizadora.
Por lo demás, no podemos escuchar más de una cosa a la vez. La escucha inteligente (IDL), como la
mirada, solamente se puede aplicar a un sector limitado del espacio –unos cuarenta grados como
máximo- porque es imposible cubrir con atención iluminadora los 360º que nos rodean. De ahí, esta
focalización permanentemente cambiante, ese equilibrio que siempre se rehace entre la zona de
escucha, sobreescuchada, y la zona ambiente, subescuchada.
El mundo auditivo es, por consiguiente, una « presencia variable », y jamás hay realismo sonoro en
lo absoluto. El punto de escucha cambia, pasa de un objeto a otro, se inmoviliza en diagonal, regresa
al mismo.12
Efectivamente, la atención toma en consideración los elementos que necesita para dirigir la
comprensión de los elementos : valoriza un emplazamiento (aumento de la vigilancia sobre un
elemento provisionalmente tranquilo o silencioso), eleva la presencia de una fuente para examinarla
en todos sus detalles (incremento de la nitidez) ; atenúa un sonido auditivamente molesto
(disminución parcial del efecto de máscara), olvida de forma duradera un ruido que se estima que es
poco pertinente; vigila en diagonal un elemento que pasa a ser secundario momentáneamente.
Implícitamente, percibimos aquí lo que serán los esfuerzos del perchista por imitar los movimientos
de la atención (siendo a la vez “cazador de mariposas y calígrafo”).
Es así como un hecho auditivo discreto, de poca intensidad, puede tomar un valor de señal, aunque
sea poco destacado (perceptiblemente). Un sonido cualquiera, rico en percutantes inútilmente
repetidos puede, por el contrario, arruinar la escucha (efecto de máscara) hasta la irritación.
Podemos oponernos a un hecho sonoro menos agresivo e incluso ignorarlo, aunque siga existiendo
en términos de intensidad o de ocupación espectral. Un sonido diagonal, que anuncia hechos
importantes (sonido precursor), puede atraer la atención y relajar el elemento principal que, sin
embargo, acabamos de centrar. Una palabra importante, perturbada por un ambiente ruidoso o un
ruido pasajero, puede por el contrario hacerle resistencia a las interferencias (escucha forzada).
Finalmente, no se presta atención a determinados elementos sonoros (sordera intencional), mientras

que otros disfrutan de una audibilidad aumentada (agudeza de la focalización). Será en la mezcla,
con el movimiento de los potenciómetros 13, que habrá que estimular esas diferentes presencias,
12
Varios flujos auditivos pueden coexistir en una misma escena auditiva, sin que la focalización sobre uno de ellos
altere la calidad auditiva de los demás. Unos filtros atencionales (filtros en forma de peine multibandas) elevan
(hasta 18 dB) la presencia del blanco adaptándose à sus formantes acústicos. Pero este filtrado supraauditivo deja
intactas las apariencias sonoras, solo modifica la “presencia en sí” de las cosas.
13
Contrariamente a la edición-cut (muy rápida) de las imágenes, la mezcla monofónica ilustra bastante mal los datos
auditivos debido a las finalidades opuestas existentes en el plano de las velocidades : como simulación de una escena
real, se prohíbe el movimiento rápido y artificial de los niveles, se obliga a respetar las variaciones naturales de los
flujos auditivos; como simulación de la escucha atenta de un auditor, se fuerza a los movimientos instantáneos del
10
ponerlas en perspectiva y en movimiento, por poco que hayan sido preparadas durante la toma del
sonido.
Los operadores mentales (suprauditivos) entran en juego entonces con su área de competencia
específica: lingüística/pragmática para la palabra, sonidista para el medio circundante, musical para
el concierto. De esta manera, es posible reconstituir los elementos que faltan en una frase pertur...
por el ruido ba... o por una articulat... insuf…: es la restauración fonémica. O escuchar más bien la
entonación vocal, el fraseado o detectar así las intenciones ocultas de los que hablan. O reconocer
una forma de caminar que nos resulta familiar. O incluso seguir una línea instrumental en un
cuarteto instrumental. Al hacer esto, la atención moviliza gran número de recursos mentales, dado
que trata también de dilucidar el contexto, de entender la acción incesantemente renovada de las
causas y de las consecuencias.
f/ La intencionalidad y la memoria
Antaño (hace mucho tiempo : la ORTF vivía todavía) existía un programa donde los que tomaban el
sonido podían hacer escuchar en la radio las grabaciones de paisajes sonoros, de músicas en vivo o
de actividades colectivas que habían atrapado en una cinta magnética con su grabadora (del tipo
Usher estéreo). Se les llamaba “cazadores de sonido”. ¿Será porque un cazador al acecho le presta
atención a todo, más allá de las instrucciones que tiene, o es gracias al silencio que se impone?
¿Será porque la presa no es fácil de agarrar? No sabría decir.
Por el contrario, lo que sí es seguro, es que la escucha proviene de lo intencional dado que depende
de los conocimientos que se tienen sobre la situación o que se les prestan a las personas, o incluso de
las instrucciones que tenemos. Las investigaciones que se realizan actualmente en psicología le
conceden extrema importancia al “set” o preparación contextual, que parece orientar los
movimientos de la atención en función de la situación.
Cada contexto hace escuchar sonidos habituales y conocidos, ruidos anodinos, un ambiente
específico. Para no ceder ante la curiosidad, el auditor normal, que no es un cazador de sonidos,
recluta cierto número de imágenes previsibles que van a filtrar –inhibir – la atracción refleja. Estos
contra-calcos (perfiles, timbres, formantes) que provienen de la memoria auditiva, se insertan en la
cadena atencional, evitando cualquier distracción y eliminando las sorpresas inútiles.
En cambio, algunos sonidos – acechados o esperados – se instalan en forma de calcos en un

horizonte de espera: solamente serán fácilmente detectados en el fondo sonoro, seleccionados más
rápidamente. Al adaptarse a los datos y al contexto, el “preset" mental nos ayuda a atrapar la
información pertinente, a detectarla rápidamente. Incluso se cree, algunas veces, que estamos
escuchando determinados sonidos, de tantos deseos que tenemos de que lleguen.
Sin embargo, estos calcos y contracalcos no impiden en modo alguno la captura de los sonidos
improbables o inesperados. La actividad refleja puede entonces reanudar momentáneamente su
papel de vigilante omnidireccional del territorio en la medida en que el elemento imprevisto no
podría ser ignorado, aunque solo fuera para tomarnos el tiempo de identificarlo.
Pienso que estamos entreviendo en esto el poder la banda sonora en una película: el de crear la
espera (vemos llegar las cosas) al mismo que propone sorpresas (surgen del off y el in). El poder de
mantener la tensión interna del relato, de hacer vivir al espectador un recorrido interior debido a que
zapping auditivo, y tiende a imitarlos con ágiles cambios de niveles. Los movimientos de potenciómetros existen,
pero se disimulan o se codifican en un compromiso : un “acelerado” aceptable para la percepción, una “cámara
lenta” admisible para la atención.
11
se ponen en juego permanentemente lo previsto y lo imprevisto, una actividad sin la cual, el
aburrimiento y el adormecimiento del pensamiento ganarían terreno probablemente.
La preparación afectiva desempeña un papel comparable: algunos sonidos considerados irritantes o
peligrosos son rechazados o, por el contrario, sobredimensionados en una presencia insistente,
temible. Otros, agradables o deseables, se ven embellecidos e incluso acogidos en lo más profundo
de la imaginación. En resumen, el auditor común, al igual que el espectador, interactúan
continuamente al hacer la edición de sus percepciones externas y sus expectativas internas.
Semejante ida y vuelta dirige en tiempo real la focalización.
Evidentemente, resulta imposible representar una situación sonora de un solo golpe,

Instantáneamente. Cada instante remite, en efecto, a los datos anteriores, perfilándose en los datos
siguientes, llevando el sentido en un despliegue sin fin. El conjunto de los índices extraídos y
reconocidos viene a confirmar o a cuestionar algunos aspectos ya anticipados, abriendo nuevas fases
previsibles, nuevos postulados. La comprensión progresa de esta forma mediante la acumulación de
actos perceptivos puntuales, el amontonamiento. En todo momento, la escena sonora se construye
conservando el rastro de los perfiles pasados y adelantando el bosquejo de los perfiles futuros. Pero
el rastro se borra, y el bosquejo sigue siendo incierto. Es por ello que cada secuencia de una película
necesita algo más que una simple captación pasiva (de tipo reportaje) bastante aleatoria en lo que a
elementos salientes y entrantes se refiere. Daniel Deshays hablaría más bien de una recomposición
activa, en varias capas, de hechos temporales que alargamos o encogemos deliberadamente.
Igualmente, la percepción de la banda sonora aparece como un proceso inferencial 14, como una
sucesión de huellas también que persisten en la sobreimpresión, suspendidas como filigranas. Por
consiguiente, no hay representaciones definitivamente fijas - unívocas - en el mundo inestable de los
hechos auditivos. Numerosas conexiones se hacen y se deshacen en la memoria, siguiendo las
modulaciones del flujo sonoro, pero también las modificaciones del campo visual. Evidentemente,
corresponde a la edición y a la puesta en escena organizarlas, suscitarlas.
Cualquier figura auditiva – por imprecisa que sea – se aferra a un flujo preciso, vinculándose con un
repertorio conocido de hechos más o menos largos, que tienen su duración propia. Si bien la figura
visual se puede contentar con la inmovilidad, con un “tiempo cero” (¡como en la fotografía!), la
figura sonora no soporta lo acelerado ni lo lento, ni un hiato temporal. Esta se acomoda
perfectamente a un “espacio cero”, unidimensional (¡como en mono!)
El sonido intermitente, mediante anclajes esporádicos o duraderos en la imagen, mediante

contaminaciones energéticas rítmicas, viene a completar de esta manera las inferencias visuales o a
lanzarlas de nuevo en otras tensiones, otros postulados. Pienso en la escena de la reverberación,
medida con la pistola en La Ville Louvre, de Nicolas Philibert: el ritmo de las detonaciones
sucesivas, sala tras sala, acaba por alargar el tiempo reverberado más allá de lo posible, hasta
encontrar la idea de un tiempo que viene hasta nosotros, el tiempo de las civilizaciones
desaparecidas, pero aún fijadas en la piedra de los colosos faraónicos.
Se apunta e interpreta el instante presente solamente a través de lo que ya no está o de lo que no está
todavía. La edición tiene ese poder de inventar o escribir implicaciones, de hacer que encontremos
14
Inferir : imaginar lo que viene, alargar el presente actual vinculándolo con las causas pasadas y con las
consecuencias futuras.
12
casi instantáneamente elementos subterráneamente vinculados, pero normalmente separados en el
tiempo, diseminados en el espacio. Siendo así, en la vida como en el cine, la memoria auditiva se
mantiene porosa: rastros, bosquejos y filigranas - por numerosos que sean - no todos tienen el
mismo peso, la misma duración de vida. Las filigranas son más o menos insistentes, más o menos
redibujadas, los bosquejos se dibujan de diversas maneras.
g/ El deseo y la acción
Es debido al deseo (el deseo de ver o escuchar, de que le guste o de comprender, de identificarse o
de diferenciarse) que el espectador se instala en un documental. El tema de la película le interesa, no
es un puro divertimento, una evasión. Todos sienten curiosidad por la forma en que el cineasta hará
las cosas: su grado de invención, la calidad de su guión, de su dirección de espectador. El impulso de
ver se mezcla con el impulso de saber. Uno se reconoce en los personajes o las situaciones que, sin
que sean forzosamente las nuestras, nos conciernen directa o indirectamente. Nos proyectamos con
sus afectos, compartimos las alegrías y sufrimientos de los personajes, nos preguntamos cuáles son
las causas y los remedios de las situaciones. Como las emociones, lo que está en juego nos moviliza.
Por lo tanto, se convoca a la memoria durante toda la proyección (52 minutos o más) para un tiempo
recompuesto, apretado, intensificado, emocionante. En efecto, todo se comunica en esta memoria a
corto plazo: los personajes, las situaciones, los conflictos. Cada cual puede hacer su propia edición,
mantener deleite o irritación, dejarse llevar por el flujo de las informaciones y las emociones.
Surgen algunas ideas, otras se desvanecen o se transforman. Nos gustan o las detestamos. Se forman
hipótesis, se filtra, se evalúa. Se retiene, se finge olvidar. O recordamos demasiado bien. Sucede
que la emoción polariza el campo de la consciencia sobre el objeto que nos preocupa, consciente o
inconscientemente, como para dibujarle mejor una trayectoria, una repercusión.
Y entonces qué tiene que hacer el espectador durante la proyección como no sea construir un guión
interior, alternando las imágenes visuales y auditivas de la pantalla con las del mundo mental, más
volátiles y más tenaces… ¿Trazar líneas conductoras? ¿Errar en sus recuerdos? ¿Aferrarse a la
película ? Las insistencias de la memoria, las nieblas del olvido, las faltas de atención, tal vez no
estén todas manejadas desde el inconsciente freudiano o pilotadas por el preconsciente
(cognoscitivo, memorial), pero es seguro es que el espectador viaja en la película con un doble
guión: el de los datos externos, los arreglos de edición, las correspondencias propuestas entre las
imágenes visuales y las imágenes auditivas; el de las reminiscencias internas, de las asociaciones
espontáneas, de los razonamientos interiores. Un doble guión que une u opone el subtexto de la
película a la vasta pantalla de la memoria y de los olvidos, de las adhesiones y los rechazos.
En el fondo, existe como un duelo siempre posible entre espectador y cineasta con respecto al tema
tratado por la película. Si la película va en contra de las ideas difundidas (previamente idealizadas
como verdades comunes), el cineasta se expone quizás a las reacciones de defensa del yo, al cual no
le gusta mucho reconsiderar sus presuposiciones en la medida en que éstas sostienen un ego
generalmente frágil, que asegura un apuntalamiento provisional al muy delicado y exquisito trío de
creencia/saber/ ignorancia (trío que es nuestro premio). La puesta en escena puede tratar de
disimular su discurso acogiendo tras él el de los personajes que llevarían entonces a cabo sus
acciones, plano tras plano, como si no hubiera ni filmación, ni edición, en una especie de
transparencia negativa. A menos que le proponga al espectador que se abra a la inteligencia del
mundo, tratando de buscarlo allí donde se encuentra, sin precipitarlo, pero desestabilizándolo a pesar
de todo, lo cual no parece tan fácil.
13
Para terminar este recorrido a través de la audición, desearía concluir con una afirmación que puede
sorprender: ¡nadie oye jamás exactamente los sonidos que produce! En efecto, la actividad motora
modifica grandemente la percepción que tenemos de los sonidos que se obtienen al movernos,
trabajar, hablar, caminar, etc... Un carpintero no oye exactamente el impacto del martillo sobre los
clavos; a un operario no lo molesta el ruido de su taladro; un automovilista no se sobresalta cuando
toca el klaxon; una persona apurada no escucha el ruido que hace al correr sobre un piso sonoro, etc.
Los neurobiólogos tienen una explicación para ello: cada vez que un gesto deseado va a producir un
sonido molesto (choque, estruendo, chirrido, caída...), el cortex premotor le envía automáticamente -
sin una voluntad particular - una copia de la envoltura biodinámica de este gesto al cortex auditivo.
Dicha copia se traduce inmediatamente en envoltura acústica (perfil energético/temporal del sonido).
Esta envoltura es la que, como un contracalco sustractivo, se interpone para atenuar o redondear lo
que el oído va a captar. El estallido sonoro se ensordece de alguna manera preventivamente, aún
cuando el sonido se emite ligero diferido, en la consecuencia de un acto (por ejemplo, al tirar una
puerta), el impacto esperado es igualmente contracalcado, sobre la base de experiencias anteriores o
recientes. De esta manera, el sonido que se escucha se encuentra sensiblemente aplastado o
amortiguado por la intención, un poco como si estuviera relegado fuera del campo de la atención.
Esto no sucede sin tener consecuencias, particularmente cuando se trabaja sobre el sonido que se está
haciendo o que ya está hecho.
Volvamos a la práctica del documental.
Cuando la imagen dice “¡Corten!”, el sonido tiene ganas de decir “no he terminado, seguimos”…
Hay como un conflicto de intención entre la imagen que tiene su principio y su final, y el sonido que
tiene otro principio, otro final, porque la persona encargada de hacer la toma de sonido trabaja a la
vez fuera de campo, con la duración propia de los elementos sonoros que no se puede cortar debido a
su utilidad para la edición.
Cuando un “actor de la realidad”, le habla al cineasta, ¿escucha verdaderamente el sonido de su voz,

o más bien sus intenciones, o solamente el texto que quiere hacer llegar? ¿En qué momento puede
hacer la síntesis de los tres, encontrar el tono justo, las palabras exactas? ¿Cómo mostrar las
verdaderas intenciones, acceder al flagrante delito de la sinceridad?
Cuando el ingeniero de sonido vuelve a escuchar (con el casco) la toma de sonido que acaba de
hacer con la percha (sin casco), ¿cuáles son las instrucciones que va a seguir para evaluar la
precisión de los sonidos grabados? La voz está tan cercana al cerebro que todo se entiende en
términos de lo que se entrega, de intenciones bien o mal interpretadas, demasiado subrayadas o
dadas apenas. Asimismo, la calidad estética de los materiales (percusiones, frotamientos, formantes
y resonancias) entra en juego no solo para subrayar y aclarar la causa o la consecuencia de las
energías en movimiento (la escucha causal en la cual encerramos de tan buen grado el despliegue del
sonido), pero también para revelar sonidos emparentados, mundos ocultos, imágenes furtivas.
¿Cuando un pianista está tocando, escucha más bien sus intenciones (prefiguración de la expresión)
o escucha el sonido realmente emitido por el instrumento? ¿Se puede concentrar en el sonido del
piano sin perder el hilo promotor – siempre un poco anticipado y ampliado – de la expresión
musical? ¿No debe volverse a escuchar para saber lo que tocó efectivamente?
14
Cuando un editor de sonido tiene una idea (sonido off, detalle asociado, subrayado sonoro,
traslape…), escucha principalmente su idea o la mezcla sonora realmente obtenida? ¿Cómo evaluar
los sonidos en un tiempo reconstruido, recompuesto? ¿Solo se trata de designar o de subrayar lo
visible con lo audible? ¿Cómo conferirle ritmo a la edición horizontal (las correspondencias
instantáneas entre diferentes sonidos, directos o agregados, y la imagen) y también a la edición
vertical (la sucesión de imágenes auditivas dentro o fuera de la pantalla?
Cuando un ingeniero de sonido mezcla la película (escucha-análisis-procesamiento inmediato en el
potenciómetro), el trabajo en tiempo real lo obliga a compartir su atención entre los gestos de la
mezcla (presente perceptivo) y la puesta en escena (crear un continuum escénico que incluye un
presente muy alargado. ¿Puede controlar auditivamente lo que hace al preescuchar lo que tiene que
hacer todavía o al vincularlo con lo que acaba de ser hecho? Ciertamente, es trabajando con
pequeños retoques sucesivos, volviéndose a escuchar, que podrá afinar progresivamente el equilibrio
sonoro.
Sucede que la mezcla trabaja a escala de toda la secuencia, proponiéndole al espectador una
partición atencional, una estratificación figuras/fondo. Por una parte, seguimos claramente los
sonidos que se estiman importantes, tales como voces y efectos; por otra parte, se juega con el
ambiente, lo hacemos vivir, pero sin dejar que estas fluctuaciones sutiles sean notadas por el
espectador.15. Creamos un clima acústico circunstancial atenuándolo, simplificándolo,
frecuentemente por razones de inteligibilidad. Fondos de aire, ruidos adventicios y sonidos
pasajeros pueden no obstante mutar súbitamente y pasar a ser sonidos principales según las
necesidades de la puesta en escena. En todos los casos, el encargado de hacer la mezcla enfrenta el
interenmascaramiento, es decir: el delicado ajuste entre la aparición y la desaparición de los sonidos.
¡Los sonidos fuertes esconden los sonidos débiles (particularmente aquellos que están situados
inmediatamente encima de la escala de alturas), los percutantes cubren los sonidos tenues, la
reverberación entorpece la inteligibilidad! El que hace la mezcla – al igual que el compositor 16–
dispone, sin embargo, de varias defensas, a partir del momento en que podemos recurrir al
multipistas, resultado de la toma de sonido fraccionada. Puede ponderar los sonidos fuertes
(potenciómetros de mezcla), filtrar los formantes más energéticos de los sonidos enmascaradores
(correctores paramétricos), comprimir los percutantes de frente recto (compresor/limitador) y
atenuar de esta manera la máscara-reflejo17.
En este sentido, la distribución espectral de los sonidos sobre las diez octavas de la audición es
decisiva en la monofonía. ¡Un contrabajo no podría ocultar una flauta! Mientras que un ruido de
tráfico, un chorro de agua (ruido de banda ancha), ocultan todos los sonidos (“¡chuuu!”). Asimismo,
la selección de los timbres y de las alturas sonoras debería pensarse desde el rodaje, recordando que
15
La sobreimpresión múltiple e invisible (imposible para la imagen), es de facto el mayor artilugio del sonido,
mientras que el cut, el cambio de eje y de distancia (poco utilizado en el sonido por ser demasiado perturbador) es el
artilugio que organiza la banda de imagen.
16
Para mantener la pulsación rítmica audible, Maurice Ravel agrega una caja clara en medio de su Bolero ; Gustav
Malher, en sus sinfonías, hace hablar los clarinetes en el techo para tornarlos menos presentes. En cada instante, el
compositor decide el número de instrumentos, la densidad de los timbres y el matiz (ppp a fff) con el que se
expresan.
17
La máscara-reflejo aparece cuando se produce un sonido súbito. Guirigay, disparo, caída de un objeto, luego…
silencio. El oído, habituado al ruido ambiente, se sorprende: solo después de pasado un instante vuelve a encontrar el
fondo sonoro. Y este tiempo de recubrimiento (máscara-reflejo de algunas décimas de segundos, incluso más) es
más largo en la medida en que el sonido haya sido violento. Aquellos y aquellas que conocieron el disco de vinyl y
sus ralladuras sintieron la máscara-reflejo: con frecuencia había que resignarse a botar un disco demasiado dañado.
15
los sonidos percutivos intensos y de ancho espectro (martillo neumático, motoneta, camión, etc.) son
temibles para las voces (frecuencias medias). El escalonamiento de los planos sonoros es un medio
cómodo de facilitar el acomodamiento auditivo a tal o cual fuente, según su distancia y de
distinguirla entre otros sonidos simultáneos. Finalmente, siempre es posible mezclar sonidos
intermitentes (en puntilleos) con un sonido continuo: aquí estamos en una situación comparable à la
de una escena que se pudiera observar detrás de una o varias telas metálicas. Siempre que la malla
sea más ligera y el alambre no sea muy grueso, todavía habrá algo que ver del otro lado.
En total, parece que en la producción humana de los sonidos (voces, ruidos, instrumentos de música
e incluso mezcla), la interacción sensomotora modifica en gran medida la percepción auditiva,
mezclando la intención gestual y el resultado auditivo en el modo sustractivo cuando se trata de un
ruido molesto (no hay peor sordo que el que no quiere oír), y en el modo aditivo en el caso de los
sonidos deseados (efecto placebo : el sonido real es embellecido o arreglado por la intención)-
Sin lugar a dudas, los profesionales del sonido, habituados por la práctica a automatismos sólidos y
numerosos, son favorables a una escucha más lúcida, más detallada, liberada de las proyecciones
intencionalmente fáciles, de la confusión ingenua entre el querer y el obtener.
Queda que la obra debe pasar – maduramente intencionada, pero siempre posiblemente conflictual –
a través de varias personas, estirada y contenida, entre el control instrumental del que ejerce su oficio
y lo artístico del intérprete.
Entre la ciencia y el arte, entre la práctica y la estética, el diálogo no podría – no debería –

interrumpirse.
16

Oir, Escuchar, Actuar

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Oir, Escuchar, Actuar

Cargado por

Copyright:

Formatos disponibles

Oír, escuchar, actuar… por Claude Bailblé

Del micrófono al oído

Algo más complicado: la cadena auditiva …

Finalmente, no se presta atención a determinados elementos sonoros (sordera intencional), mientras

En cambio, algunos sonidos – acechados o esperados – se instalan en forma de calcos en un

Evidentemente, resulta imposible representar una situación sonora de un solo golpe,

El sonido intermitente, mediante anclajes esporádicos o duraderos en la imagen, mediante

Volvamos a la práctica del documental.

Cuando un “actor de la realidad”, le habla al cineasta, ¿escucha verdaderamente el sonido de su voz,

Entre la ciencia y el arte, entre la práctica y la estética, el diálogo no podría – no debería –

También podría gustarte