Bregman

UNIVERSIDAD NACIONAL DE QUILMES
CARRERA DE COMPOSICION CON MEDIOS ELECTROACUSTICOS
Bregman, Albert S. Auditory scene analysis: the perceptive

organization of sound
MIT Press, USA, 1994
Traducción parcial de Oscar Pablo Di Liscia, para uso en la

Cátedra de Composición con Medios Electroacústicos.
Capítulo 8
Resumen y conclusiones: qué sabemos y qué no sabemos acerca

del análisis de la escena auditiva.
1)Análisis primitivo de la escena de audición.
El problema del análisis de la escena es éste: a pesar de

que necesitamos construir descripciones mentales separadas
de los diferentes eventos productores de sonido en nuestros
entornos, el patrón de energía acústica que es recibido por
nuestros oídos es una mezcla de los efectos de los
diferentes eventos. Parece que nuestro sistema auditivo
resuelve el problema de dos maneras: por el uso de procesos
primitivos de agrupamiento de audición, y gobernando el
proceso de audición a través de esquemas que incorporan
nuestro conocimiento de sonidos familiares. Este libro ha
tratado principalmente los procesos primitivos, a pesar de
que se ha intentado descubrir si los efectos de los dos
tipos de procesos pueden distinguirse el uno del otro.
Comenzaré este resumen hablando de los procesos primitivos.
El proceso primitivo de análisis de la escena parece

emplear la estrategia de dividir un vector de energía de
entrada en un gran número de análisis separados. Estos
pertenecen a momentos particulares y a regiones de
frecuencias particulares del espectro acústico. Cada región
se describe en términos de su intensidad, su patrón de
fluctuación, la dirección de las transiciones de
frecuencias en él, una estimación de dónde el sonido viene
en el espacio, y quizá otros rasgos. Luego de que estos
numerosos análisis individuales se han hecho, el sistema
auditivo tiene el problema de decidir cómo agruparlos de
manera tal en que cada grupo haya sido derivado del mismo
evento del entorno. El agrupamiento ha de ser realizado en
dos dimensiones, al menos: a lo largo del tiempo y a lo
largo del espectro. Yo llamo al agrupamiento temporal
integración secuencial y al otro integración simultánea.
Los capítulos de este libro han sido organizados de acuerdo
con esta división. Sin embargo, yo he señalado que las dos
formas de agrupamiento operan a menudo en conjunto para
resolver el problema.
Integración secuencial: Segregación del estrato auditivo
La integración secuencial es evidente en numerosos

contextos, pero un patron popular de estímulos para
estudiarla ha sido el que da lugar a la segregación del
estrato auditivo. Esto ocurre cuando una secuencia de
sonidos salta rápidamente hacia arriba y hacia abajo entre
diferentes regiones de frecuencia. El caso más simple es
una alternancia rápida y repetida de un sonido alto y uno
bajo. Si la alternancia es lo suficientemente rápida y
también la separación de frecuencia, los oyentes no
perciben un sólo estrato de sonidos alternándose en altura,
sino que perciben dos estratos, uno que consiste en la
repetición del sonido agudo y el otro que consiste en la
repetición del grave. Cuando se perciben dos estratos, el
oyente tiene la impresión de que hay dos fuentes de sonido
diferentes, una aguda y la otra grave, cuyos sonidos
ocurren más o menos al mismo tiempo. En patrones más
complejos, en los que un número de sonidos con alturas
altas ligeramente diferentes son intercalados con número de
sonidos con alturas bajas ligeramente diferentes, el oyente
percibirá todavía dos estratos, pero esta vez cada uno de
ellos tendrá un patrón melódico que se restringe a los
sonidos de cada estrato.
Una clase de estímulos que se ha usado es un bucle corto de

sonidos. Estos fueron elegidos de regiones de frecuencia
diferentes, una alta y la otra baja. Las propiedades de los
sonidos han sido variadas y los efectos de segregación de
estrato observados todavía.
Otra forma de estímulo ha sido una melodía o un patrón

tonal corto con sonidos "perturbadores"(2) intercalados.
Las relaciones de frecuencia entre los sonidos
"perturbadores" y los relevantes se han variado. Cuando los
dos conjuntos de sonidos están en la misma región de
frecuencia, la melodía desaparece dentro de un patrón
formado por todos los sonidos, pero si están en dos
regiones de frecuencias diferentes, la melodía se escucha
como un estrato independiente. Esta clase de estímulos se
han usado para estudiar la segregación primitiva, pero es
más apropiada para el estudio de la segregación basada en
esquemas.
La segregación del estrato auditivo ha sido conocida por
los músicos desde el barroco, en el que se usaba para
producir la impresión de dos líneas melódicas aun cuando el
instrumento que tocaba la secuencia sólo podía producir una
nota a la vez. Esto era posible por la alternancia rápida
entre una línea melódica aguda y una grave.
Factores que influencian a la segregación de estratos

sonoros
Las mas importantes influencias en la segregación de

estratos son la velocidad de la secuencia tonal y la
separación entre los dos subconjuntos de sonidos que se
intercalan. La segregación se incrementa en la medida en
que los subsets se separan en frecuencia, y se vuelve cada
vez más difícil para un oyente escuchar la misma secuencia
como un estrato simple de sonido. (Una escala logarítmica
parece ser la que mejor refleja la segregabilidad de las
frecuencias). La segregación se incrementa en la medida en
que la secuencia se acelera. Como consecuencia de esto, los
efectos de separación en frecuencia y en tiempo pueden ser
organizados también uno en contra del otro. En la medida en
que la separación en frecuencia se incrementa, la secuencia
se debe hacer más lenta si el oyente debe percibir todos
los sonidos como parte de un solo y coherente estrato de
sonido.
Sin embargo, el efecto de separación en frecuencia y

velocidad dependen de aquello que los oyentes están
intentando hacer. Si están intentando oir todos los sonidos
como parte de una sola secuencia, los efectos son tal como
los describí. Pero si están tratando de dirigir su atención
en los sonidos de sólo uno de los estratos, los efectos de
la separación en frecuencia y en tiempo son diferentes. La
separación en frecuencia desde el más agudo al más grave de
los sonidos necesita excederse sólo en un pequeño monto
(algunos semitonos, para el caso de dos sonidos que se
alternan) antes que la secuencia de destino sea seguida con
atención. Incrementos posteriores en la separación no
incrementan la segregación y la capacidad de seguir al
estrato elegido es virtualmente inalterada por la velocidad
de la secuencia. A causa de la diferencia de efectos cuando
los oyentes intentan escuchar coherencia o segmentación, yo
propuse que dos factores diferentes se ponen en juego. Una
segregación primitiva es afectada por la separación en
frecuencia y en tiempo. El otro, la segregación basada en
esquemas, involucra a la atención y es usado para focalizar
la atención en uno de los estratos. La atención del oyente
puede siempre ser dirigida a través de un rango reducido de
frecuencia, cuando se requiere para la tarea. Mas allá de
la mínima separación en frecuencia necesaria para no
confundir las notas del estrato que es seguido con los
otros, el proceso de atención no es afectado por la
separación entre las frecuencias.
Sabemos que el resultado de diferentes velocidades proviene

del hecho de que determinados intervalos temporales han
sido afectados. Pero no sabemos exactamente cuáles. Si el
efecto se basa en correr cerca en el tiempo los sonidos de
un mismo rango de frecuencia, esperaremos que el intervalo
de tiempo entre el final de un sonido y el comienzo del
otro, en el mismo rango, será lo más importante. Sin
embargo, alguna evidencia sugiere que la separación entre
los intervalos de ataque es la importante. Hay otra
cuestión, también. ¿Cual es más importante: el intervalo
entre dos sonidos sucesivos en el mismo rango de frecuencia
o aquel entre dos sonidos sucesivos en distintos rangos de
frecuencia?
Ya que la mayoría de los estudios usan secuencias en las

que las que los silencios entre los sonidos de un estrato y
los de los dos estratos son iguales, es imposible decir
cual de ellos es el crítico.
Parece que el proceso de formación de estratos se comporta

en una manera análoga al principio de agrupamiento por
proximidad de la Gestalt. Los sonidos agudos tienden a
agruparse con los otros sonidos agudos si se disponen
próximos en el tiempo por la aceleración de la secuencia.
Cuando hablamos de proximidad de sonidos en frecuencia o en

tiempo, asumimos que el estrato se compone de unidades
discretas. ¿Qué pasa en los casos en que el sonido es
contínuo? ¿En donde están las unidades? Parece que hay un
proceso uniforme que es sensible a las discontinuidades del
sonido, particularmente a los aumentos súbitos de
intensidad, y esto crea delimitaciones en unidades cuando
estas discontinuidades ocurren. Las unidades pueden ocurrir
en diferentes escalas temporales y aquellas más pequeñas
son subsumidas en las más grandes. Cuando la secuencia se
acelera, los cambios en las pequeñas unidades pueden ser
perdidos por el sistema auditivo, y otros cambios, muy
lentos para formar unidades en la velocidad más baja,
pueden ahora ser súbitamente suficientes para controlar la
formación de unidades.
Las unidades, una vez formadas por esos procesos, pueden

formar grupos con otras similares. La similitud es
determinada por análisis aplicados a las unidades una vez
que han sido formadas. Por ejemplo, supongamos que hay un
deslizamiento en la frecuencia delimitado por un incremento
y una caída en la intensidad. Entre esos límites, el cambio
en frecuencia puede ser medido por el sistema auditivo y
asignado a esa unidad como una de sus propiedades. Esta
unidad con corrimiento de frecuencia se unirá, de
preferencia, con otras cuyo contorno de frecuencia sea
similar y que se encuentren en la misma región de
frecuencia.
Una de las similitudes que afecta a la agrupación de

sonidos es su ubicación espacial. Los ingenieros que
trabajan en la segregación automática de sonidos
simultáneos han usado a la separación espacial como el
único medio poderoso para determinar si el sonido proviene
de un solo evento físico (usualmente, un hablante). Los
humanos usan el origen espacial también, pero no le
confieren un rol tan subyugante. Lo pueden hacer muy bien
al segregar más de un estrato de sonidos que provienen de
un punto espacial, por ejemplo, un parlante.
El análisis primitivo de la escena tiende a agrupar sonidos

que provienen del mismo punto espacial y segregar aquellos
que vienen de distintos puntos. Como consecuencia, si dos
sonidos, diferentes en frecuencia, se alternan entre los
dos oídos, no forman un estrato único y coherente. La
separación en frecuencia, la velocidad y la localización se
combinarán para influenciar a la segregación. Las
diferencias espaciales parecen tener efecto más fuerte en
la segregación cuando se combinan con otras diferencias
entre los sonidos. Se pueden crear ilusiones estableciendo
una competencia entre la tendencia a agrupar sonidos por su
similitud en frecuencia y su similitud espacial. Un ejemplo
de esto es la ilusión de escala de Diana Deutsch (3).
Cuando una voz hablando se alterna rápidamente entre los

dos oídos, es difícil de seguir. Una razón es que cuando el
cambio se produce, causa un súbito aumento de intensidad en
un oído y un súbito descenso en el otro. Si el oyente
combinara simplemente ambos cambios, no habría tal
alteración en la señal. Pero esto no ocurre. Los cambios en
ambos oídos son tratados como eventos separados. Como
resultado, falsos comienzos y finales de sílabas son
percibidos, y esto perjudica la inteligibilidad.
Cuando se alternan clicks entre los dos oídos, la velocidad

de los clicks parece ser más lenta cuando todos provienen
del mismo oído. Cuando a los oyentes se les pide una cuenta
de la secuencia total, lo hacen mejor cuando los clicks no
se alternan que cuando se alternan entre los dos oídos.
Ambos efectos parecen ser el resultado de la segregación de
estrato auditivo parcialmente basada en la cualidad
espacial.
Hasta ahora me he referido a diferencias de frecuencias
entre dos sonidos. Los lectores habrán traducido esto a
"diferencias en altura". Esto es así sólo si trabajamos con
tonos puros (sinusouidales) cuya altura se corresponde con
la frecuencia que tienen. Pero sabemos que en sonidos
complejos, que tienen muchos componentes de frecuencia,
esta equivalencia simple puede destruirse.
En un sonido complejo, la altura percibida depende de la

estimación de su fundamental que realiza el sistema
auditivo, en base al conjunto de sus parciales. Esta
fundamental no necesita estar presente siquiera. Todo lo
que se requiere (como una primera aproximación) es que los
parciales presentes sean múltiplos enteros de la misma
frecuencia fundamental. Podemos tener, por consiguiente, el
caso en que un sonido con una altura más baja tenga
parciales cuyo promedio es más alto en frecuencia que el
promedio de los parciales de otro sonido cuya altura es
mayor. (el primer sonido será más "brillante" que el
segundo, aún a pesar de la diferencia de altura).
Esto nos permite formularnos la pregunta que no habíamos

podido hacernos con las secuencias de tonos puros. ¿Es la
diferencia en la frecuencia fundamental (altura) de los
sonidos o la diferencia entre el promedio de sus parciales
(brillo) lo que afecta a su agrupamiento perceptivo? La
respuesta es que son ambas y que, además, el efecto es
aditivo. Un sonido puro tiene un contenido espectral
diferente al de uno complejo; así, aun si ambos tienen la
misma altura, tenderán a segregarse en una secuencia
rápida. Otro tipo de agrupamiento también ocurre: un sonido
puro, en vez de agruparse con el sonido complejo total que
le sucede, puede agruparse sólo con uno de sus componentes.
Altura y brillo son propiedades unidimensionales del

espectro de un sonido. Sin embargo, cuando un espectro
tiene un número de picos (como el de una vocal), puede
haber varias maneras en que se parezca a otro. Pocos
estudios de la segregación de estratos se han hecho en
secuencias con sonidos complejos y aquellas que se han
hecho no han tenido en cuenta analíticamente a las
dimensiones que el sistema auditivo usa para resumir los
variados y complejos contornos de los espectros.
Hay otro tipo de altura que puede oirse en bandas de ruido

filtrado. Cuando el ruido tiene componentes de altas
frecuencias, suena más agudo. Las diferencias en el
contenido de frecuencias pueden causar que secuencias
formadas por impulsos de ruido sean segregadas en estratos
agudos y graves, de manera igual que las secuencias
formadas por sonidos puros.
Timbre
El timbre es otro factor que afecta a la similitud de

sonidos y, consecuentemente, a su agrupamiento en estratos.
La dificultad es que el timbre no es una propiedad simple -
unidimensional- de los sonidos. Puede incluso no ser
reductible a un pequeño número de dimensiones.
Probablemente una dimensión diferenciada del timbre sea el

brillo. Sabemos que sonidos similares en su brillo tienden
a ser asignados al mismo estrato. El brillo es,
simplificando, la frecuencia media que se obtiene cuando
todos los componentes de un sonido son evaluados de acuerdo
con su amplitud. Los sonidos brillantes tienen concentrada
mayor parte de su energía en las frecuencias altas que la
que los sonidos oscuros.
La diferencia de cualidad entre tonos y ruidos también se

puede pensar como una diferencia de timbre. Los componentes
de frecuencia de los ruidos cambian rápidamente en amplitud
y fase, mientras que los de los tonos son aproximadamente
constantes. Una secuencia rápida puede crearse alternando
tonos puros con ruidos cuyas precuencias centrales
coincidan con la de los tonos. La secuencia se segregará en
dos, una formada por los ruidos y otra por los tonos puros.
Se necesita realizar mucha investigación todavía en el
efecto espectral del ruido controlando el agrupamiento de
los sonidos.
He sugerido que el patrón de picos y valles en el espectro

de los sonidos puede afectar su agrupamiento. Otra manera
de decir esto es que el agrupamiento es afectado por el
patrón de las intensidades de los varios armónicos en los
espectros de varios sonidos sucesivos. Sin embargo, no
sabemos cómo comparar los espectros de dos sonidos
sucesivos cuyas fundamentales difieren. Podríamos
considerar que dos sonidos tienen el mismo patron de
intensidades si sus armónicos tienen picos a las mismas
frecuencias. En la naturaleza esto podría significar que
están pasando por el mismo conjunto de resonadores (un
tracto vocal de igual tamaño, por ejemplo). Por el otro
lado, podríamos considerarlos iguales si sus armónicos
correspondientes fueran de intensidad proporcional. Esto
significaría que, si la frecuencia fundamental del segundo
sonido fuera el doble de la del primero, todos los picos en
el espectro estarían al doble de la frecuencia. En la
naturaleza, esto significaría que las propiedades de los
dos cuerpos vibrantes son similares (en vez de los
resonadores por los que pasaron). La evidencia disponible
(y es escasa) sugiere que ambas formas de similaridad
espectral se usan en el análisis de la escena auditiva para
agrupar sonidos sucesivos.
Mucha de la investigación en agrupamiento secuencial de los

sonidos ha usado, o bien sonidos sinusoidales(4), o bien
impulsos de ruido. La mayoría de los sonidos del mundo
natural no son así. Por ejemplo, los sonidos naturales
cambian de espectro en el tiempo. Pensemos en una voz, que
abarca todos los tipos de sonido, o una cuerda de guitarra
punteada, que tiene un ataque intenso, ruidoso y brusco y
se extingue gradualmente hasta casi una sinusoide. No ha
habido casi investigación en agrupamiento secuencial de
sonidos cambiantes aparte de unos pocos en el campo del
habla y estudios de transiciones (5) entre sonidos puros.
El estudio de como los sonidos cambiantes se organizan de
manera perceptiva proporciona una rica oportunidad para la
investigación. Entre los factores que requieren estudiarse
se encuentran la silueta del ataque, los cambios en el
tiempo de las intensidades de los armónicos, las
fluctuaciones en la intensidad global y la funadamental del
sonido, y la granularidad del sonido.
Si tomamos cada momento de cada componente de frecuencia en

cuenta, advertimos que los sonidos pueden diferir uno de
otro acústicamente en un número sorprendentemente grande de
formas. ¿El sistema auditivo trata esta complejidad
colapsando las diferencias en un número más pequeño de
dimensiones? Sabemos que intensidad, frecuencia fundamental
y brillo son dimensiones separadas, pero ¿hay un número
limitado de otras dimensiones del timbre? Una demostración
de que hemos entendido algún conjunto de dimensiones sería
nuestra habilidad para construir timbres metamétricos. En
la visión, los colores metamétricos son los que se ven
idénticos a pesar de que su contenido espectral es
diferente. Por analogía, los timbres metamétricos sonarían
iguales (en cierto sentido) a despecho de diferencias
acústicas obvias. Para nuestros propósitos en el estudio de
la escena auditiva, no sería tan importante que suenen
igual, sino que sus tendencias de agrupamiento sean
idénticas. Esto es, la sustitución de uno por otro dejaría
invariantes a los grupos respecto de su patrón original.
Se ha argumentado que las diferencias de amplitud entre

sonidos controlan su agrupamiento. Los altos se agruparían
con otros del mismo tipo y así con los suaves. Sin embargo
los estudios realizados con sonidos que difieren en
intensidad me ha hecho preguntarme si el agrupamiento
basado en intensidad es el resultado del análisis primitivo
de la escena auditiva, o de alguna clase de proceso de
selección gobernado por esquemas. La solución de esto puede
ser como sigue. Los sonidos que difieren sólo en intensidad
pueden no tener una tendencia a segregarse entre ellos,
pero cuando hay otras diferencias entre los sonidos las
diferencias de intensidad pueden aumentar la segregación.
Otra vez no lo sabemos realmente y más investigación se
requiere para resolver la cuestión.
Cuando se escucha la repetición alternada de sonidos agudos

y graves que están lo suficientemente separados en
frecuencia, en un principio se puede seguir la alternancia
como un único estrato, pero eventualmente la secuencia
parece separarse en dos estratos, uno agudo y el otro
grave. Esto muestra que hay un efecto acumulativo de la
alternancia entre rangos de frecuencia. La tendencia para
que la segregación primitiva subdivida la secuencia crece
por 4 segundos por lo menos y toma como mínimo 4 segundos
más en desaparecer hasta que la secuencia termina. He
interpretado que esta morosidad de los cambios tiene una
función útil. Previene al sistema auditivo de la oscilación
desatinada entre diferentes modos de organización de la
escena auditiva. Una vez que alguna interpretación de un
número de fuentes sonoras ha ocurrido, no desaparece
instantáneamente sólo a causa de que alguna de las fuentes
no haya sido oída por un segundo o dos. Este tipo de
"histéresis" es observado en un gran número de fenómenos
perceptuales dentro de diferentes modalidades de sentido.
Parece, sin embargo, que un cambio súbito en las

propiedades acústicas de la señal puede inicializar el
mecanismo de percepción de estrato más rápidamente de lo
que puede el mero silencio. Por ejemplo, un cambio súbito
en el rango de frecuencia ocupado por la señal, o de
localización espacial de la que el sonido parece venir
pueden causar que una secuencia segregada sea percibida
como no-segregada. Obviamente, el sistema de análisis de
escena auditiva trata a esta clase de cambios como
indicadores de que se está encontrando con un nuevo evento
sónico.
El efecto acumulativo de exposición a la alternancia entre

rangos de frecuencia diferentes ha sido explicado de varias
maneras. La explicación que favorezco dice que el sistema
auditivo va construyendo gradualmente la evidencia de que
la secuencia contiene actualmente diferentes subconjuntos
de sonidos con distintas propiedades y que estos deben ser
ordenados en estratos separados. Una explicación
alternativa de los efectos acumulativos que se observan
ante la exposición prolongada a secuencias es que la
integración en un estrato individual se hace mediante
detectores de saltos de frecuencias. Cuando la secuencia
continúa saltando arriba y abajo en frecuencia el detector
se cansa. En este punto sólo pueden sucederse saltos más
pequeños, y la frecuencia se divide en subestratos. A pesar
de que las dos explicaciones parecen diferentes, no son
incompatibles. Debe notarse que la primera es funcional,
mientras que la otra se establece en términos fisiológicos.
Puede ser que los eventos fisiológicos descriptos en esta
sirvan a la función descripta en la primera.
El sonido contínuo se mantiene mejor como un estrato único

que el discontínuo. Esto se puede demostrar comparando dos
tipos de secuencias. En una discontínua hay una alternacia
de sonidos agudos y graves y todos ellos mantienen una
altura fija que se separa de sus vecinos. En la secuencia
contínua se liga cada sonido agudo con sus dos vecinos por
medio de un deslizamiento en frecuencia. La secuencia
contínua se mantiene unida mejor que la otra. Esta
coherencia de las secuencias contínuas se puede interpretar
en términos funcionales como una heurística del sistema
auditivo. Esta heurística es equivalente a una apuesta a
favor de que cualquier secuencia que exibe continuidad
acústica proviene probablemente de un evento individual de
un entorno.
El uso de continuidad no implica necesariamente que el

sistema auditivo siga cambios y prediga las propiedades del
siguiente momento de sonido. No creo que el proceso
primitivo haga esto. Sin embargo, hay buenas razones para
creer que los procesos de integración basados en esquemas
emplean esta estrategia.
Resumen de factores que promueven el agrupamiento

secuencial.
Muchos de los factores que favorecen el agrupamiento de una

secuencia de entradas auditivas son rasgos que definen la
similaridad y la continuidad de los sonidos sucesivos. Esto
incluye su frecuencia fundamental, su proximidad temporal,
el contorno de sus espectros, su intensidad y su espacio de
origen aparente. Estas características afectan el aspecto
secuencial del análisi de la escena. Mi descripción parece
implicar que las cosas que se agrupan secuencialmente
pueden ser pensadas como sonidos. Esto es a causa de que
los ejemplos que dí fueron establecidos en términos de
sonidos simples en vez de en términos de mezclas de
sonidos. Encontramos que los mismos factores sirven para
promover el agrupamiento secuencial de sonido en mezclas,
pero, en este caso, no es el sonido completo, sino partes
de su espectro lo que se agrupa secuencialmente. Este
agrupamiento resultante ayuda al cerebro a crear
descripciones separadas de los sonidos componentes en una
mezcla.
Efectos de la segregación de estratos sonoros.
De manera general, los efectos perceptivos de la

segregación y agrupación secuencial se derivan de su rol en
el análisi de la escena auditiva. Material auditivo que ha
sido asignado al mismo estrato tiene una tendencia mucho
más fuerte a ser usado junto en una computación perceptiva.
Las propiedades emergentes del sonido son más plaudibles de
ser computadas dentro de elementos de un mismo estrato. Por
consiguiente, patrones secuenciales que involucran a
elementos del mismo estrato sonoro son más fácilmente
percibidos. Esta descripción general toma muchas formas
específicas.
Se puede demostrar que nuestras representaciones

perceptivas de cualquier patrón tienden a incluir material
que está dentro de un estrato sonoro y a excluir material
que no está en él. Por ejemplo, si a los oyentes se les
invita a reconocer un diseño que está intercalado con
sonidos perturbadores, cualquier factor que cause que estos
sonidos caigan en un estrato sonoro aparte harán que el
diseño sea más fácil de reconocer. Esto es verdad, así el
diseño que traten de reconocer sea una melodía familiar o
una secuencia extraña que hayan tocado como un "standard" y
hayan mantenido en sus memorias inmediatas.
En algún sentido estamos hablando de camouflagge y diciendo

que sólo un material propio de un estrato sonoro puede
camouflar a un objetivo. Aun una tarea simple como contar
una cantidad de notas es más fácil de realizar cuando todos
las notas están en un único estrato sonoro.
Hasta ahora la mayoría de la investigación sobre

reconocimiento ha usado a las diferencias de altura para
segregar estratos sonoros, pero no hay razón para que los
otros factores que se han enumerado no se puedan usar.
Las relaciones temporales pueden ser también más fácilmente

percibidas cuando involucran elementos que han sido
agrupados secuencialmente por el análisis de la escena
auditiva. Por ejemplo, es difícil detectar el orden de
todos los sonidos en un rápido ciclo repetido cuando caen
en más de un único estrato sonoro. (Si queremos crear una
clara demostración de esto, tenemos que diseñar la tarea en
una manera en que sea imposible para un oyente obtener la
respuesta correcta considerando sólo un estrato de por vez)
La segregación de estratos sonoros puede afectar también al

ritmo de una secuencia percibida. Por ejemplo, si creáramos
una secuencia de sonidos equidistantes en la que cada
tercer sonido fuera una octava más agudo que los otros, se
dividiría en dos estratos sonoros. El estrato más agudo
tendría este ritmo:
- H - H - H......
El más grave:
L L - L L - L L -......
El ritmo tiende a ser definido por sonidos que caen dentro

del mismo estrato sonoro.
El solapamiento temporal de los sonidos también es afectado

por la segregación. Si un ciclo rápido de seis sonidos
consiste en una alternancia de tres agudos y tres graves,
todos de igual duración, se divide perceptualmente en dos
estratos. Si se escuchan los dos estratos, muy a menudo se
tiene la sensación de que los dos ciclos van a diferentes
velocidades. Es muy difícil saber si los sonidos en el
estrato agudo no están solapados temporalmente con los del
ciclo grave.
Nuestra habilidad para detectar el lapso entre dos sonidos

parece ser afectada por la segregación, aun cuando los
sonidos no sean parte de una larga secuencia. Se hace cada
vez más difícil juzgar la extensión del lapso en la medida
en que la separación de frecuencia entre los dos sonidos
aumenta. No es absolutamente sabido si esto es a causa de
la segregación del estrato sonoro o es otro efecto de la
separación en frecuencia. Para averiguarlo, debiéramos
observar si obtenemos el mismo efecto al reemplazar la
diferencia en frecuencia por otro factor que se sabe que es
afectado por la segregación de estrato sonoros.
Surge que los factores que promueven el agrupamiento del

material de audición actúan de una manera competitiva. Por
ejemplo, supongamos que tenemos un ciclo de cuatro sonidos,
ABCD. Si los dos sonido, A y B se separaran en frecuencia
de los otros dos, entonces A y B podrían formar un estrato
separado. Pero en un ciclo diferente, ABXY, los mismos
sonidos A y B si alguno de ellos se agrupara más
fuertemente con X y otro con Y. Las proximidades de
frecuencias son competitivas y el sistema trata de formar
estratos agrupando elementos que poseen la más fuerte
similitud entre sí. A causa de esta competencia, somos
capaces de crear experimentos en los que podemos "extraer"
un elemento de un grupo secuencial al darle un sonido mejor
para que se agrupe con él.
Esta competencia ocurre también entre diferentes factores
que favorecen el agrupamiento. Por ejemplo, en una
secuencia de cuatro sonidos ABXY, si la similitud en la
frecuencia fundamental favorece el agrupamiento AB y XY,
mientras que la similitud de picos espectrales favorece AX
y BY, entonces el agrupamiento actual dependerá en las
relaciones de tamaño de las diferencias. Si las diferencias
entre las fundamentales son grandes mientras que las
diferencias del espectro son pequeñas, las primeras
controlarán el agrupamiento.
Además de competencia, también hay colaboración. Si un

número de factores favorecen el agrupamiento de la misma
manera, este será muy fuerte y los mismos sonidos serán
siempre escuchados como parte del mismo estrato sonoro. El
proceso de competencia y colaboración es simple de
conceptualizar. Es como si cada dimensión acústica pudiera
votar a favor de un agrupamiento, con cada voto que lanza
determinado por el grado de similitud en esa dimensión y su
importancia. Entonces los estratos sonoros cuyos elementos
se agruparan por la mayor cantidad de votos se formarían.
Este sistema de votación sería valioso en un entorno
natural, en el que no está garantizado que sonidos que se
parecen sólo en una manera o dos surjan siempre de la misma
fuente acústica.
Competir y extraer no sería posible si un mismo sonido

pudiera pertenecer a dos estratos sonoros diferentes al
mismo tiempo. Darle a un sonido algo mejor con lo que
agruparse no lo removería de su estrato sonoro original. El
hecho de que podamos extraer sonidos de un estrato sonoro
implica que el cerebro tiene una tendencia en contra de que
dos sonidos estén en un mismo estrato sonoro al mismo
tiempo. Sin embargo, esta tendencia hacia la "ubicación
exclusiva" no es absoluta. Cuando el sistema auditivo
encuentra espectros complejos, decide algunas veces que dos
sonidos con componentes espectrales compartidos estén
presentes al mismo tiempo. Si esta decisión se realiza,
algunos de los componentes espectrales se usan para derivar
las propiedades de más de un sonido percibido.
Cualquiera de los efectos que he mencionado se podría usar

para medir la fuerza de la segregación de estratos sonoros.
Algunos, sin embargo, no son utilizables en experimentos
dado que son fuertemente influenciados por factores
diferentes de los del agrupamiento primitivo. La indicación
más confiable de que un fs se ha formado es la exclusión de
ciertos sonidos de un patrón percibido, aun si los oyentes
tratan de incluirlo. No sería una medida válida si están
tratando de excluírlo. Su éxito podría deberse a procesos
de atención gobernados por esquemas antes que a un análisis
primitivo y preatentivo de la escena. Por consiguiente, la
falla en la inclusión es una mejor medida que el éxito en
la exclusión.
El agrupamiento secuencial que se observa en la segregación

de estratos sonoros tiene dos analogías con la visión. El
primero es la tendencia de la percepción visual de agrupar
elementos que están cerca el uno del otro en el espacio. A
menudo vemos los mismos agrupamientos que escuchamos en los
diagramas visuales de patrones de sonidos. Aparentemnte, la
proximidad tiene los mismos efectos en la visión que en la
audición. Una analogía más dinámica para la segregación de
estratos en la visión es el movimiento aparente. El
capítulo 1 mostró cómo los dos fenómenos presentan efectos
muy similares.
No sólo la visión y la audición muestran ciertas

similitudes entre sí, sino que los eventos en la visión
pueden afectar cómo los sonidos son percibidos y viceversa.
Es posible que ya desde nuestro nacimiento estemos
capacitados para relacionar visión con audición. Un recién
nacido estará más tiempo mirando un rostro que parezca
visualmente estar hablando las mismas palabras que está
escuchando, que otro que no. Un ejemplo de esta
interrelación es que el agrupamiento de sonidos puede
influenciar al agrupamiento de eventos visuales con el que
se sincroniza, y viceversa. Supongamos que dos luces están
demasiado separadas como para dar una sensación de
movimiento si son apagadas y prendidas alternadamente (esto
es, no son tratadas como parte del mismo evento). Podemos
mejorar el movimiento percibido si son sincronizadas con un
sonido agudo y uno grave respectivamente, provistos del
hecho de que los dos sonidos sean percibidos como parte del
mismo evento acústico. Podemos arreglar esto eligiendo
sonidos que estén lo suficientemente cerca en frecuencia
para ser incluídos en el mismo estrato sonoro. No está
claro todavía si esta clase de coordinación tiene un
propósito útil. Otras formas de coordinación tienen más
obvios beneficios. Por ejemplo, la tendencia a experimentar
que un sonido viene de una ubicación en la que los eventos
visuales ocurren con el mismo patrón temporal (el llamado
efecto de ventrilocuismo) puede interpretarse como una
manera en la que la evidencia visual acerca de la ubicación
de un evento puede suplementar una evidencia auditiva
imprecisa. La dirección de la influencia no es sólo desde
la visión a la audición, sino en reversa, desde la audición
también.
He ofrecido una explicación de la segregación de estratos

sonoros en términos de análisis de la escena. Otras
explicaciones, sin embargo, han sido ofrecidas por otros.
Algunas de ellas son fisiológicas. Una propuesta es que el
solapamiento de poblaciones de células en el oído interno
debe ser estimulado por sonidos sucesivos antes de que una
secuencia pueda ser integrada. Cuando esta condición es
violada, se forman estratos sonoros separados para agrupar
los sonidos que no conforman los requerimientos. Una pieza
de evidencia en contra de esta explicación es que, bajo
ciertas circunstancias, sonidos en los oídos opuestos
pueden agruparse en el mismo estrato sonoro. Esos sonidos,
obviamente, no están afectando a las mismas células. Otra
teoría que fué mencionada es la del detector de saltos de
frecuencias que debe registrar la transición entre sonidos
sucesivos antes de que la secuencia sea integrada. Con
alternancia rápida repetida, el detector se cansa y sólo
puede seguir pequeños saltos. Esta teoría tiene la ventaja
de ser análoga a la teoría del detector de movimiento que
ha explicado exitosamente ciertos fenómenos visuales.
Ninguna de estas teorías fisiológicas puede explicar todos
los hechos acerca de la formación de estratos auditivos,
pero aun si pudieran, no podrían competir con la
explicación del análisis de la escena, que es funcional en
vez que fisiológica en su naturaleza. Describirían
meramente la maquinaria por medio de la que el análisis de
la escena se realiza.
Sin embargo, se han ofrecido teorías funcionales que

compiten más directamente con la teoría del agrupamiento
primitivo y preatentivo de evidencia acústica. Estas
teorías ven al lugar de la segregación y el agrupamiento
como pertenecientes al proceso de atención en sí mismo. La
atención es vista como el intento de seguir cambios en los
estímulos. Cambios rápidos pueden exceder la capacidad de
atención para seguirlos. Algunas veces el proceso que
integra sonidos sucesivos ha sido descripto como un filtro
que debe dejar pasar todos los sonidos, si se incorporan al
mismo acto de atención. El filtro se ha conceptualizado
como capaz de cambiar su propia disposición con respecto al
rango de propiedades para el que está ajustado (tal como
rango de frecuencias que dejará pasar), pero incapaz de
cambiar demasiado rápido. Como consecuencia, pierde cambios
súbitos en el sonido. Esta es la explicación que se ofrece
para determinar porqué un sonido se excluye a veces de un
estrato sonoro. De acuerdo con esta explicación, sólo un
estrato sonoro existe, aquel al que se le está prestando
atención. No existe tal cosa como un segundo agrupamiento
de evidencia perceptiva que es estructurada, aun si uno no
le está prestando atención. Esta es una importante manera
en la que esta clase de teoría difiere de la teoría del
análisis primitivo de la escena auditiva. Esta última dice
que se forman lazos entre las partes de la evidencia
auditiva aun a pesar de que esas partes puedan no estar
actualmente dentro del campo de atención.
Otra teoría es similar a la de la atención-como-un-filtro,

excepto que ve a la atención como capaz de integrar una
secuencia cuando los cambios en ella pueden ser anticipados
como resultado de un aprendizaje previo. Esta tendencia se
ve como parcialmente superadora de la inabilidad para
seguir cambios bruscos.
La teoría de agrupamiento de la Gestalt es similar a la

idea del agrupamiento preatentivo. Vé a los efectos de
similitud, proximidad temporal y continuidad como los
principios innatos que determinan el agrupamiento. La idea
de fuerzas competitivas de agrupamiento también es parte de
la teoría. Sin embargo, los teóricos de la Gestalt no
enfatizaron la relevancia de estos principios en la tarea
práctica del análisis de la escena.
Integración espectral
He resumido los hechos acerca del agrupamiento secuencial

de la evidencia auditiva, pero esto es sólo una parte de la
historia. En mezclas de sonidos el sistema auditivo debe
decidir cuales componentes, de entre los que recibe
concurrentemente, deben ser tratados como surgiendo del
mismo sonido. Este proceso fué estudiado en experiencias
simples en las que dos sonidos simples simultáneos, B y C ,
fueron alternados con un sonido simple, A. (Figura 1.16 del
cap. 1). Se encontró que, si B y C comenzaban y terminaban
al mismo tiempo, tendían a ser considerados como dos
somponentes de un único sonido complejo, BC, que era
percibido como de más rica cualidad. Por el otro lado,
había una tendencia a tratar a B como una repetición de A
cada vez que A estaba más cerca en frecuencia de B. B
parecía ser objeto de una rivalidad. Cuando era capturado
en un estrato secuencial con A, era menos probable que se
percibiera como parte del sonido complejo, BC,. De igual
manera, cuando era capturado por C y unido a él, era menos
probable que se escuchara como una repetición de A. Parece
que el agrupamiento secuencial y el espectral estuvieran en
una competición para resolver evidencia competente
concerniente al agrupamiento correcto de material
sensitivo.
Sonidos deslizantes pueden ser extraídos de las mezclas

también (Ver. Fig. 2.17 del Cap.2) . A un sonido complejo
que es realmente una mezcla de sonidos deslizantes
simultáneos puros se le puede puede extraer un componente
precediéndolo con un sonido puro deslizante.
Factores que influencian a la integración espectral
Si miramos el espectrograma de una mezcla de sonidos, como

en la figura 1.4 del Cap. 1, encontramos que el contenido
espectral que arriba de un sonido se imbrica con los
componentes espectrales del otro tanto en frecuencia como
en el tiempo. ¿Cómo puede el sistema auditivo saber qué
componentes de frecuencias agrupar para construir una
descripción de uno de los sonidos? Parece que lo hace
buscando correlaciones o correspondencias entre partes del
contenido espectral que sería improbable que ocurrieran por
azar.
Un tipo de correspondencia es entre las propiedades

auditivas de diferentes momentos de tiempo. Un espectro
complejo puede tener, incluído, un espectro más simple que
fué encontrado en un instante anterior. El espectro más
simple puede, por ejemplo, terminar junto con el más
complejo sin discontinuidad. En este caso, es razonable
tratar la parte del espectro que coincide con el anterior
como una mera continuación de él y tratar el resto del otro
como el resultado de la adición de un nuevo sonido en la
mezcla. Esto se puede denominar la heurística del "viejo-
más-nuevo". Es esta estrategia la que se observa en
experimentos en los que un componente es extraído de un
sonido complejo por un sonido precedente.
El agrupamiento de una parte de la entrada auditiva actual

con un material anterior depende de cuán similares son.
Sabemos que, al menos, dos factores influencian la
similitud: separación en frecuencia y (en el caso de
componentes deslizantes) la dirección del cambio en
frecuencia. También se agrupan más fuertemente si hay más
pequeños silencios separándolos. Nótese que estos factores
son ídénticos a los que determinan el agrupamiento
secuencial de sonidos simples. Esto nos conduce a creer que
la heurística del "viejo-más-nuevo" es otra manifestación
de los principios que controlan el agrupamiento secuencial.
Otro aspecto de esta heurística es que la extracción del

viejo espectro del actual crea un residuo cuyas propiedades
se escuchan más claramente. Hay alguna evidencia de que el
sistema auditivo usa las amplitudes de los componentes
espectrales del anterior espectro para decidir no solamente
cuáles componentes espectrales sustraer sino también cuanta
intensidad dejar en cada frecuencia. Esta es una buena
estrategia porque los sonidos nuevo y viejo podrían tener
algunos componentes de frecuencia iguales. La sustracción
(o un proceso aproximadamente equivalente a esta) provee
una estimación de la probable intensidad de los componentes
de frecuencias del sonido que ha sido agregado al primero
para crear el espectro complejo.
Tenemos también otra forma de decidir cuales componentes,

de los que se reciben al mismo tiempo, deben ser agrupados
para formar una descripción de un único evento auditivo.
Ciertos tipos de relación entre estos componentes pueden
ser usados como indicios de que debieran ser agrupados. El
efecto de este agrupamiento es permitir que los análisis
globales de factores tales como altura, timbre, intensidad
y aun origen espacial sean computados en un conjunto de
evidencia sensorial de que probablemente todos vengan del
mismo evento en el entorno.
Algunos de los indicios están basados en la relación de

frecuencia entre los componentes. Lo primero es su
separación en frecuencia. Cuanto más separados estén, menos
probable es que sean tratados como parte de un mismo
sonido. Otro hecho es que los parciales más intensos son
más fáciles de segregar del espectro. Esto puede ser a
causa de que los sonidos más fuertes se resisten mejor al
enmascaramiento de las frecuencias vecinas. La contribución
de estos dos efectos al análisis de la escena no es
completamente claro, y pueden ser efectos laterales de
otros principios de diseño del sistema auditivo.
Sin embargo, hay un efecto cuyo valor se puede apreciar

fácilmente. El sistema de análisis de la escena favorece el
agrupamiento de parciales relacionados armónicamente con
una fundamental. Esto se puede llamar el principio de
armonicidad. Su utilidad se relaciona con el hecho de que
cuando muchos tipos de cuerpos físicos vibran, tienden a
generar espectros armónicos en los que los parciales son
múltiplos (aproximadamente) de la misma fundamental. Los
ejemplos incluyen muchos sonidos animales, y hasta la voz
humana. Por consiguiente, si el sistema auditivo puede
encontrar un número de fundamentales que dé cuenta de todos
los parciales que están presentes, entonces es muy probable
que estemos escuchando ése número de eventos sonoros de un
entorno.
Existen varios efectos de este agrupamiento. Uno consiste

en que cada altura se puede derivar separadamente para cada
grupo de parciales. Esto nos permite escuchar más de una
altura en un solo espectro. Este agrupamiento por
armonicidad también explica porqué los espectros
inarmónicos parecen tener muchas alturas. Un timbre
separado puede ser también derivado para cada serie
armónica, posibilitandonos segregar sonidos hablados (con
sus diferentes timbres) cuando tienen diferentes alturas.
El agrupamiento también tiende a causar que los parciales
que están dentro del mismo grupo sean fusionados
perceptualmente. Cuando esto ocurre, se hace imposible
escuchar las alturas de los parciales individuales. A veces
una fusión incompleta de un conjunto de parciales puede
ocurrir aun a pesar de que ellos formen más de una serie
armónica. Esto es la causa por la que un sonido armónico se
unirá tan fuertemente con otro a la octava alta. Todos los
parciales del superior coincidirán con los parciales pares
del más grave.
El principio del común destino de la Gestalt describe dos

factores que afectan a la integración espectral. Los
psicólogos de la Gestalt descubrieron que cuando partes
diferentes de un campo perceptivo cambiaban de la misma
manera al mismo tiempo, tendían a ser agrupados juntos y
eran considerados cambiando en grupo, a causa de su común
destino. Un ejemplo visual se puede lograr dibujando dos
racimos de puntos, cada uno en una hoja transparente.
Cuando las dos son superpuestas, vemos sólo un conjunto más
denso de puntos. Sin embargo, si las dos hojas se mueven
con un patrón diferente, vemos dos conjuntos de puntos,
cada uno definido por su propia trayectoria de movimiento.
El común destino en la audición puede ser definido en

términos de cambios correlacionados en las diferentes
frecuencias de diferentes parciales y sus amplitudes. Es
conveniente tomar a la voz humana como ejemplo. Variaciones
en la altura de la voz se representan acústicamente por
cambios similares en todos los componentes de frecuencias
(cambios paralelos en una escala de frecuencia
logarítmica). Cuando la altura sube, no sólo lo hace la
frecuencia fundamental, sino también los armónicos en la
misma proporción. Es plausible creer que este cambio
correlacionado, si fuera detectable auditivamente, pudiera
decirnos que los parciales que cambian provienen de la
misma voz. El sistema auditivo puede agrupar a todos estos
cambios correlacionados y escuchar un sonido cambiante.
Hay evidencia para sugerir que dos tipos de cambio en

frecuencia(o modulación) se usan para este propósito. Uno
es la micromodulación, las fluctuaciones sutiles de la
altura de la voz humana que ocurren aun cuando los
hablantes creen estar sosteniendo una altura estacionaria.
Una versión ligeramente más grande de esta modulación
ocurre en el canto, con lo que se llama vibrato. El otro
tipo de modulación en frecuencia es el cambio lento que
ocurre cuando cuando voluntariamente variamos la altura de
nuestra voz de una manera suave como lo hacemos, por
ejemplo, cuando elevamos la altura al final de una
pregunta. Esta clase de cambio se llama portamento en la
música. La sincronización de la micromodulación de la
modulación lenta en diferentes partes del espectro parece
causar que sus partes sean tratadas como partes de un sólo
sonido. Sin embargo, todavía no está claro si una
explicación alternativa puede dar cuenta totalmente de
estos efectos. Esta explicación argumenta que los cambios
paralelos en frecuencia permiten a los parciales mantener
sus relaciones armónicas en el tiempo, y que son estas
relaciones, en vez del cambio en sí mismo, las que
promueven la integración de los parciales.
Otra versión del común destino en la audición ocurre cuando

es sistema auditivo detecta cambios sincronizados de
amplitud en diferentes partes del espectro. Como en la
modulación en frecuencia, esto puede ocurrir en escala fina
o gruesa. La modulación de pequeña escala no es una
propiedad de la señal física en sí misma, pero ocurre
dentro del sistema auditivo. Ocurre cuando escuchamos
sonidos armónicos complejos, como la voz humana. A causa de
la manera en que nuestro sistema auditivo periférico filtra
el sonido que entra, ocurren rápidas fluctuaciones en
intensidad dentro de los diferentes canales neuronales que
responden a las diferentes bandas de frecuencias de la voz.
Las fluctuaciones son periódicas y tienen el mismo período
en cada canal; este parece ser el mismo período de la
fundamental de la voz. Evidencia experimental apoya la idea
de que esta periodicidad neuronal común puede promover la
integración de evidencia sensorial derivada de diferentes
regiones espectrales.
Podemos observar un caso más grueso de cambio

correlacionado en la amplitud en diferentes partes del
espectro. Es una propiedad de la señal en sí misma y ocurre
cuando un sonido comienza y termina. Todos los componentes
derivados de un mismo sonido tienden a comenzar y terminar
en el mismo momento; aquellos derivados de diferentes
sonidos tienden a hacerlo en diferentes momentos. Esto se
puede usar para particionar el conjunto de componentes de
frecuencias derivados de una mezcla de sonidos.
Parece que debiéramos ser capaces de recolectar los

componentes auditivos de un cierto evento del entorno al
observarlo y correlacionar los cambios visuales con los
auditivos. Mientras que parece muy probable que podamos
hacer esto la evidencia experimental al respecto es muy
indirecta y se necesita más investigación. Sabemos que
miramos más fijamente la boca de un hablante en un salón
ruidoso, pero no sabemos qué tipo de proceso usa esta
información. Hay razón para creer que el reconocimiento de
un sonido de voz usa un esquema que coordina al sonido con
el movimiento específico de la cara del hablante mientras
el sonido se produce. No esta claro si existe, además, un
proceso más primitivo que advierte correlaciones visuales y
auditivas y las usa simplemente para particionar la
percepción del material auditivo.
Una de las más poderosas estrategias para agrupar

componentes espectrales es agrupar aquellos que provienen
de la misma dirección espacial y segregar a los grupos que
provienen de diferentes direcciones. Esta es la causa de
que los instrumentos individuales en la interpretación de
un conjunto suenen mucho más claros en una grabación
estereofónica que en una monofónica. Sin embargo, hay un
requerimiento que debe cumplirse antes de que el sistema
auditivo pueda agrupar componentes espectrales por su
origen espacial. Primero debe ser capaz de asignar una
estimación independiente de origen espacial a cada banda
separable de frecuencias en el espectro. Resultados de
experimentos fisiológicos con animales y experimentos
perceptivos con humanos sugieren que esas estimaciones
independientes se derivan, sin duda, del sistema auditivo.
Por ejemplo, indicios espaciales que sugieren dos
ubicaciones de origen pueden causar que una banda de ruido
se divida perceptivamente en dos diferentes bandas de
frecuencia. Se puede especificar una ubicación para cada
banda retrasando los componentes de ella en un oído,
respecto del otro.
A pesar de que parece lógico tratar a los componentes que

vienen de la misma dirección como formantes del mismo
evento sónico, esta estrategia no es infalible. Diferentes
eventos pueden ocurrir cerca en el espacio, o a lo largo de
la misma línea de radiación entre la fuente y el oyente.
Aun cuando los eventos se producen en ubicaciones bastante
distinguibles, la evidencia sensible para su ubicación
puede ser distorsionada por la reflexión de ondas en
superficies cercanas, la presencia de cuerpos interpuestos
entre el oído y la fuente, y por enmascaramiento asimétrico
de la evidencia en los dos oídos por sonidos más fuertes.
Esta puede ser la causa de que la organización espectral no
dependa tan fuertemente de la localización espacial. Una
persona puede hacer un apreciable trabajo al segregar
sonidos concurrentes aun escuchando una grabación
monoaural. La evidencia espacial sólo se suma con toda la
de otros tipos de evidencia en el análisis de la escena
auditiva.
Hasta aquí he descripto cómo la información espacial afecta

a la organización perceptiva. Pero la influencia puede ir
en contra también. A causa de que los indicios espaciales
no son a menudo confiables, el sistema auditivo parece
promediar diferentes estimaciones espaciales para llegar a
la ubicación percibida de un evento. Sin embargo, esta
estrategia sería inservible si no supiera cuántos sonidos
hay. Sería inofensivo promediar estimaciones espaciales que
hayan sido derivadas de energía proveniente de difernetes
eventos no relacionados. Entonces, el sistema auditivo debe
agrupar la evidencia antes de promediar las estimaciones de
ubicación. Como ejemplo del trabajo de esto, podemos
establecer una situación en la que dos diferentes señales
parecen venir de direcciones diferentes. Si usamos
micromodulación correlacionada en las dos señales para
indicarle al sistema auditivo que son uno y el mismo
evento, derivará sólo una (difusa) estimación espacial para
todo el sonido. Otro ejemplo es el uso de información
visual correlacionada para corregir la ubicación de un
sonido (el efecto de ventriloquismo).
El proceso de análisis de la escena usa la historia de una

señal para corregir estimaciones espaciales momentáneas.
Por ejemplo, si una señal sinusoidal se divide y se manda a
los dos oídos en fase y con equivalente intensidad,
escucharemos un sólo sonido proveniente del centro. Sin
embargo, si la sinusoide en un oído se sube y baja en
intensidad de manera ligeramente rápida y abrupta,
escucharemos un sonido pulsante en un oído y otro estático
en el otro. La solución perceptiva alternativa, escuchar un
sólo sonido moverse repetidamente desde una posición
central hacia el lados de la cabeza que recibe el sonido
más fuerte, no es favorecida por el sistema auditivo. Surge
que una versión entre-oidos de la heurística de lo-nuevo-
más-lo-viejo dictamina, en vez de ello, que hay dos fuentes
de sonido. Decide que la señal balanceada surge
accidentalmente de una continuación de la señal fija dentro
de los momentos en los que la señal pulsada alcanza su
máximo. Particiona la energía balanceada dentro de una
señal contínua(vieja) y una señal agregada(nueva). En vez
de una sola ubicación, se perciben dos.
Vemos, entonces, que hay muchos más indicios para la

ubicación de un sonido de los que se mencionan
habitualmente en los libros. No sólo usamos los indicios
basados en el hecho de que nuestros oídos estan en
diferentes lados de nuestra cabeza y tienen una forma
determinada. Usamos también el hecho de que los eventos
productores de sonido tienden a persistir en el tiempo, a
moverse sólo lentamente en el espacio, y a dar lugar a
sonidos que tienen una estructura interna coherente.
Sin duda hay otros factores que ayudan al oyente a

particionar la evidencia auditiva que arriba en un momento
particular. Es posible que los rasgos texturales (por
ejemplo, los que describen la irregularidad temporal de un
sonido) puedan jugar un rol en el particionamiento de
aquellos espectros que obtenemos cuando rasgamos una hoja
de papel, arrastramos objetos o caminamos haciendo crujir
la nieve. No se ha hecho investigación en el
particionamiento de espectros que se deriven de la
combinación de tales sonidos. De nada vale que estos
sonidos sean más numerosos en el mundo natural que aquellos
regulares que se han estudiado en el laboratorio.
Ignoramos también el rol que el ritmo juega en la partición

de mezclas. ¿Es más fácil descomponer una mezcla en la que
un componente está cambiando de una manera regular y
repetitiva que en otra en la que los cambios son
irregulares? Si es así, ¿cuál es el mecanismo por el cual
se hace? ¿un proceso de particionamiento primitivo, o uno
que depende de nuestra habilidad de guiar la atención por
esquemas rítmicos?
Cuando el proceso de análisis de la escena asigna

diferentes componentes sensibles al mismo análisis, decimos
que estos están unidos y ya no son audibles separadamente.
Hay otro contexto de investigación en el que los
componentes acústicos se hacen menos audibles por la
presencia de otros. Esta es la investigación sobre el
enmascaramiento. ¿Cuál es la relación entre enmascaramiento
y fusión?
Enmascaramiento y fusión difieren en las tareas que se usan

para medirlos. Se juzga que un sonido está enmascarado si
no hay manera de decir si está o no presente en una mezcla.
No necesita ser audible como un sonido separado. Por otro
lado, se considera fusionado si no es audible como sonido
separado, aun si se puede decir si está o no por algún
cambio que induce en la cualidad espectral percibida.
Una similitud entre enmascaramiento y fusión es que, en

ambos casos, algunos componentes de una mezcla auditiva
compleja pierden la capacidad de ser escuchados
individualmente. Otra es que muchos de los mismos factores
que influencian la audibilidad de los componentes en
experimentos de análisis de la escena auditiva tambien
afectan al enmascaramiento. Variables que ayudan a segregar
un componente acústico de otros también preservan a este
componente de ser enmascarado. Por ejemplo, si un sonido es
micromodulado, es más difícil enmascararlo con otro que no
lo es. También es difícil enmascararlo con un sonido que no
comienza sincronizado con él, o con otro que proviene de
una dirección espacial diferente.
Los efectos de enmascaramiento de una banda de frecuencias

(llamemosla banda A) pueden ser también reducidos al causar
que la banda A se agrupe con una banda diferente de
frecuencias (banda B) que está muy separada del objetivo a
enmascarar. El agrupamiento es inducido mediante la
sincronización de fluctuaciones de amplitud en las dos
bandas, una manipulación que afecta a la integración
espectral. A este efecto se lo llama "liberación del
enmascaramiento por co-modulación".
La similitud en los factores que influencian

enmascaramiento y fusión sugiere que los mecanismos
psicológicos que se involucraron para servir al propósito
del análisis de la escena también lo hacen para el fenómeno
del enmascaramiento.
Cualquier propiedad percibida de un vector de entrada de

sonido se computa de un conjunto que el cerebro ha
seleccionado de ese vector. El propósito de computar una
propiedad es describir una cualidad significativa, esto es,
una cualidad del sonido que ha sido creada por algo que
sucede distintivamente en el mundo, como la voz de un
hablante. Si el subconjunto de datos seleccionados para la
computación es demasiado pequeño, la computación puede
resultar en cualidades diferentes para los componentes
acústicos individuales generados por el evento (digamos,
armónicos individuales en la voz) en vez de alguna cualidad
para todo el sonido creada por el evento. Denomino
"propiedades parciales" a las propiedades de los formantes.
Si, por el otro lado, el vector es demasiado grande, la
cualidad percibida representará un vector que realmente es
una mezcla accidental de la energía acústica de más de un
evento -por ejemplo, la suma de vocales de voces
diferentes. Denomino "quimérica" a esta cualidad. Arreglar
las cosas en una manera en que las cualidades sean
significativas, en vez de parciales o quiméricas, es la
tarea del análisis de la escena. Hay alguna evidencia de
que hay una inclinación hacia la integración en la
audición. Las propiedades serán computadas en el total del
vector de entrada de sonido a menos que haya evidencia
específica de que el vector debe ser dividido en
subconjuntos.
Resultados de experimentos y de observaciones informales

muestran que alturas separadas, timbres (e.g. rugosidad
percibida), identificación de vocales, y aun ubicaciones,
pueden ser computadas separadamente en los estratos que
crea el análisis de escena. Si esto no fuera posible sólo
seríamos capaces de escuchar un sólo sonido a la vez, y las
cualidades de ese sonido representarían siempre la suma de
todos los eventos activos.
La Ilusión de Continuidad y la Inducción Contralateral.

Los principios del análisis de la escena auditiva,
particularmente la subdivisión del vector de datos
sensibles recibido a cada momento, pueden explicar dos
fenómenos encontrados en la investigación auditiva. Uno es
la ilusión de continuidad y el otro es la inducción
Contralateral.
La ilusión de continuidad se describió en los capítulos 1 y

3. Si un breve segmento de un sonido activo es borrado y
reemplazado por un sonido mucho más fuerte que tiene el
contenido espectral correcto, el sonido más suave se
escucha como la continuación del más fuerte. La explicación
del análisis de la escena es que el sa ha tomado parte de
la evidencia sensible con la que ha contribuído el sonido
más fuerte y la ha asignado a la percepción que representa
al sonido más suave. Esto ha sido interpretado como una
compensación del enmascaramiento, ya que el sonido más
fuerte hubiera enmascarado el más suave, aun si hubiera
estado allí.
Los ejemplos van desde el más simple, en el que el sonido

suave es una sinusoide pura y el fuerte una versión más
fuerte del sinusoidal, hasta un caso más complejo en el que
el sonido suave es voz hablada y el más fuerte un estallido
de ruido. En el ejemplo anterior, se percibe la complitud
de la voz hablada. A esto se lo llama restauración
fonémica.
La explicación para la ilusión de continuidad puede ser

dividida en dos partes. Una explica cómo el cerebro del
oyente decide si el sonido continúa o no detrás del sonido
más fuerte (la pregunta del "si"). La otra explica cómo el
cerebro elige qué contenido de la porción perdida es (la
pregunta del "que"). Sólo la pregunta del "si" es decidida
por los principios generales de análisis de la escena.
El proceso de decidir si un sonido A ha continuado a través

de una interrupción por otro sonido B parece estar
gobernada por otras reglas fundamentales. Esto se puede
establecer en términos del etiquetamiento de las partes del
estímulo que se ha dado en la figura 3.22 delcapítulo 3. A1
y A2 son las partes del tono más suave, A, que precede y
sigue la interrupción. B es el tono más fuerte que
reemplaza el segmento borrado de A.
La ilusión de continuidad involucra el particionamiento de

los estímulos sensibles recibidos en tiempo B (el período
cuando B está activo) en dos paquetes. Uno es interpretado
como la continuación del sonido A. El otro es interpretado
como el segundo sonido que aparece súbitamente, y sus
propiedades acústicas son percibidas como las que, cuando
se suman a las de A, darán como resultado el estímulo total
percibido en tiempo B. El sistema de análisis de la escena
ha juzgado que A1 y A2 no son sonidos separados, sino
partes del mismo. Esta interpretación ayuda al
reconocimiento de A, ya que el proceso de reconocimiento
tratará de identificar un sonido único y largo con
propiedades de A1 y A2 y no dos sonidos con conjuntos
separados de propiedades. Cuando A1 y A2 son realmente
partes de un sonido, esto constituirá una estrategia
efectiva.
Las reglas que gobiernan la decisión de restaurar "A",

particionando la evidencia proporcionada por "B", son las
siguientes:
La regla de "no discontinuidad en A". No debe haber

evidencia de que "B" está realmente cubriendo un silencio
entre A1 y A2 en vez de que esté cubriendo la continuación
de "A". Esto significa que no debe haber evidencia de que
"A" realmente termina cuando "B" comienza o recomienza
cuando "B" termina. No debe haber lapsos audibles de
silencio entre A1, "B", y A2, y no debe haber cambios en la
amplitud de A1 o A2 cerca de los límites de "B".
La regla de "plenitud de evidencia". Mientras transcurre

"B", algún subconjunto de la actividad neuronal en el
sistema auditivo debe ser indistinguible de la actividad
que hubiera ocurrido si "A" hubiera continuado realmente.
Esto implica que "B" debe ser lo suficientemente más
intenso que "A" para proveer estimulación adecuada en los
canales neuronales de frecuencia estimulados normalmente
por "A". Si "B" tiene diferente frecuencia que "A",
entonces "B" tendrá que tener considerablemente más
intensidad, de manera tal que la diseminación neuronal de
la excitación pueda aportar el monto suficiente de
actividad en los canales de frecuencia que el que aportaría
la presencia de la señal "A" normalmente. Cuando una señal
familiar (tal como una palabra hablada) se reconoce por
medio del sistema de reconocimiento basado en esquemas,
éste debe proveer una hipótesis que explique lo que es la
parte faltante de "A". En éste caso, se requerirá que la
estimulación contenga la evidencia neuronal que es
normalmente activada por la parte perdida de "A".
La regla del "agrupamiento A1-A2". Debe haber evidencia de

que realmente A1 y A2 hayan provenido de la misma fuente.
Esto significa que la heurística del agrupamiento
secuencial los hubiera puesto en el mismo estrato, aun si
hubieran estado separados por un silencio en vez de por
"B". Si "A" y "B" no entran bien en el mismo estrato, la
restauración no será favorecida. La regla permite que las
partes perdidas de dos o más sonidos suaves, interrumpidas
por el mismo sonido con mayor intensidad, sean restauradas
sin confusión. Las partes de cada sonido serán agrupadas
dentro de su propio estrato y será calculada una parte
restaurada para cada estrato.
La regla "A no es B". La transición entre "A" y "B" y

viceversa no debe poder ser interpretada como si "A" fuera
un sonido que cambia a una nueva forma , "B", y luego
vuelve al punto de partida. Si fuera así, el oyente no
debería escuchar dos sonidos, uno de ellos continuando
encima del otro, sino simplemente uno sólo, cambiando de
una forma a otra y volviendo al punto de partida. El
criterio por el cual se escucha interrupción en vez de
transformación es, probablemente, si la tasa de cambio
excede un valor crítico, mostrando así evidencia de
discontinuidad en la señal.
La inducción contralateral ocurre cuando un sonido suave

presentado en un oído se acompaña por otro sonido
"inductor" más intenso en el otro oído. Como resultado, la
localización percibida del sonido más suave es corrida
hacia el centro del cuerpo. La parte interesante de ésto es
que el sonido inductor no necesariamente tiene que ser el
mismo que el sonido más suave. Si fuera así, la inducción
contralateral sería sólo un ejemplo del bien conocido hecho
de que el balance binaural de intensidad para un sonido en
particular determina su localización percibida.
Un ejemplo de inducción contralateral se puede crear

enviando un tono puro a un oído y un estallido de ruido al
otro. Se ha encontrado que, para servir como inductor, el
ruido debe estimular canales de frecuencia neuronal que se
correspondan con aquellos estimulados por el tono puro en
el otro oído. Esto puede ocurrir, o bien porque el inductor
contiene los componentes en frecuencia necesarios, o bien
porque es lo suficientemente intenso como para estimular
los canales de frecuencia correspondientes a través de
diseminación de la excitación neuronal. La inducción
contralateral es un caso en el que el sistema de análisis
de la escena auditiva extrae del ruido a aquellos
componentes de frecuencia que coinciden con los del tono
puro e interpreta a los componentes coincidentes en la
izquierda y la derecha como evidencia para uno localizado
en el centro.
El efecto recuerda la ilusión de continuidad en la que un

sonido complejo se descompone en dos partes: una que
coincide con otro sonido, y un residuo. La parte
coincidente se interpreta como perteneciente al sonido con
el que coincide. En ambos casos, el sonido que debe ser
descompuesto, debe ser mucho más intenso que el otro de
manera tal de que se reciba suficiente estimulación en el
canal neuronal correspondiente para proveer una razonable
coincidencia con el sonido suave.
La inducción contralateral es realmente una manera

particular de ori un evento binaural complejo. El sonido
más intenso se interpreta como enmascarador de la energía
que hubiera surgido de un sonido suave localizado
centralmente, balanceada binauralmente. Debemos estar
prevenidos de que no está garantizado que ésta
interpretación sea la correcta. Sin embargo, es correcta
las suficientes veces, y notamos que es una
"interpretación", sólo cuando condiciones inusuales que
disponemos en el laboratorio causan que sea incorrecta.
La percepción de inducción contralateral no es la única

manera de interpretar una situación de coincidencia
binaural. Podemos bloquearla si disponemos las condiciones
apropiadamente. He aquí una simple demostración. Supongamos
que presentamos un tono suave continuamente al oído
izquierdo y ruido blanco continuamente al derecho. Si
hacemos que el ruido sea lo suficientemente fuerte empujará
la localización del tono al centro. Este es el caso normal
de inducción contralateral. Ahora podemos eliminar la
inducción simplemente haciendo pulsar el ruido mientras
mantenemos el tono quieto. Si hacemos esto, el sistema de
análisis de la escena auditiva detecta el hecho de que hay
grandes cambios de amplitud en un oído que no coinciden con
ningún cambio en el otro, y produce que se favorezca la
interpretación de dos estratos separados del sonido: uno
mantenido en un lado del cuerpo, y otro pulsante en el otro
lado. Se abstiene de centrar el tono durante los momentos
en los que el estallido de ruido aparece, aun cuando algo
de la estimulación del oído derecho podría ser usada para
coincidir con la estimulación del izquierdo.
Los ejemplos de continuidad que hemos discutido muestran

cómo el sistema auditivo puede resistir casos de
enmascaramiento momentáneos. El enmascaramiento ocurre
cuando no hay manera de juzgar si una parte de la
estimulación sensorial debe ser tratada como un sonido
separado.(Por analogía, no vemos a una mancha roja en el
centro de un papel totalmente rojo, ya que no existe
frontera entre la mancha y el resto del papel). La audición
usa un número de métodos para detectar el hecho de que una
parte incluída en una mezcla compleja de estimulación, debe
ser extraída e interpretada como un sonido separado. Un
tipo de indicio es hallar el sonido aislado antes y después
de la mezcla compleja. Otra es detectar una versión más
clara, más aislada, del sonido en el otro oído. Una tercera
es detectar una diferencia entre la frecuencia fundamental
del espectro incluído, y el resto del espectro. En resumen,
puede usar cualquiera de las heurísticas del sistema de
análisis de la escena auditiva.

Bregman

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bregman

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE QUILMES

CARRERA DE COMPOSICION CON MEDIOS ELECTROACUSTICOS

Bregman, Albert S. Auditory scene analysis: the perceptive

MIT Press, USA, 1994

Traducción parcial de Oscar Pablo Di Liscia, para uso en la

Resumen y conclusiones: qué sabemos y qué no sabemos acerca

1)Análisis primitivo de la escena de audición.

El problema del análisis de la escena es éste: a pesar de

El proceso primitivo de análisis de la escena parece

Integración secuencial: Segregación del estrato auditivo

La integración secuencial es evidente en numerosos

Una clase de estímulos que se ha usado es un bucle corto de

Otra forma de estímulo ha sido una melodía o un patrón

Factores que influencian a la segregación de estratos

Las mas importantes influencias en la segregación de

Sin embargo, el efecto de separación en frecuencia y

Sabemos que el resultado de diferentes velocidades proviene

Ya que la mayoría de los estudios usan secuencias en las

Parece que el proceso de formación de estratos se comporta

Cuando hablamos de proximidad de sonidos en frecuencia o en

Las unidades, una vez formadas por esos procesos, pueden

Una de las similitudes que afecta a la agrupación de

El análisis primitivo de la escena tiende a agrupar sonidos

Cuando una voz hablando se alterna rápidamente entre los

Cuando se alternan clicks entre los dos oídos, la velocidad

En un sonido complejo, la altura percibida depende de la

Esto nos permite formularnos la pregunta que no habíamos

Altura y brillo son propiedades unidimensionales del

Hay otro tipo de altura que puede oirse en bandas de ruido

El timbre es otro factor que afecta a la similitud de

Probablemente una dimensión diferenciada del timbre sea el

La diferencia de cualidad entre tonos y ruidos también se

He sugerido que el patrón de picos y valles en el espectro

Mucha de la investigación en agrupamiento secuencial de los

Si tomamos cada momento de cada componente de frecuencia en

Se ha argumentado que las diferencias de amplitud entre

Cuando se escucha la repetición alternada de sonidos agudos

Parece, sin embargo, que un cambio súbito en las

El efecto acumulativo de exposición a la alternancia entre

El sonido contínuo se mantiene mejor como un estrato único

El uso de continuidad no implica necesariamente que el

Resumen de factores que promueven el agrupamiento

Muchos de los factores que favorecen el agrupamiento de una

De manera general, los efectos perceptivos de la

Se puede demostrar que nuestras representaciones

En algún sentido estamos hablando de camouflagge y diciendo

Hasta ahora la mayoría de la investigación sobre

Las relaciones temporales pueden ser también más fácilmente

La segregación de estratos sonoros puede afectar también al

tendría este ritmo:

El ritmo tiende a ser definido por sonidos que caen dentro

El solapamiento temporal de los sonidos también es afectado

Nuestra habilidad para detectar el lapso entre dos sonidos

Surge que los factores que promueven el agrupamiento del

Además de competencia, también hay colaboración. Si un

Competir y extraer no sería posible si un mismo sonido

Cualquiera de los efectos que he mencionado se podría usar

El agrupamiento secuencial que se observa en la segregación

No sólo la visión y la audición muestran ciertas

He ofrecido una explicación de la segregación de estratos

Sin embargo, se han ofrecido teorías funcionales que

Otra teoría es similar a la de la atención-como-un-filtro,

La teoría de agrupamiento de la Gestalt es similar a la