CARRERA DE COMPOSICION CON MEDIOS ELECTROACUSTICOS
Bregman, Albert S. Auditory scene analysis: the perceptive
organization of sound
MIT Press, USA, 1994
Traducción parcial de Oscar Pablo Di Liscia, para uso en la
Cátedra de Composición con Medios Electroacústicos.
Capítulo 8
Resumen y conclusiones: qué sabemos y qué no sabemos acerca
del análisis de la escena auditiva.
1)Análisis primitivo de la escena de audición.
El problema del análisis de la escena es éste: a pesar de
que necesitamos construir descripciones mentales separadas de los diferentes eventos productores de sonido en nuestros entornos, el patrón de energía acústica que es recibido por nuestros oídos es una mezcla de los efectos de los diferentes eventos. Parece que nuestro sistema auditivo resuelve el problema de dos maneras: por el uso de procesos primitivos de agrupamiento de audición, y gobernando el proceso de audición a través de esquemas que incorporan nuestro conocimiento de sonidos familiares. Este libro ha tratado principalmente los procesos primitivos, a pesar de que se ha intentado descubrir si los efectos de los dos tipos de procesos pueden distinguirse el uno del otro. Comenzaré este resumen hablando de los procesos primitivos.
El proceso primitivo de análisis de la escena parece
emplear la estrategia de dividir un vector de energía de entrada en un gran número de análisis separados. Estos pertenecen a momentos particulares y a regiones de frecuencias particulares del espectro acústico. Cada región se describe en términos de su intensidad, su patrón de fluctuación, la dirección de las transiciones de frecuencias en él, una estimación de dónde el sonido viene en el espacio, y quizá otros rasgos. Luego de que estos numerosos análisis individuales se han hecho, el sistema auditivo tiene el problema de decidir cómo agruparlos de manera tal en que cada grupo haya sido derivado del mismo evento del entorno. El agrupamiento ha de ser realizado en dos dimensiones, al menos: a lo largo del tiempo y a lo largo del espectro. Yo llamo al agrupamiento temporal integración secuencial y al otro integración simultánea. Los capítulos de este libro han sido organizados de acuerdo con esta división. Sin embargo, yo he señalado que las dos formas de agrupamiento operan a menudo en conjunto para resolver el problema.
Integración secuencial: Segregación del estrato auditivo
La integración secuencial es evidente en numerosos
contextos, pero un patron popular de estímulos para estudiarla ha sido el que da lugar a la segregación del estrato auditivo. Esto ocurre cuando una secuencia de sonidos salta rápidamente hacia arriba y hacia abajo entre diferentes regiones de frecuencia. El caso más simple es una alternancia rápida y repetida de un sonido alto y uno bajo. Si la alternancia es lo suficientemente rápida y también la separación de frecuencia, los oyentes no perciben un sólo estrato de sonidos alternándose en altura, sino que perciben dos estratos, uno que consiste en la repetición del sonido agudo y el otro que consiste en la repetición del grave. Cuando se perciben dos estratos, el oyente tiene la impresión de que hay dos fuentes de sonido diferentes, una aguda y la otra grave, cuyos sonidos ocurren más o menos al mismo tiempo. En patrones más complejos, en los que un número de sonidos con alturas altas ligeramente diferentes son intercalados con número de sonidos con alturas bajas ligeramente diferentes, el oyente percibirá todavía dos estratos, pero esta vez cada uno de ellos tendrá un patrón melódico que se restringe a los sonidos de cada estrato.
Una clase de estímulos que se ha usado es un bucle corto de
sonidos. Estos fueron elegidos de regiones de frecuencia diferentes, una alta y la otra baja. Las propiedades de los sonidos han sido variadas y los efectos de segregación de estrato observados todavía.
Otra forma de estímulo ha sido una melodía o un patrón
tonal corto con sonidos "perturbadores"(2) intercalados. Las relaciones de frecuencia entre los sonidos "perturbadores" y los relevantes se han variado. Cuando los dos conjuntos de sonidos están en la misma región de frecuencia, la melodía desaparece dentro de un patrón formado por todos los sonidos, pero si están en dos regiones de frecuencias diferentes, la melodía se escucha como un estrato independiente. Esta clase de estímulos se han usado para estudiar la segregación primitiva, pero es más apropiada para el estudio de la segregación basada en esquemas. La segregación del estrato auditivo ha sido conocida por los músicos desde el barroco, en el que se usaba para producir la impresión de dos líneas melódicas aun cuando el instrumento que tocaba la secuencia sólo podía producir una nota a la vez. Esto era posible por la alternancia rápida entre una línea melódica aguda y una grave.
Factores que influencian a la segregación de estratos
sonoros
Las mas importantes influencias en la segregación de
estratos son la velocidad de la secuencia tonal y la separación entre los dos subconjuntos de sonidos que se intercalan. La segregación se incrementa en la medida en que los subsets se separan en frecuencia, y se vuelve cada vez más difícil para un oyente escuchar la misma secuencia como un estrato simple de sonido. (Una escala logarítmica parece ser la que mejor refleja la segregabilidad de las frecuencias). La segregación se incrementa en la medida en que la secuencia se acelera. Como consecuencia de esto, los efectos de separación en frecuencia y en tiempo pueden ser organizados también uno en contra del otro. En la medida en que la separación en frecuencia se incrementa, la secuencia se debe hacer más lenta si el oyente debe percibir todos los sonidos como parte de un solo y coherente estrato de sonido.
Sin embargo, el efecto de separación en frecuencia y
velocidad dependen de aquello que los oyentes están intentando hacer. Si están intentando oir todos los sonidos como parte de una sola secuencia, los efectos son tal como los describí. Pero si están tratando de dirigir su atención en los sonidos de sólo uno de los estratos, los efectos de la separación en frecuencia y en tiempo son diferentes. La separación en frecuencia desde el más agudo al más grave de los sonidos necesita excederse sólo en un pequeño monto (algunos semitonos, para el caso de dos sonidos que se alternan) antes que la secuencia de destino sea seguida con atención. Incrementos posteriores en la separación no incrementan la segregación y la capacidad de seguir al estrato elegido es virtualmente inalterada por la velocidad de la secuencia. A causa de la diferencia de efectos cuando los oyentes intentan escuchar coherencia o segmentación, yo propuse que dos factores diferentes se ponen en juego. Una segregación primitiva es afectada por la separación en frecuencia y en tiempo. El otro, la segregación basada en esquemas, involucra a la atención y es usado para focalizar la atención en uno de los estratos. La atención del oyente puede siempre ser dirigida a través de un rango reducido de frecuencia, cuando se requiere para la tarea. Mas allá de la mínima separación en frecuencia necesaria para no confundir las notas del estrato que es seguido con los otros, el proceso de atención no es afectado por la separación entre las frecuencias.
Sabemos que el resultado de diferentes velocidades proviene
del hecho de que determinados intervalos temporales han sido afectados. Pero no sabemos exactamente cuáles. Si el efecto se basa en correr cerca en el tiempo los sonidos de un mismo rango de frecuencia, esperaremos que el intervalo de tiempo entre el final de un sonido y el comienzo del otro, en el mismo rango, será lo más importante. Sin embargo, alguna evidencia sugiere que la separación entre los intervalos de ataque es la importante. Hay otra cuestión, también. ¿Cual es más importante: el intervalo entre dos sonidos sucesivos en el mismo rango de frecuencia o aquel entre dos sonidos sucesivos en distintos rangos de frecuencia?
Ya que la mayoría de los estudios usan secuencias en las
que las que los silencios entre los sonidos de un estrato y los de los dos estratos son iguales, es imposible decir cual de ellos es el crítico.
Parece que el proceso de formación de estratos se comporta
en una manera análoga al principio de agrupamiento por proximidad de la Gestalt. Los sonidos agudos tienden a agruparse con los otros sonidos agudos si se disponen próximos en el tiempo por la aceleración de la secuencia.
Cuando hablamos de proximidad de sonidos en frecuencia o en
tiempo, asumimos que el estrato se compone de unidades discretas. ¿Qué pasa en los casos en que el sonido es contínuo? ¿En donde están las unidades? Parece que hay un proceso uniforme que es sensible a las discontinuidades del sonido, particularmente a los aumentos súbitos de intensidad, y esto crea delimitaciones en unidades cuando estas discontinuidades ocurren. Las unidades pueden ocurrir en diferentes escalas temporales y aquellas más pequeñas son subsumidas en las más grandes. Cuando la secuencia se acelera, los cambios en las pequeñas unidades pueden ser perdidos por el sistema auditivo, y otros cambios, muy lentos para formar unidades en la velocidad más baja, pueden ahora ser súbitamente suficientes para controlar la formación de unidades.
Las unidades, una vez formadas por esos procesos, pueden
formar grupos con otras similares. La similitud es determinada por análisis aplicados a las unidades una vez que han sido formadas. Por ejemplo, supongamos que hay un deslizamiento en la frecuencia delimitado por un incremento y una caída en la intensidad. Entre esos límites, el cambio en frecuencia puede ser medido por el sistema auditivo y asignado a esa unidad como una de sus propiedades. Esta unidad con corrimiento de frecuencia se unirá, de preferencia, con otras cuyo contorno de frecuencia sea similar y que se encuentren en la misma región de frecuencia.
Una de las similitudes que afecta a la agrupación de
sonidos es su ubicación espacial. Los ingenieros que trabajan en la segregación automática de sonidos simultáneos han usado a la separación espacial como el único medio poderoso para determinar si el sonido proviene de un solo evento físico (usualmente, un hablante). Los humanos usan el origen espacial también, pero no le confieren un rol tan subyugante. Lo pueden hacer muy bien al segregar más de un estrato de sonidos que provienen de un punto espacial, por ejemplo, un parlante.
El análisis primitivo de la escena tiende a agrupar sonidos
que provienen del mismo punto espacial y segregar aquellos que vienen de distintos puntos. Como consecuencia, si dos sonidos, diferentes en frecuencia, se alternan entre los dos oídos, no forman un estrato único y coherente. La separación en frecuencia, la velocidad y la localización se combinarán para influenciar a la segregación. Las diferencias espaciales parecen tener efecto más fuerte en la segregación cuando se combinan con otras diferencias entre los sonidos. Se pueden crear ilusiones estableciendo una competencia entre la tendencia a agrupar sonidos por su similitud en frecuencia y su similitud espacial. Un ejemplo de esto es la ilusión de escala de Diana Deutsch (3).
Cuando una voz hablando se alterna rápidamente entre los
dos oídos, es difícil de seguir. Una razón es que cuando el cambio se produce, causa un súbito aumento de intensidad en un oído y un súbito descenso en el otro. Si el oyente combinara simplemente ambos cambios, no habría tal alteración en la señal. Pero esto no ocurre. Los cambios en ambos oídos son tratados como eventos separados. Como resultado, falsos comienzos y finales de sílabas son percibidos, y esto perjudica la inteligibilidad.
Cuando se alternan clicks entre los dos oídos, la velocidad
de los clicks parece ser más lenta cuando todos provienen del mismo oído. Cuando a los oyentes se les pide una cuenta de la secuencia total, lo hacen mejor cuando los clicks no se alternan que cuando se alternan entre los dos oídos. Ambos efectos parecen ser el resultado de la segregación de estrato auditivo parcialmente basada en la cualidad espacial. Hasta ahora me he referido a diferencias de frecuencias entre dos sonidos. Los lectores habrán traducido esto a "diferencias en altura". Esto es así sólo si trabajamos con tonos puros (sinusouidales) cuya altura se corresponde con la frecuencia que tienen. Pero sabemos que en sonidos complejos, que tienen muchos componentes de frecuencia, esta equivalencia simple puede destruirse.
En un sonido complejo, la altura percibida depende de la
estimación de su fundamental que realiza el sistema auditivo, en base al conjunto de sus parciales. Esta fundamental no necesita estar presente siquiera. Todo lo que se requiere (como una primera aproximación) es que los parciales presentes sean múltiplos enteros de la misma frecuencia fundamental. Podemos tener, por consiguiente, el caso en que un sonido con una altura más baja tenga parciales cuyo promedio es más alto en frecuencia que el promedio de los parciales de otro sonido cuya altura es mayor. (el primer sonido será más "brillante" que el segundo, aún a pesar de la diferencia de altura).
Esto nos permite formularnos la pregunta que no habíamos
podido hacernos con las secuencias de tonos puros. ¿Es la diferencia en la frecuencia fundamental (altura) de los sonidos o la diferencia entre el promedio de sus parciales (brillo) lo que afecta a su agrupamiento perceptivo? La respuesta es que son ambas y que, además, el efecto es aditivo. Un sonido puro tiene un contenido espectral diferente al de uno complejo; así, aun si ambos tienen la misma altura, tenderán a segregarse en una secuencia rápida. Otro tipo de agrupamiento también ocurre: un sonido puro, en vez de agruparse con el sonido complejo total que le sucede, puede agruparse sólo con uno de sus componentes.
Altura y brillo son propiedades unidimensionales del
espectro de un sonido. Sin embargo, cuando un espectro tiene un número de picos (como el de una vocal), puede haber varias maneras en que se parezca a otro. Pocos estudios de la segregación de estratos se han hecho en secuencias con sonidos complejos y aquellas que se han hecho no han tenido en cuenta analíticamente a las dimensiones que el sistema auditivo usa para resumir los variados y complejos contornos de los espectros.
Hay otro tipo de altura que puede oirse en bandas de ruido
filtrado. Cuando el ruido tiene componentes de altas frecuencias, suena más agudo. Las diferencias en el contenido de frecuencias pueden causar que secuencias formadas por impulsos de ruido sean segregadas en estratos agudos y graves, de manera igual que las secuencias formadas por sonidos puros. Timbre
El timbre es otro factor que afecta a la similitud de
sonidos y, consecuentemente, a su agrupamiento en estratos. La dificultad es que el timbre no es una propiedad simple - unidimensional- de los sonidos. Puede incluso no ser reductible a un pequeño número de dimensiones.
Probablemente una dimensión diferenciada del timbre sea el
brillo. Sabemos que sonidos similares en su brillo tienden a ser asignados al mismo estrato. El brillo es, simplificando, la frecuencia media que se obtiene cuando todos los componentes de un sonido son evaluados de acuerdo con su amplitud. Los sonidos brillantes tienen concentrada mayor parte de su energía en las frecuencias altas que la que los sonidos oscuros.
La diferencia de cualidad entre tonos y ruidos también se
puede pensar como una diferencia de timbre. Los componentes de frecuencia de los ruidos cambian rápidamente en amplitud y fase, mientras que los de los tonos son aproximadamente constantes. Una secuencia rápida puede crearse alternando tonos puros con ruidos cuyas precuencias centrales coincidan con la de los tonos. La secuencia se segregará en dos, una formada por los ruidos y otra por los tonos puros. Se necesita realizar mucha investigación todavía en el efecto espectral del ruido controlando el agrupamiento de los sonidos.
He sugerido que el patrón de picos y valles en el espectro
de los sonidos puede afectar su agrupamiento. Otra manera de decir esto es que el agrupamiento es afectado por el patrón de las intensidades de los varios armónicos en los espectros de varios sonidos sucesivos. Sin embargo, no sabemos cómo comparar los espectros de dos sonidos sucesivos cuyas fundamentales difieren. Podríamos considerar que dos sonidos tienen el mismo patron de intensidades si sus armónicos tienen picos a las mismas frecuencias. En la naturaleza esto podría significar que están pasando por el mismo conjunto de resonadores (un tracto vocal de igual tamaño, por ejemplo). Por el otro lado, podríamos considerarlos iguales si sus armónicos correspondientes fueran de intensidad proporcional. Esto significaría que, si la frecuencia fundamental del segundo sonido fuera el doble de la del primero, todos los picos en el espectro estarían al doble de la frecuencia. En la naturaleza, esto significaría que las propiedades de los dos cuerpos vibrantes son similares (en vez de los resonadores por los que pasaron). La evidencia disponible (y es escasa) sugiere que ambas formas de similaridad espectral se usan en el análisis de la escena auditiva para agrupar sonidos sucesivos.
Mucha de la investigación en agrupamiento secuencial de los
sonidos ha usado, o bien sonidos sinusoidales(4), o bien impulsos de ruido. La mayoría de los sonidos del mundo natural no son así. Por ejemplo, los sonidos naturales cambian de espectro en el tiempo. Pensemos en una voz, que abarca todos los tipos de sonido, o una cuerda de guitarra punteada, que tiene un ataque intenso, ruidoso y brusco y se extingue gradualmente hasta casi una sinusoide. No ha habido casi investigación en agrupamiento secuencial de sonidos cambiantes aparte de unos pocos en el campo del habla y estudios de transiciones (5) entre sonidos puros. El estudio de como los sonidos cambiantes se organizan de manera perceptiva proporciona una rica oportunidad para la investigación. Entre los factores que requieren estudiarse se encuentran la silueta del ataque, los cambios en el tiempo de las intensidades de los armónicos, las fluctuaciones en la intensidad global y la funadamental del sonido, y la granularidad del sonido.
Si tomamos cada momento de cada componente de frecuencia en
cuenta, advertimos que los sonidos pueden diferir uno de otro acústicamente en un número sorprendentemente grande de formas. ¿El sistema auditivo trata esta complejidad colapsando las diferencias en un número más pequeño de dimensiones? Sabemos que intensidad, frecuencia fundamental y brillo son dimensiones separadas, pero ¿hay un número limitado de otras dimensiones del timbre? Una demostración de que hemos entendido algún conjunto de dimensiones sería nuestra habilidad para construir timbres metamétricos. En la visión, los colores metamétricos son los que se ven idénticos a pesar de que su contenido espectral es diferente. Por analogía, los timbres metamétricos sonarían iguales (en cierto sentido) a despecho de diferencias acústicas obvias. Para nuestros propósitos en el estudio de la escena auditiva, no sería tan importante que suenen igual, sino que sus tendencias de agrupamiento sean idénticas. Esto es, la sustitución de uno por otro dejaría invariantes a los grupos respecto de su patrón original.
Se ha argumentado que las diferencias de amplitud entre
sonidos controlan su agrupamiento. Los altos se agruparían con otros del mismo tipo y así con los suaves. Sin embargo los estudios realizados con sonidos que difieren en intensidad me ha hecho preguntarme si el agrupamiento basado en intensidad es el resultado del análisis primitivo de la escena auditiva, o de alguna clase de proceso de selección gobernado por esquemas. La solución de esto puede ser como sigue. Los sonidos que difieren sólo en intensidad pueden no tener una tendencia a segregarse entre ellos, pero cuando hay otras diferencias entre los sonidos las diferencias de intensidad pueden aumentar la segregación. Otra vez no lo sabemos realmente y más investigación se requiere para resolver la cuestión.
Cuando se escucha la repetición alternada de sonidos agudos
y graves que están lo suficientemente separados en frecuencia, en un principio se puede seguir la alternancia como un único estrato, pero eventualmente la secuencia parece separarse en dos estratos, uno agudo y el otro grave. Esto muestra que hay un efecto acumulativo de la alternancia entre rangos de frecuencia. La tendencia para que la segregación primitiva subdivida la secuencia crece por 4 segundos por lo menos y toma como mínimo 4 segundos más en desaparecer hasta que la secuencia termina. He interpretado que esta morosidad de los cambios tiene una función útil. Previene al sistema auditivo de la oscilación desatinada entre diferentes modos de organización de la escena auditiva. Una vez que alguna interpretación de un número de fuentes sonoras ha ocurrido, no desaparece instantáneamente sólo a causa de que alguna de las fuentes no haya sido oída por un segundo o dos. Este tipo de "histéresis" es observado en un gran número de fenómenos perceptuales dentro de diferentes modalidades de sentido.
Parece, sin embargo, que un cambio súbito en las
propiedades acústicas de la señal puede inicializar el mecanismo de percepción de estrato más rápidamente de lo que puede el mero silencio. Por ejemplo, un cambio súbito en el rango de frecuencia ocupado por la señal, o de localización espacial de la que el sonido parece venir pueden causar que una secuencia segregada sea percibida como no-segregada. Obviamente, el sistema de análisis de escena auditiva trata a esta clase de cambios como indicadores de que se está encontrando con un nuevo evento sónico.
El efecto acumulativo de exposición a la alternancia entre
rangos de frecuencia diferentes ha sido explicado de varias maneras. La explicación que favorezco dice que el sistema auditivo va construyendo gradualmente la evidencia de que la secuencia contiene actualmente diferentes subconjuntos de sonidos con distintas propiedades y que estos deben ser ordenados en estratos separados. Una explicación alternativa de los efectos acumulativos que se observan ante la exposición prolongada a secuencias es que la integración en un estrato individual se hace mediante detectores de saltos de frecuencias. Cuando la secuencia continúa saltando arriba y abajo en frecuencia el detector se cansa. En este punto sólo pueden sucederse saltos más pequeños, y la frecuencia se divide en subestratos. A pesar de que las dos explicaciones parecen diferentes, no son incompatibles. Debe notarse que la primera es funcional, mientras que la otra se establece en términos fisiológicos. Puede ser que los eventos fisiológicos descriptos en esta sirvan a la función descripta en la primera.
El sonido contínuo se mantiene mejor como un estrato único
que el discontínuo. Esto se puede demostrar comparando dos tipos de secuencias. En una discontínua hay una alternacia de sonidos agudos y graves y todos ellos mantienen una altura fija que se separa de sus vecinos. En la secuencia contínua se liga cada sonido agudo con sus dos vecinos por medio de un deslizamiento en frecuencia. La secuencia contínua se mantiene unida mejor que la otra. Esta coherencia de las secuencias contínuas se puede interpretar en términos funcionales como una heurística del sistema auditivo. Esta heurística es equivalente a una apuesta a favor de que cualquier secuencia que exibe continuidad acústica proviene probablemente de un evento individual de un entorno.
El uso de continuidad no implica necesariamente que el
sistema auditivo siga cambios y prediga las propiedades del siguiente momento de sonido. No creo que el proceso primitivo haga esto. Sin embargo, hay buenas razones para creer que los procesos de integración basados en esquemas emplean esta estrategia.
Resumen de factores que promueven el agrupamiento
secuencial.
Muchos de los factores que favorecen el agrupamiento de una
secuencia de entradas auditivas son rasgos que definen la similaridad y la continuidad de los sonidos sucesivos. Esto incluye su frecuencia fundamental, su proximidad temporal, el contorno de sus espectros, su intensidad y su espacio de origen aparente. Estas características afectan el aspecto secuencial del análisi de la escena. Mi descripción parece implicar que las cosas que se agrupan secuencialmente pueden ser pensadas como sonidos. Esto es a causa de que los ejemplos que dí fueron establecidos en términos de sonidos simples en vez de en términos de mezclas de sonidos. Encontramos que los mismos factores sirven para promover el agrupamiento secuencial de sonido en mezclas, pero, en este caso, no es el sonido completo, sino partes de su espectro lo que se agrupa secuencialmente. Este agrupamiento resultante ayuda al cerebro a crear descripciones separadas de los sonidos componentes en una mezcla. Efectos de la segregación de estratos sonoros.
De manera general, los efectos perceptivos de la
segregación y agrupación secuencial se derivan de su rol en el análisi de la escena auditiva. Material auditivo que ha sido asignado al mismo estrato tiene una tendencia mucho más fuerte a ser usado junto en una computación perceptiva. Las propiedades emergentes del sonido son más plaudibles de ser computadas dentro de elementos de un mismo estrato. Por consiguiente, patrones secuenciales que involucran a elementos del mismo estrato sonoro son más fácilmente percibidos. Esta descripción general toma muchas formas específicas.
Se puede demostrar que nuestras representaciones
perceptivas de cualquier patrón tienden a incluir material que está dentro de un estrato sonoro y a excluir material que no está en él. Por ejemplo, si a los oyentes se les invita a reconocer un diseño que está intercalado con sonidos perturbadores, cualquier factor que cause que estos sonidos caigan en un estrato sonoro aparte harán que el diseño sea más fácil de reconocer. Esto es verdad, así el diseño que traten de reconocer sea una melodía familiar o una secuencia extraña que hayan tocado como un "standard" y hayan mantenido en sus memorias inmediatas.
En algún sentido estamos hablando de camouflagge y diciendo
que sólo un material propio de un estrato sonoro puede camouflar a un objetivo. Aun una tarea simple como contar una cantidad de notas es más fácil de realizar cuando todos las notas están en un único estrato sonoro.
Hasta ahora la mayoría de la investigación sobre
reconocimiento ha usado a las diferencias de altura para segregar estratos sonoros, pero no hay razón para que los otros factores que se han enumerado no se puedan usar.
Las relaciones temporales pueden ser también más fácilmente
percibidas cuando involucran elementos que han sido agrupados secuencialmente por el análisis de la escena auditiva. Por ejemplo, es difícil detectar el orden de todos los sonidos en un rápido ciclo repetido cuando caen en más de un único estrato sonoro. (Si queremos crear una clara demostración de esto, tenemos que diseñar la tarea en una manera en que sea imposible para un oyente obtener la respuesta correcta considerando sólo un estrato de por vez)
La segregación de estratos sonoros puede afectar también al
ritmo de una secuencia percibida. Por ejemplo, si creáramos una secuencia de sonidos equidistantes en la que cada tercer sonido fuera una octava más agudo que los otros, se dividiría en dos estratos sonoros. El estrato más agudo
tendría este ritmo:
- H - H - H......
El más grave:
L L - L L - L L -......
El ritmo tiende a ser definido por sonidos que caen dentro
del mismo estrato sonoro.
El solapamiento temporal de los sonidos también es afectado
por la segregación. Si un ciclo rápido de seis sonidos consiste en una alternancia de tres agudos y tres graves, todos de igual duración, se divide perceptualmente en dos estratos. Si se escuchan los dos estratos, muy a menudo se tiene la sensación de que los dos ciclos van a diferentes velocidades. Es muy difícil saber si los sonidos en el estrato agudo no están solapados temporalmente con los del ciclo grave.
Nuestra habilidad para detectar el lapso entre dos sonidos
parece ser afectada por la segregación, aun cuando los sonidos no sean parte de una larga secuencia. Se hace cada vez más difícil juzgar la extensión del lapso en la medida en que la separación de frecuencia entre los dos sonidos aumenta. No es absolutamente sabido si esto es a causa de la segregación del estrato sonoro o es otro efecto de la separación en frecuencia. Para averiguarlo, debiéramos observar si obtenemos el mismo efecto al reemplazar la diferencia en frecuencia por otro factor que se sabe que es afectado por la segregación de estrato sonoros.
Surge que los factores que promueven el agrupamiento del
material de audición actúan de una manera competitiva. Por ejemplo, supongamos que tenemos un ciclo de cuatro sonidos, ABCD. Si los dos sonido, A y B se separaran en frecuencia de los otros dos, entonces A y B podrían formar un estrato separado. Pero en un ciclo diferente, ABXY, los mismos sonidos A y B si alguno de ellos se agrupara más fuertemente con X y otro con Y. Las proximidades de frecuencias son competitivas y el sistema trata de formar estratos agrupando elementos que poseen la más fuerte similitud entre sí. A causa de esta competencia, somos capaces de crear experimentos en los que podemos "extraer" un elemento de un grupo secuencial al darle un sonido mejor para que se agrupe con él. Esta competencia ocurre también entre diferentes factores que favorecen el agrupamiento. Por ejemplo, en una secuencia de cuatro sonidos ABXY, si la similitud en la frecuencia fundamental favorece el agrupamiento AB y XY, mientras que la similitud de picos espectrales favorece AX y BY, entonces el agrupamiento actual dependerá en las relaciones de tamaño de las diferencias. Si las diferencias entre las fundamentales son grandes mientras que las diferencias del espectro son pequeñas, las primeras controlarán el agrupamiento.
Además de competencia, también hay colaboración. Si un
número de factores favorecen el agrupamiento de la misma manera, este será muy fuerte y los mismos sonidos serán siempre escuchados como parte del mismo estrato sonoro. El proceso de competencia y colaboración es simple de conceptualizar. Es como si cada dimensión acústica pudiera votar a favor de un agrupamiento, con cada voto que lanza determinado por el grado de similitud en esa dimensión y su importancia. Entonces los estratos sonoros cuyos elementos se agruparan por la mayor cantidad de votos se formarían. Este sistema de votación sería valioso en un entorno natural, en el que no está garantizado que sonidos que se parecen sólo en una manera o dos surjan siempre de la misma fuente acústica.
Competir y extraer no sería posible si un mismo sonido
pudiera pertenecer a dos estratos sonoros diferentes al mismo tiempo. Darle a un sonido algo mejor con lo que agruparse no lo removería de su estrato sonoro original. El hecho de que podamos extraer sonidos de un estrato sonoro implica que el cerebro tiene una tendencia en contra de que dos sonidos estén en un mismo estrato sonoro al mismo tiempo. Sin embargo, esta tendencia hacia la "ubicación exclusiva" no es absoluta. Cuando el sistema auditivo encuentra espectros complejos, decide algunas veces que dos sonidos con componentes espectrales compartidos estén presentes al mismo tiempo. Si esta decisión se realiza, algunos de los componentes espectrales se usan para derivar las propiedades de más de un sonido percibido.
Cualquiera de los efectos que he mencionado se podría usar
para medir la fuerza de la segregación de estratos sonoros. Algunos, sin embargo, no son utilizables en experimentos dado que son fuertemente influenciados por factores diferentes de los del agrupamiento primitivo. La indicación más confiable de que un fs se ha formado es la exclusión de ciertos sonidos de un patrón percibido, aun si los oyentes tratan de incluirlo. No sería una medida válida si están tratando de excluírlo. Su éxito podría deberse a procesos de atención gobernados por esquemas antes que a un análisis primitivo y preatentivo de la escena. Por consiguiente, la falla en la inclusión es una mejor medida que el éxito en la exclusión.
El agrupamiento secuencial que se observa en la segregación
de estratos sonoros tiene dos analogías con la visión. El primero es la tendencia de la percepción visual de agrupar elementos que están cerca el uno del otro en el espacio. A menudo vemos los mismos agrupamientos que escuchamos en los diagramas visuales de patrones de sonidos. Aparentemnte, la proximidad tiene los mismos efectos en la visión que en la audición. Una analogía más dinámica para la segregación de estratos en la visión es el movimiento aparente. El capítulo 1 mostró cómo los dos fenómenos presentan efectos muy similares.
No sólo la visión y la audición muestran ciertas
similitudes entre sí, sino que los eventos en la visión pueden afectar cómo los sonidos son percibidos y viceversa. Es posible que ya desde nuestro nacimiento estemos capacitados para relacionar visión con audición. Un recién nacido estará más tiempo mirando un rostro que parezca visualmente estar hablando las mismas palabras que está escuchando, que otro que no. Un ejemplo de esta interrelación es que el agrupamiento de sonidos puede influenciar al agrupamiento de eventos visuales con el que se sincroniza, y viceversa. Supongamos que dos luces están demasiado separadas como para dar una sensación de movimiento si son apagadas y prendidas alternadamente (esto es, no son tratadas como parte del mismo evento). Podemos mejorar el movimiento percibido si son sincronizadas con un sonido agudo y uno grave respectivamente, provistos del hecho de que los dos sonidos sean percibidos como parte del mismo evento acústico. Podemos arreglar esto eligiendo sonidos que estén lo suficientemente cerca en frecuencia para ser incluídos en el mismo estrato sonoro. No está claro todavía si esta clase de coordinación tiene un propósito útil. Otras formas de coordinación tienen más obvios beneficios. Por ejemplo, la tendencia a experimentar que un sonido viene de una ubicación en la que los eventos visuales ocurren con el mismo patrón temporal (el llamado efecto de ventrilocuismo) puede interpretarse como una manera en la que la evidencia visual acerca de la ubicación de un evento puede suplementar una evidencia auditiva imprecisa. La dirección de la influencia no es sólo desde la visión a la audición, sino en reversa, desde la audición también.
He ofrecido una explicación de la segregación de estratos
sonoros en términos de análisis de la escena. Otras explicaciones, sin embargo, han sido ofrecidas por otros. Algunas de ellas son fisiológicas. Una propuesta es que el solapamiento de poblaciones de células en el oído interno debe ser estimulado por sonidos sucesivos antes de que una secuencia pueda ser integrada. Cuando esta condición es violada, se forman estratos sonoros separados para agrupar los sonidos que no conforman los requerimientos. Una pieza de evidencia en contra de esta explicación es que, bajo ciertas circunstancias, sonidos en los oídos opuestos pueden agruparse en el mismo estrato sonoro. Esos sonidos, obviamente, no están afectando a las mismas células. Otra teoría que fué mencionada es la del detector de saltos de frecuencias que debe registrar la transición entre sonidos sucesivos antes de que la secuencia sea integrada. Con alternancia rápida repetida, el detector se cansa y sólo puede seguir pequeños saltos. Esta teoría tiene la ventaja de ser análoga a la teoría del detector de movimiento que ha explicado exitosamente ciertos fenómenos visuales. Ninguna de estas teorías fisiológicas puede explicar todos los hechos acerca de la formación de estratos auditivos, pero aun si pudieran, no podrían competir con la explicación del análisis de la escena, que es funcional en vez que fisiológica en su naturaleza. Describirían meramente la maquinaria por medio de la que el análisis de la escena se realiza.
Sin embargo, se han ofrecido teorías funcionales que
compiten más directamente con la teoría del agrupamiento primitivo y preatentivo de evidencia acústica. Estas teorías ven al lugar de la segregación y el agrupamiento como pertenecientes al proceso de atención en sí mismo. La atención es vista como el intento de seguir cambios en los estímulos. Cambios rápidos pueden exceder la capacidad de atención para seguirlos. Algunas veces el proceso que integra sonidos sucesivos ha sido descripto como un filtro que debe dejar pasar todos los sonidos, si se incorporan al mismo acto de atención. El filtro se ha conceptualizado como capaz de cambiar su propia disposición con respecto al rango de propiedades para el que está ajustado (tal como rango de frecuencias que dejará pasar), pero incapaz de cambiar demasiado rápido. Como consecuencia, pierde cambios súbitos en el sonido. Esta es la explicación que se ofrece para determinar porqué un sonido se excluye a veces de un estrato sonoro. De acuerdo con esta explicación, sólo un estrato sonoro existe, aquel al que se le está prestando atención. No existe tal cosa como un segundo agrupamiento de evidencia perceptiva que es estructurada, aun si uno no le está prestando atención. Esta es una importante manera en la que esta clase de teoría difiere de la teoría del análisis primitivo de la escena auditiva. Esta última dice que se forman lazos entre las partes de la evidencia auditiva aun a pesar de que esas partes puedan no estar actualmente dentro del campo de atención.
Otra teoría es similar a la de la atención-como-un-filtro,
excepto que ve a la atención como capaz de integrar una secuencia cuando los cambios en ella pueden ser anticipados como resultado de un aprendizaje previo. Esta tendencia se ve como parcialmente superadora de la inabilidad para seguir cambios bruscos.
La teoría de agrupamiento de la Gestalt es similar a la
idea del agrupamiento preatentivo. Vé a los efectos de similitud, proximidad temporal y continuidad como los principios innatos que determinan el agrupamiento. La idea de fuerzas competitivas de agrupamiento también es parte de la teoría. Sin embargo, los teóricos de la Gestalt no enfatizaron la relevancia de estos principios en la tarea práctica del análisis de la escena.
Integración espectral
He resumido los hechos acerca del agrupamiento secuencial
de la evidencia auditiva, pero esto es sólo una parte de la historia. En mezclas de sonidos el sistema auditivo debe decidir cuales componentes, de entre los que recibe concurrentemente, deben ser tratados como surgiendo del mismo sonido. Este proceso fué estudiado en experiencias simples en las que dos sonidos simples simultáneos, B y C , fueron alternados con un sonido simple, A. (Figura 1.16 del cap. 1). Se encontró que, si B y C comenzaban y terminaban al mismo tiempo, tendían a ser considerados como dos somponentes de un único sonido complejo, BC, que era percibido como de más rica cualidad. Por el otro lado, había una tendencia a tratar a B como una repetición de A cada vez que A estaba más cerca en frecuencia de B. B parecía ser objeto de una rivalidad. Cuando era capturado en un estrato secuencial con A, era menos probable que se percibiera como parte del sonido complejo, BC,. De igual manera, cuando era capturado por C y unido a él, era menos probable que se escuchara como una repetición de A. Parece que el agrupamiento secuencial y el espectral estuvieran en una competición para resolver evidencia competente concerniente al agrupamiento correcto de material sensitivo.
Sonidos deslizantes pueden ser extraídos de las mezclas
también (Ver. Fig. 2.17 del Cap.2) . A un sonido complejo que es realmente una mezcla de sonidos deslizantes simultáneos puros se le puede puede extraer un componente precediéndolo con un sonido puro deslizante. Factores que influencian a la integración espectral
Si miramos el espectrograma de una mezcla de sonidos, como
en la figura 1.4 del Cap. 1, encontramos que el contenido espectral que arriba de un sonido se imbrica con los componentes espectrales del otro tanto en frecuencia como en el tiempo. ¿Cómo puede el sistema auditivo saber qué componentes de frecuencias agrupar para construir una descripción de uno de los sonidos? Parece que lo hace buscando correlaciones o correspondencias entre partes del contenido espectral que sería improbable que ocurrieran por azar.
Un tipo de correspondencia es entre las propiedades
auditivas de diferentes momentos de tiempo. Un espectro complejo puede tener, incluído, un espectro más simple que fué encontrado en un instante anterior. El espectro más simple puede, por ejemplo, terminar junto con el más complejo sin discontinuidad. En este caso, es razonable tratar la parte del espectro que coincide con el anterior como una mera continuación de él y tratar el resto del otro como el resultado de la adición de un nuevo sonido en la mezcla. Esto se puede denominar la heurística del "viejo- más-nuevo". Es esta estrategia la que se observa en experimentos en los que un componente es extraído de un sonido complejo por un sonido precedente.
El agrupamiento de una parte de la entrada auditiva actual
con un material anterior depende de cuán similares son. Sabemos que, al menos, dos factores influencian la similitud: separación en frecuencia y (en el caso de componentes deslizantes) la dirección del cambio en frecuencia. También se agrupan más fuertemente si hay más pequeños silencios separándolos. Nótese que estos factores son ídénticos a los que determinan el agrupamiento secuencial de sonidos simples. Esto nos conduce a creer que la heurística del "viejo-más-nuevo" es otra manifestación de los principios que controlan el agrupamiento secuencial.
Otro aspecto de esta heurística es que la extracción del
viejo espectro del actual crea un residuo cuyas propiedades se escuchan más claramente. Hay alguna evidencia de que el sistema auditivo usa las amplitudes de los componentes espectrales del anterior espectro para decidir no solamente cuáles componentes espectrales sustraer sino también cuanta intensidad dejar en cada frecuencia. Esta es una buena estrategia porque los sonidos nuevo y viejo podrían tener algunos componentes de frecuencia iguales. La sustracción (o un proceso aproximadamente equivalente a esta) provee una estimación de la probable intensidad de los componentes de frecuencias del sonido que ha sido agregado al primero para crear el espectro complejo.
Tenemos también otra forma de decidir cuales componentes,
de los que se reciben al mismo tiempo, deben ser agrupados para formar una descripción de un único evento auditivo. Ciertos tipos de relación entre estos componentes pueden ser usados como indicios de que debieran ser agrupados. El efecto de este agrupamiento es permitir que los análisis globales de factores tales como altura, timbre, intensidad y aun origen espacial sean computados en un conjunto de evidencia sensorial de que probablemente todos vengan del mismo evento en el entorno.
Algunos de los indicios están basados en la relación de
frecuencia entre los componentes. Lo primero es su separación en frecuencia. Cuanto más separados estén, menos probable es que sean tratados como parte de un mismo sonido. Otro hecho es que los parciales más intensos son más fáciles de segregar del espectro. Esto puede ser a causa de que los sonidos más fuertes se resisten mejor al enmascaramiento de las frecuencias vecinas. La contribución de estos dos efectos al análisis de la escena no es completamente claro, y pueden ser efectos laterales de otros principios de diseño del sistema auditivo.
Sin embargo, hay un efecto cuyo valor se puede apreciar
fácilmente. El sistema de análisis de la escena favorece el agrupamiento de parciales relacionados armónicamente con una fundamental. Esto se puede llamar el principio de armonicidad. Su utilidad se relaciona con el hecho de que cuando muchos tipos de cuerpos físicos vibran, tienden a generar espectros armónicos en los que los parciales son múltiplos (aproximadamente) de la misma fundamental. Los ejemplos incluyen muchos sonidos animales, y hasta la voz humana. Por consiguiente, si el sistema auditivo puede encontrar un número de fundamentales que dé cuenta de todos los parciales que están presentes, entonces es muy probable que estemos escuchando ése número de eventos sonoros de un entorno.
Existen varios efectos de este agrupamiento. Uno consiste
en que cada altura se puede derivar separadamente para cada grupo de parciales. Esto nos permite escuchar más de una altura en un solo espectro. Este agrupamiento por armonicidad también explica porqué los espectros inarmónicos parecen tener muchas alturas. Un timbre separado puede ser también derivado para cada serie armónica, posibilitandonos segregar sonidos hablados (con sus diferentes timbres) cuando tienen diferentes alturas. El agrupamiento también tiende a causar que los parciales que están dentro del mismo grupo sean fusionados perceptualmente. Cuando esto ocurre, se hace imposible escuchar las alturas de los parciales individuales. A veces una fusión incompleta de un conjunto de parciales puede ocurrir aun a pesar de que ellos formen más de una serie armónica. Esto es la causa por la que un sonido armónico se unirá tan fuertemente con otro a la octava alta. Todos los parciales del superior coincidirán con los parciales pares del más grave.
El principio del común destino de la Gestalt describe dos
factores que afectan a la integración espectral. Los psicólogos de la Gestalt descubrieron que cuando partes diferentes de un campo perceptivo cambiaban de la misma manera al mismo tiempo, tendían a ser agrupados juntos y eran considerados cambiando en grupo, a causa de su común destino. Un ejemplo visual se puede lograr dibujando dos racimos de puntos, cada uno en una hoja transparente. Cuando las dos son superpuestas, vemos sólo un conjunto más denso de puntos. Sin embargo, si las dos hojas se mueven con un patrón diferente, vemos dos conjuntos de puntos, cada uno definido por su propia trayectoria de movimiento.
El común destino en la audición puede ser definido en
términos de cambios correlacionados en las diferentes frecuencias de diferentes parciales y sus amplitudes. Es conveniente tomar a la voz humana como ejemplo. Variaciones en la altura de la voz se representan acústicamente por cambios similares en todos los componentes de frecuencias (cambios paralelos en una escala de frecuencia logarítmica). Cuando la altura sube, no sólo lo hace la frecuencia fundamental, sino también los armónicos en la misma proporción. Es plausible creer que este cambio correlacionado, si fuera detectable auditivamente, pudiera decirnos que los parciales que cambian provienen de la misma voz. El sistema auditivo puede agrupar a todos estos cambios correlacionados y escuchar un sonido cambiante.
Hay evidencia para sugerir que dos tipos de cambio en
frecuencia(o modulación) se usan para este propósito. Uno es la micromodulación, las fluctuaciones sutiles de la altura de la voz humana que ocurren aun cuando los hablantes creen estar sosteniendo una altura estacionaria. Una versión ligeramente más grande de esta modulación ocurre en el canto, con lo que se llama vibrato. El otro tipo de modulación en frecuencia es el cambio lento que ocurre cuando cuando voluntariamente variamos la altura de nuestra voz de una manera suave como lo hacemos, por ejemplo, cuando elevamos la altura al final de una pregunta. Esta clase de cambio se llama portamento en la música. La sincronización de la micromodulación de la modulación lenta en diferentes partes del espectro parece causar que sus partes sean tratadas como partes de un sólo sonido. Sin embargo, todavía no está claro si una explicación alternativa puede dar cuenta totalmente de estos efectos. Esta explicación argumenta que los cambios paralelos en frecuencia permiten a los parciales mantener sus relaciones armónicas en el tiempo, y que son estas relaciones, en vez del cambio en sí mismo, las que promueven la integración de los parciales.
Otra versión del común destino en la audición ocurre cuando
es sistema auditivo detecta cambios sincronizados de amplitud en diferentes partes del espectro. Como en la modulación en frecuencia, esto puede ocurrir en escala fina o gruesa. La modulación de pequeña escala no es una propiedad de la señal física en sí misma, pero ocurre dentro del sistema auditivo. Ocurre cuando escuchamos sonidos armónicos complejos, como la voz humana. A causa de la manera en que nuestro sistema auditivo periférico filtra el sonido que entra, ocurren rápidas fluctuaciones en intensidad dentro de los diferentes canales neuronales que responden a las diferentes bandas de frecuencias de la voz. Las fluctuaciones son periódicas y tienen el mismo período en cada canal; este parece ser el mismo período de la fundamental de la voz. Evidencia experimental apoya la idea de que esta periodicidad neuronal común puede promover la integración de evidencia sensorial derivada de diferentes regiones espectrales.
Podemos observar un caso más grueso de cambio
correlacionado en la amplitud en diferentes partes del espectro. Es una propiedad de la señal en sí misma y ocurre cuando un sonido comienza y termina. Todos los componentes derivados de un mismo sonido tienden a comenzar y terminar en el mismo momento; aquellos derivados de diferentes sonidos tienden a hacerlo en diferentes momentos. Esto se puede usar para particionar el conjunto de componentes de frecuencias derivados de una mezcla de sonidos.
Parece que debiéramos ser capaces de recolectar los
componentes auditivos de un cierto evento del entorno al observarlo y correlacionar los cambios visuales con los auditivos. Mientras que parece muy probable que podamos hacer esto la evidencia experimental al respecto es muy indirecta y se necesita más investigación. Sabemos que miramos más fijamente la boca de un hablante en un salón ruidoso, pero no sabemos qué tipo de proceso usa esta información. Hay razón para creer que el reconocimiento de un sonido de voz usa un esquema que coordina al sonido con el movimiento específico de la cara del hablante mientras el sonido se produce. No esta claro si existe, además, un proceso más primitivo que advierte correlaciones visuales y auditivas y las usa simplemente para particionar la percepción del material auditivo.
Una de las más poderosas estrategias para agrupar
componentes espectrales es agrupar aquellos que provienen de la misma dirección espacial y segregar a los grupos que provienen de diferentes direcciones. Esta es la causa de que los instrumentos individuales en la interpretación de un conjunto suenen mucho más claros en una grabación estereofónica que en una monofónica. Sin embargo, hay un requerimiento que debe cumplirse antes de que el sistema auditivo pueda agrupar componentes espectrales por su origen espacial. Primero debe ser capaz de asignar una estimación independiente de origen espacial a cada banda separable de frecuencias en el espectro. Resultados de experimentos fisiológicos con animales y experimentos perceptivos con humanos sugieren que esas estimaciones independientes se derivan, sin duda, del sistema auditivo. Por ejemplo, indicios espaciales que sugieren dos ubicaciones de origen pueden causar que una banda de ruido se divida perceptivamente en dos diferentes bandas de frecuencia. Se puede especificar una ubicación para cada banda retrasando los componentes de ella en un oído, respecto del otro.
A pesar de que parece lógico tratar a los componentes que
vienen de la misma dirección como formantes del mismo evento sónico, esta estrategia no es infalible. Diferentes eventos pueden ocurrir cerca en el espacio, o a lo largo de la misma línea de radiación entre la fuente y el oyente. Aun cuando los eventos se producen en ubicaciones bastante distinguibles, la evidencia sensible para su ubicación puede ser distorsionada por la reflexión de ondas en superficies cercanas, la presencia de cuerpos interpuestos entre el oído y la fuente, y por enmascaramiento asimétrico de la evidencia en los dos oídos por sonidos más fuertes. Esta puede ser la causa de que la organización espectral no dependa tan fuertemente de la localización espacial. Una persona puede hacer un apreciable trabajo al segregar sonidos concurrentes aun escuchando una grabación monoaural. La evidencia espacial sólo se suma con toda la de otros tipos de evidencia en el análisis de la escena auditiva.
Hasta aquí he descripto cómo la información espacial afecta
a la organización perceptiva. Pero la influencia puede ir en contra también. A causa de que los indicios espaciales no son a menudo confiables, el sistema auditivo parece promediar diferentes estimaciones espaciales para llegar a la ubicación percibida de un evento. Sin embargo, esta estrategia sería inservible si no supiera cuántos sonidos hay. Sería inofensivo promediar estimaciones espaciales que hayan sido derivadas de energía proveniente de difernetes eventos no relacionados. Entonces, el sistema auditivo debe agrupar la evidencia antes de promediar las estimaciones de ubicación. Como ejemplo del trabajo de esto, podemos establecer una situación en la que dos diferentes señales parecen venir de direcciones diferentes. Si usamos micromodulación correlacionada en las dos señales para indicarle al sistema auditivo que son uno y el mismo evento, derivará sólo una (difusa) estimación espacial para todo el sonido. Otro ejemplo es el uso de información visual correlacionada para corregir la ubicación de un sonido (el efecto de ventriloquismo).
El proceso de análisis de la escena usa la historia de una
señal para corregir estimaciones espaciales momentáneas. Por ejemplo, si una señal sinusoidal se divide y se manda a los dos oídos en fase y con equivalente intensidad, escucharemos un sólo sonido proveniente del centro. Sin embargo, si la sinusoide en un oído se sube y baja en intensidad de manera ligeramente rápida y abrupta, escucharemos un sonido pulsante en un oído y otro estático en el otro. La solución perceptiva alternativa, escuchar un sólo sonido moverse repetidamente desde una posición central hacia el lados de la cabeza que recibe el sonido más fuerte, no es favorecida por el sistema auditivo. Surge que una versión entre-oidos de la heurística de lo-nuevo- más-lo-viejo dictamina, en vez de ello, que hay dos fuentes de sonido. Decide que la señal balanceada surge accidentalmente de una continuación de la señal fija dentro de los momentos en los que la señal pulsada alcanza su máximo. Particiona la energía balanceada dentro de una señal contínua(vieja) y una señal agregada(nueva). En vez de una sola ubicación, se perciben dos.
Vemos, entonces, que hay muchos más indicios para la
ubicación de un sonido de los que se mencionan habitualmente en los libros. No sólo usamos los indicios basados en el hecho de que nuestros oídos estan en diferentes lados de nuestra cabeza y tienen una forma determinada. Usamos también el hecho de que los eventos productores de sonido tienden a persistir en el tiempo, a moverse sólo lentamente en el espacio, y a dar lugar a sonidos que tienen una estructura interna coherente.
Sin duda hay otros factores que ayudan al oyente a
particionar la evidencia auditiva que arriba en un momento particular. Es posible que los rasgos texturales (por ejemplo, los que describen la irregularidad temporal de un sonido) puedan jugar un rol en el particionamiento de aquellos espectros que obtenemos cuando rasgamos una hoja de papel, arrastramos objetos o caminamos haciendo crujir la nieve. No se ha hecho investigación en el particionamiento de espectros que se deriven de la combinación de tales sonidos. De nada vale que estos sonidos sean más numerosos en el mundo natural que aquellos regulares que se han estudiado en el laboratorio.
Ignoramos también el rol que el ritmo juega en la partición
de mezclas. ¿Es más fácil descomponer una mezcla en la que un componente está cambiando de una manera regular y repetitiva que en otra en la que los cambios son irregulares? Si es así, ¿cuál es el mecanismo por el cual se hace? ¿un proceso de particionamiento primitivo, o uno que depende de nuestra habilidad de guiar la atención por esquemas rítmicos?
Cuando el proceso de análisis de la escena asigna
diferentes componentes sensibles al mismo análisis, decimos que estos están unidos y ya no son audibles separadamente. Hay otro contexto de investigación en el que los componentes acústicos se hacen menos audibles por la presencia de otros. Esta es la investigación sobre el enmascaramiento. ¿Cuál es la relación entre enmascaramiento y fusión?
Enmascaramiento y fusión difieren en las tareas que se usan
para medirlos. Se juzga que un sonido está enmascarado si no hay manera de decir si está o no presente en una mezcla. No necesita ser audible como un sonido separado. Por otro lado, se considera fusionado si no es audible como sonido separado, aun si se puede decir si está o no por algún cambio que induce en la cualidad espectral percibida.
Una similitud entre enmascaramiento y fusión es que, en
ambos casos, algunos componentes de una mezcla auditiva compleja pierden la capacidad de ser escuchados individualmente. Otra es que muchos de los mismos factores que influencian la audibilidad de los componentes en experimentos de análisis de la escena auditiva tambien afectan al enmascaramiento. Variables que ayudan a segregar un componente acústico de otros también preservan a este componente de ser enmascarado. Por ejemplo, si un sonido es micromodulado, es más difícil enmascararlo con otro que no lo es. También es difícil enmascararlo con un sonido que no comienza sincronizado con él, o con otro que proviene de una dirección espacial diferente.
Los efectos de enmascaramiento de una banda de frecuencias
(llamemosla banda A) pueden ser también reducidos al causar que la banda A se agrupe con una banda diferente de frecuencias (banda B) que está muy separada del objetivo a enmascarar. El agrupamiento es inducido mediante la sincronización de fluctuaciones de amplitud en las dos bandas, una manipulación que afecta a la integración espectral. A este efecto se lo llama "liberación del enmascaramiento por co-modulación".
La similitud en los factores que influencian
enmascaramiento y fusión sugiere que los mecanismos psicológicos que se involucraron para servir al propósito del análisis de la escena también lo hacen para el fenómeno del enmascaramiento.
Cualquier propiedad percibida de un vector de entrada de
sonido se computa de un conjunto que el cerebro ha seleccionado de ese vector. El propósito de computar una propiedad es describir una cualidad significativa, esto es, una cualidad del sonido que ha sido creada por algo que sucede distintivamente en el mundo, como la voz de un hablante. Si el subconjunto de datos seleccionados para la computación es demasiado pequeño, la computación puede resultar en cualidades diferentes para los componentes acústicos individuales generados por el evento (digamos, armónicos individuales en la voz) en vez de alguna cualidad para todo el sonido creada por el evento. Denomino "propiedades parciales" a las propiedades de los formantes. Si, por el otro lado, el vector es demasiado grande, la cualidad percibida representará un vector que realmente es una mezcla accidental de la energía acústica de más de un evento -por ejemplo, la suma de vocales de voces diferentes. Denomino "quimérica" a esta cualidad. Arreglar las cosas en una manera en que las cualidades sean significativas, en vez de parciales o quiméricas, es la tarea del análisis de la escena. Hay alguna evidencia de que hay una inclinación hacia la integración en la audición. Las propiedades serán computadas en el total del vector de entrada de sonido a menos que haya evidencia específica de que el vector debe ser dividido en subconjuntos.
Resultados de experimentos y de observaciones informales
muestran que alturas separadas, timbres (e.g. rugosidad percibida), identificación de vocales, y aun ubicaciones, pueden ser computadas separadamente en los estratos que crea el análisis de escena. Si esto no fuera posible sólo seríamos capaces de escuchar un sólo sonido a la vez, y las cualidades de ese sonido representarían siempre la suma de todos los eventos activos.
La Ilusión de Continuidad y la Inducción Contralateral.
Los principios del análisis de la escena auditiva, particularmente la subdivisión del vector de datos sensibles recibido a cada momento, pueden explicar dos fenómenos encontrados en la investigación auditiva. Uno es la ilusión de continuidad y el otro es la inducción Contralateral.
La ilusión de continuidad se describió en los capítulos 1 y
3. Si un breve segmento de un sonido activo es borrado y reemplazado por un sonido mucho más fuerte que tiene el contenido espectral correcto, el sonido más suave se escucha como la continuación del más fuerte. La explicación del análisis de la escena es que el sa ha tomado parte de la evidencia sensible con la que ha contribuído el sonido más fuerte y la ha asignado a la percepción que representa al sonido más suave. Esto ha sido interpretado como una compensación del enmascaramiento, ya que el sonido más fuerte hubiera enmascarado el más suave, aun si hubiera estado allí.
Los ejemplos van desde el más simple, en el que el sonido
suave es una sinusoide pura y el fuerte una versión más fuerte del sinusoidal, hasta un caso más complejo en el que el sonido suave es voz hablada y el más fuerte un estallido de ruido. En el ejemplo anterior, se percibe la complitud de la voz hablada. A esto se lo llama restauración fonémica.
La explicación para la ilusión de continuidad puede ser
dividida en dos partes. Una explica cómo el cerebro del oyente decide si el sonido continúa o no detrás del sonido más fuerte (la pregunta del "si"). La otra explica cómo el cerebro elige qué contenido de la porción perdida es (la pregunta del "que"). Sólo la pregunta del "si" es decidida por los principios generales de análisis de la escena.
El proceso de decidir si un sonido A ha continuado a través
de una interrupción por otro sonido B parece estar gobernada por otras reglas fundamentales. Esto se puede establecer en términos del etiquetamiento de las partes del estímulo que se ha dado en la figura 3.22 delcapítulo 3. A1 y A2 son las partes del tono más suave, A, que precede y sigue la interrupción. B es el tono más fuerte que reemplaza el segmento borrado de A.
La ilusión de continuidad involucra el particionamiento de
los estímulos sensibles recibidos en tiempo B (el período cuando B está activo) en dos paquetes. Uno es interpretado como la continuación del sonido A. El otro es interpretado como el segundo sonido que aparece súbitamente, y sus propiedades acústicas son percibidas como las que, cuando se suman a las de A, darán como resultado el estímulo total percibido en tiempo B. El sistema de análisis de la escena ha juzgado que A1 y A2 no son sonidos separados, sino partes del mismo. Esta interpretación ayuda al reconocimiento de A, ya que el proceso de reconocimiento tratará de identificar un sonido único y largo con propiedades de A1 y A2 y no dos sonidos con conjuntos separados de propiedades. Cuando A1 y A2 son realmente partes de un sonido, esto constituirá una estrategia efectiva.
Las reglas que gobiernan la decisión de restaurar "A",
particionando la evidencia proporcionada por "B", son las siguientes:
La regla de "no discontinuidad en A". No debe haber
evidencia de que "B" está realmente cubriendo un silencio entre A1 y A2 en vez de que esté cubriendo la continuación de "A". Esto significa que no debe haber evidencia de que "A" realmente termina cuando "B" comienza o recomienza cuando "B" termina. No debe haber lapsos audibles de silencio entre A1, "B", y A2, y no debe haber cambios en la amplitud de A1 o A2 cerca de los límites de "B".
La regla de "plenitud de evidencia". Mientras transcurre
"B", algún subconjunto de la actividad neuronal en el sistema auditivo debe ser indistinguible de la actividad que hubiera ocurrido si "A" hubiera continuado realmente. Esto implica que "B" debe ser lo suficientemente más intenso que "A" para proveer estimulación adecuada en los canales neuronales de frecuencia estimulados normalmente por "A". Si "B" tiene diferente frecuencia que "A", entonces "B" tendrá que tener considerablemente más intensidad, de manera tal que la diseminación neuronal de la excitación pueda aportar el monto suficiente de actividad en los canales de frecuencia que el que aportaría la presencia de la señal "A" normalmente. Cuando una señal familiar (tal como una palabra hablada) se reconoce por medio del sistema de reconocimiento basado en esquemas, éste debe proveer una hipótesis que explique lo que es la parte faltante de "A". En éste caso, se requerirá que la estimulación contenga la evidencia neuronal que es normalmente activada por la parte perdida de "A".
La regla del "agrupamiento A1-A2". Debe haber evidencia de
que realmente A1 y A2 hayan provenido de la misma fuente. Esto significa que la heurística del agrupamiento secuencial los hubiera puesto en el mismo estrato, aun si hubieran estado separados por un silencio en vez de por "B". Si "A" y "B" no entran bien en el mismo estrato, la restauración no será favorecida. La regla permite que las partes perdidas de dos o más sonidos suaves, interrumpidas por el mismo sonido con mayor intensidad, sean restauradas sin confusión. Las partes de cada sonido serán agrupadas dentro de su propio estrato y será calculada una parte restaurada para cada estrato.
La regla "A no es B". La transición entre "A" y "B" y
viceversa no debe poder ser interpretada como si "A" fuera un sonido que cambia a una nueva forma , "B", y luego vuelve al punto de partida. Si fuera así, el oyente no debería escuchar dos sonidos, uno de ellos continuando encima del otro, sino simplemente uno sólo, cambiando de una forma a otra y volviendo al punto de partida. El criterio por el cual se escucha interrupción en vez de transformación es, probablemente, si la tasa de cambio excede un valor crítico, mostrando así evidencia de discontinuidad en la señal.
La inducción contralateral ocurre cuando un sonido suave
presentado en un oído se acompaña por otro sonido "inductor" más intenso en el otro oído. Como resultado, la localización percibida del sonido más suave es corrida hacia el centro del cuerpo. La parte interesante de ésto es que el sonido inductor no necesariamente tiene que ser el mismo que el sonido más suave. Si fuera así, la inducción contralateral sería sólo un ejemplo del bien conocido hecho de que el balance binaural de intensidad para un sonido en particular determina su localización percibida.
Un ejemplo de inducción contralateral se puede crear
enviando un tono puro a un oído y un estallido de ruido al otro. Se ha encontrado que, para servir como inductor, el ruido debe estimular canales de frecuencia neuronal que se correspondan con aquellos estimulados por el tono puro en el otro oído. Esto puede ocurrir, o bien porque el inductor contiene los componentes en frecuencia necesarios, o bien porque es lo suficientemente intenso como para estimular los canales de frecuencia correspondientes a través de diseminación de la excitación neuronal. La inducción contralateral es un caso en el que el sistema de análisis de la escena auditiva extrae del ruido a aquellos componentes de frecuencia que coinciden con los del tono puro e interpreta a los componentes coincidentes en la izquierda y la derecha como evidencia para uno localizado en el centro.
El efecto recuerda la ilusión de continuidad en la que un
sonido complejo se descompone en dos partes: una que coincide con otro sonido, y un residuo. La parte coincidente se interpreta como perteneciente al sonido con el que coincide. En ambos casos, el sonido que debe ser descompuesto, debe ser mucho más intenso que el otro de manera tal de que se reciba suficiente estimulación en el canal neuronal correspondiente para proveer una razonable coincidencia con el sonido suave.
La inducción contralateral es realmente una manera
particular de ori un evento binaural complejo. El sonido más intenso se interpreta como enmascarador de la energía que hubiera surgido de un sonido suave localizado centralmente, balanceada binauralmente. Debemos estar prevenidos de que no está garantizado que ésta interpretación sea la correcta. Sin embargo, es correcta las suficientes veces, y notamos que es una "interpretación", sólo cuando condiciones inusuales que disponemos en el laboratorio causan que sea incorrecta.
La percepción de inducción contralateral no es la única
manera de interpretar una situación de coincidencia binaural. Podemos bloquearla si disponemos las condiciones apropiadamente. He aquí una simple demostración. Supongamos que presentamos un tono suave continuamente al oído izquierdo y ruido blanco continuamente al derecho. Si hacemos que el ruido sea lo suficientemente fuerte empujará la localización del tono al centro. Este es el caso normal de inducción contralateral. Ahora podemos eliminar la inducción simplemente haciendo pulsar el ruido mientras mantenemos el tono quieto. Si hacemos esto, el sistema de análisis de la escena auditiva detecta el hecho de que hay grandes cambios de amplitud en un oído que no coinciden con ningún cambio en el otro, y produce que se favorezca la interpretación de dos estratos separados del sonido: uno mantenido en un lado del cuerpo, y otro pulsante en el otro lado. Se abstiene de centrar el tono durante los momentos en los que el estallido de ruido aparece, aun cuando algo de la estimulación del oído derecho podría ser usada para coincidir con la estimulación del izquierdo.
Los ejemplos de continuidad que hemos discutido muestran
cómo el sistema auditivo puede resistir casos de enmascaramiento momentáneos. El enmascaramiento ocurre cuando no hay manera de juzgar si una parte de la estimulación sensorial debe ser tratada como un sonido separado.(Por analogía, no vemos a una mancha roja en el centro de un papel totalmente rojo, ya que no existe frontera entre la mancha y el resto del papel). La audición usa un número de métodos para detectar el hecho de que una parte incluída en una mezcla compleja de estimulación, debe ser extraída e interpretada como un sonido separado. Un tipo de indicio es hallar el sonido aislado antes y después de la mezcla compleja. Otra es detectar una versión más clara, más aislada, del sonido en el otro oído. Una tercera es detectar una diferencia entre la frecuencia fundamental del espectro incluído, y el resto del espectro. En resumen, puede usar cualquiera de las heurísticas del sistema de análisis de la escena auditiva.