Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tercera edición
Psicología de la música
Tercera edición
Editado por
Diana Deutsch
Departamento de Psicología
Universidad de California, San
Diego La Jolla, California
reservados
Aviso
El editor no asume responsabilidad alguna por lesiones o daños a personas o bienes
derivados de la responsabilidad civil por productos defectuosos, negligencia u otros
motivos, ni por el uso o utilización de los productos.
funcionamiento de los métodos, productos, instrucciones o ideas contenidos en este material.
Debido a los rápidos avances de las ciencias médicas, en particular, debe realizarse una
verificación independiente de los diagnósticos y las dosis de los medicamentos.
América 12 13 14 15 16 10 9 8 7 6 5 4 3 2 1
Lista de colaboradores
Los números entre paréntesis indican las páginas en las que comienzan las
contribuciones de los autores.
Henkjan Honing (369), Institute for Logic, Language and Computation (ILLC),
Center for Cognitive Science Amsterdam (CSCA), Universiteit van Amsterdam,
1090 GE Amsterdam, Países Bajos
David Temperley (327), Eastman School of Music, Rochester, Nueva York 14604
1 Dirección actual: Guildhall School of Music and Drama, Londres EC2Y 8DT, Reino Unido.
Prefacio
sustratos. Como cuestión relacionada, los autores examinan los efectos del
entrenamiento musical sobre las capacidades lingüísticas y otras capacidades
cognitivas.
Continuando con Música y capacidades cognitivas (capítulo 12), Glenn
Schellenberg y Michael Weiss ofrecen una valoración detallada de las
asociaciones entre la música y otras funciones cognitivas. El capítulo analiza la
capacidad cognitiva inmediatamente después de escuchar música (el llamado
"efecto Mozart"), los efectos de la música de fondo en la función cognitiva y las
asociaciones entre el entrenamiento musical y diversas capacidades cognitivas.
Los autores demuestran que el entrenamiento musical está relacionado con la
inteligencia general y, más concretamente, con las capacidades lingüísticas.
Sostienen, por tanto, que el procesamiento musical no es únicamente función de
módulos especializados, sino que también refleja propiedades generales del
sistema cognitivo.
Isabelle Peretz, en The Biological Foundations of Music: Insights from
Congenital Amusia (capítulo 13), subraya la opinión contraria: que la capacidad
musical es distinta del lenguaje y que se nutre principalmente de redes
neuronales especializadas. Aquí se centra en la amusia congénita, una
discapacidad musical que no puede atribuirse a retraso mental, sordera, falta de
exposición o daño cerebral tras el nacimiento. Analiza las pruebas de la
asociación de este trastorno con una organización cerebral inusual y aporta
pruebas de que la amusia congénita tiene una base genética.
Catherine Wan y Gottfried Schlaug profundizan en las relaciones entre la
capacidad musical y otras capacidades en Brain Plasticity Induced by Musical
Training (Capítulo 14). Los autores señalan que las clases de música implican el
entrenamiento de una serie de habilidades complejas, como la coordinación de
la información multisensorial con la actividad motora bimanual, el desarrollo de
la motricidad fina y el uso de la retroalimentación auditiva. Repasan los hallazgos
que demuestran los efectos del entrenamiento musical en la organización
cerebral, y se centran en las investigaciones de su laboratorio que exploran el
potencial terapéutico de las intervenciones basadas en la música para facilitar el
habla en pacientes con apoplejía crónica y afasia, y en niños autistas.
La razón por la que la música invoca emociones ha sido objeto de
considerable debate. En su capítulo sobre Música y emoción (capítulo 15),
Patrik Juslin y John Sloboda ofrecen una visión general de los descubrimientos
y teorías en este campo. Establecen una importante distinción entre la emoción
expresada en la música y la emoción inducida en el oyente, señalando que no existe
una relación simple entre ambas. Plantean la hipótesis de que muchas de las
características de la comunicación musical pueden explicarse mejor, al menos en
parte, en términos de un código de expresión de las categorías emocionales
básicas por la voz humana.
En Comparative Music Cognition: Cross-Species and Cross-Cultural Studies
(Capítulo 16), Aniruddh Patel y Steven Demorest abordan dos cuestiones de
importancia fundamental para la comprensión del procesamiento musical. En
primer lugar, ¿qué capacidades musicales son exclusivamente humanas y cuáles
compartimos con especies no humanas? Al abordar esta cuestión, los autores
arrojan luz sobre la evolución de las capacidades musicales. La segunda cuestión
Prefaci xix
o
se refiere a la enorme diversidad de la música humana en las distintas culturas. Las
teorías y los resultados de la investigación basados en la música de una sola
tradición tienen, en principio, una aplicación limitada. Los autores presentan
pruebas
xx Prefaci
o
musicales
Andrew J. Oxenham
Departamento de Psicología, Universidad de Minnesota, Minneapolis
I. Introducción
A. ¿Qué son los tonos musicales?
La definición de tono -un sonido periódico que provoca una sensación de tono-
abarca la gran mayoría de los sonidos musicales. Los tonos pueden ser puros -
variaciones sinusoidales de la presión atmosférica en una sola frecuencia- o
complejos. Los tonos complejos pueden dividirse en dos categorías: armónicos e
inarmónicos. Los tonos complejos armónicos son periódicos, con una tasa de
repetición conocida como frecuencia fundamental (F0), y están compuestos por una
suma de sinusoides con frecuencias que son todas múltiplos enteros, o armónicos, de
la F0. Los tonos complejos inarmónicos se componen de múltiples sinusoides que
no son múltiplos enteros simples de ninguna F0 común. La mayoría de los tonos
musicales instrumentales o vocales son más o menos armónicos, pero algunos, como
los de las campanas, pueden ser inarmónicos.
B. Medir la percepción
Los atributos físicos de un sonido, como su intensidad y contenido espectral, pueden
medirse fácilmente con instrumentos técnicos modernos. Medir la percepción del
sonido es harina de otro costal. A Gustav Fechner, un científico alemán del siglo
XIX, se le atribuye la fundación del campo de la psicofísica, el intento de establecer
una relación cuantitativa entre las variables físicas (por ejemplo, la intensidad y la
frecuencia del sonido) y las sensaciones que producen (por ejemplo, el volumen y el
tono; Fechner, 1860). Las técnicas psicofísicas que se han desarrollado desde la
época de Fechner para acceder a nuestras percepciones y sensaciones (auditivas,
visuales, olfativas, táctiles y gustativas) pueden dividirse en dos categorías de
medidas: subjetivas y objetivas. Las medidas subjetivas suelen requerir que los
participantes estimen o produzcan magnitudes o proporciones relacionadas con la
dimensión objeto de estudio. Por ejemplo, para establecer una escala de sonoridad,
se puede presentar a los participantes una serie de tonos con diferentes intensidades
y pedirles que asignen un número a cada tono, correspondiente a su sonoridad. Este
método de estimación de la magnitud produce una función psicofísica que
relaciona directamente el volumen con la intensidad del sonido. La estimación de la
relación sigue el mismo principio, salvo que a los participantes se les pueden
presentar dos
Psicología de la Música. DOI: http://dx.doi.org/10.1016/B978-0-12-381460-9.00001-8
2013 Elsevier Inc. Todos los derechos reservados.
2 Andrew J. Oxenham
sonidos y luego se les pide que juzguen cuánto más fuerte (por ejemplo, dos o tres
veces) es un sonido que el otro. Los métodos complementarios son la producción de
magnitudes y la producción de proporciones. En estas técnicas de producción, se
pide a los participantes que varíen la dimensión física relevante de un sonido hasta
que coincida con una magnitud (número) determinada o hasta que coincida con una
proporción específica con respecto a un sonido de referencia. En este último caso,
las instrucciones pueden ser algo así como "ajuste el nivel del segundo sonido hasta
que sea el doble que el primero". Las cuatro técnicas se han empleado en numerosas
ocasiones en intentos de derivar escalas psicofísicas apropiadas (por ejemplo, Buus,
Muesch y Florentine, 1998; Hellman, 1976; Hellman y Zwislocki, 1964; Stevens,
1957; Warren, 1970). Otras variaciones de estos métodos son el escalamiento
categórico y el emparejamiento entre modalidades. El escalado categórico consiste
en pedir a los participantes que asignen la sensación auditiva a una de una serie de
categorías fijas; siguiendo con nuestro ejemplo del volumen, se les puede pedir que
seleccionen una categoría que vaya desde muy bajo a muy alto (por ejemplo,
Mauermann, Long y Kollmeier, 2004). El emparejamiento entre modalidades evita
el uso de números, por ejemplo, pidiendo a los participantes que ajusten la longitud
de una línea, o de un trozo de cuerda, para que coincida con el volumen percibido de
un tono (por ejemplo, Epstein y Florentine, 2005). Aunque todos estos métodos
tienen la ventaja de proporcionar una estimación más o menos directa de la relación
entre el estímulo físico y la sensación, también presentan una serie de desventajas.
En primer lugar, son subjetivos y dependen de la introspección del sujeto. Quizá por
ello pueden ser poco fiables, variables entre participantes y dentro de un mismo
participante, y propensos a diversos sesgos (por ejemplo, Poulton, 1977).
El otro enfoque consiste en utilizar una medida objetiva, en la que pueda
verificarse externamente una respuesta correcta y una incorrecta. Este enfoque suele
implicar sondear los límites de resolución del sistema sensorial, midiendo el umbral
absoluto (el estímulo detectable más pequeño), el umbral relativo (el cambio
detectable más pequeño en un estímulo) o el umbral enmascarado (el estímulo
detectable más pequeño en presencia de otro estímulo). Hay varias formas de medir
el umbral, pero la mayoría implican un procedimiento de elección forzada, en el que
el sujeto tiene que elegir el intervalo que contiene el sonido objetivo entre una
selección de dos o más. Por ejemplo, en un experimento para medir el umbral
absoluto, se pueden presentar al sujeto dos intervalos de tiempo sucesivos, marcados
con luces; el sonido objetivo se reproduce durante uno de los intervalos, y el sujeto
tiene que decidir cuál es. Es de esperar que el rendimiento varíe con la intensidad del
sonido: a intensidades muy bajas, el sonido será completamente inaudible, por lo
que el rendimiento será casual (50% de aciertos en una tarea de dos intervalos); a
intensidades muy altas, el sonido siempre será claramente audible, por lo que el
rendimiento será cercano al 100%, suponiendo que el sujeto siga prestando atención.
A partir de ahí, puede derivarse una función psicométrica que represente el
rendimiento de un sujeto en función del parámetro del estímulo. En la figura 1 se
muestra un ejemplo de función psicométrica, que representa el porcentaje de aciertos
en función del nivel de presión sonora. Este tipo de paradigma de elección forzada
suele ser preferible (aunque a menudo requiere más tiempo) que las medidas más
subjetivas, como el método de los límites, que suele utilizarse hoy en día para medir
los audiogramas. En el método de los límites, la intensidad de un sonido disminuye
1. La percepción de los tonos 3
musicales
hasta que el sujeto informa de que ya no es capaz de oírlo y, a continuación, la
intensidad del sonido aumenta hasta que el sujeto vuelve a informar de que es capaz
de oírlo.
4 Andrew J. Oxenham
70 prueba.
60
50
-5 0 5 10 15
Nivel de señal (dB
SPL)
A. Sonoridad
El correlato físico más obvio de la sonoridad es la intensidad del sonido (o presión
sonora) medida en el tímpano. Sin embargo, hay muchos otros factores que influyen
en el volumen de un sonido, como su contenido espectral, su duración y el contexto
en el que se presenta.
sonidos de banda ancha permanece más o menos constante cuando se expresa como
una relación o en decibelios está en consonancia con la conocida ley de Weber, que
establece que la JND entre dos estímulos es proporcional a la magnitud de los
estímulos.
En contraste con nuestra capacidad para juzgar las diferencias de nivel sonoro
entre dos sonidos presentados uno tras otro, nuestra capacidad para categorizar o
etiquetar niveles sonoros es bastante pobre. De acuerdo con el famoso postulado de
Miller (1956) "7 más o menos 2" para el procesamiento de la información y la
categorización, nuestra capacidad para categorizar niveles sonoros con precisión es
bastante limitada y está sujeta a diversas influencias, como el contexto de los
sonidos precedentes. Esto puede explicar por qué la notación musical de la
sonoridad (en contraste con el tono) tiene relativamente pocas categorías entre
pianissimo y fortissimo, normalmente sólo seis (pp, p, mp, mf, f y ff).
130
120
110
10 0 phons
100
Nivel de presión sonora en
90
90
80
80
70
70
60
60
50
50
40
40
30
30
dB
20
20
10
10
0 Umbral de
audición
-10
16 31,5 63 125 250 500 1000 2000 4000 8000 16000
Frecuencia en Hz
1. La percepción de los tonos 9
musicales
para que se perciban con el mismo volumen. Los contornos de igual sonoridad están
incorporados en una norma internacional (ISO 226) que se estableció inicialmente
en 1961 y se revisó por última vez en 2003.
Estos contornos de igual sonoridad se han obtenido varias veces a partir de
meticulosas mediciones psicofísicas, no siempre con resultados idénticos (Fletcher y
Munson, 1933; Robinson y Dadson, 1956; Suzuki y Takeshima, 2004). Las
mediciones suelen consistir en la equiparación de sonoridad, en la que un sujeto
ajusta el nivel de un tono hasta que suene tan alto como un segundo tono, o en
comparaciones de sonoridad, en las que un sujeto compara la sonoridad de muchos
pares de tonos y los resultados se recopilan para obtener puntos de igualdad
subjetiva (PSE). Ambos métodos son muy susceptibles a sesgos no sensoriales, por
lo que la tarea de obtener un conjunto definitivo de contornos de sonoridad iguales
es todo un reto (Gabriel, Kollmeier y Mellert, 1997).
Los contornos de igual sonoridad proporcionan la base para la medida del "nivel
de sonoridad", que tiene unidades de "phons". El valor phon de un sonido es el valor
dB SPL de un tono de 1 kHz que se considera que tiene la misma sonoridad que el
sonido. Así, por defi- nición, un tono de 40 dB SPL a 1 kHz tiene un nivel de
sonoridad de 40 phons. Continuando con el ejemplo anterior, el tono de 100 Hz a un
nivel de aproximadamente 64 dB SPL también tiene un nivel de sonoridad de 40
fones, porque cae en el mismo contorno de sonoridad igual que el tono de 40 dB
SPL a 1 kHz. Por lo tanto, los contornos de igual sonoridad también pueden
denominarse contornos de igual phon.
Aunque las mediciones reales son difíciles y los resultados un tanto contenciosos,
los contornos de igual sonoridad tienen muchos usos prácticos. Por ejemplo, en
cuestiones de molestias acústicas a la comunidad por conciertos de rock o
aeropuertos, es más útil conocer la intensidad percibida de los sonidos en cuestión
que sólo su nivel físico. Por este motivo, la mayoría de los sonómetros modernos
incorporan una aproximación del contorno de sonoridad igual a 40 fonones, que se
denomina curva "ponderada A". Un nivel sonoro expresado en dB (A) es un nivel
sonoro global que se ha filtrado con la inversa de la curva aproximada de 40
fonones. Esto significa que las frecuencias muy bajas y muy altas, que se perciben
como menos fuertes, tienen menos peso que la parte media de la gama de
frecuencias.
Como ocurre con todas las herramientas útiles, la curva ponderada A puede
utilizarse mal. Como se basa en la curva de 40 fonones, es la más adecuada para
sonidos de bajo nivel; sin embargo, eso no ha impedido que se utilice en mediciones
de sonidos de nivel mucho más alto, donde sería más apropiado un filtro más plano,
como el que proporciona la curva ponderada C, muy poco utilizada. El uso
omnipresente de la escala dB (A) para todos los niveles sonoros constituye, por
tanto, un ejemplo de un caso en el que la comodidad de una medida de un solo
número (y que minimiza el impacto de las bajas frecuencias difíciles de controlar)
ha pesado más que el deseo de precisión.
3. Escalas de sonoridad
Los contornos de igual sonoridad y los fonones nos hablan de la relación entre
sonoridad y frecuencia. Sin embargo, no nos hablan de la relación entre volumen y
1. La percepción de los tonos 11
musicales
nivel sonoro. Por ejemplo, el phon, basado en la escala de decibelios a 1 kHz, no
dice nada sobre cuánto más fuerte es un tono de 60 dB SPL que uno de 30 dB SPL.
12 Andrew J. Oxenham
L 5 kIα
(Ecuación 1)
5. Modelos de sonoridad
A pesar de las dificultades inherentes a la medición de la sonoridad, un modelo que
pueda predecir la sonoridad de sonidos arbitrarios sigue siendo una herramienta útil.
El desarrollo de modelos de percepción del volumen tiene una larga historia
(Fletcher y Munson, 1937; Moore y Glasberg, 1996, 1997; Moore et al., 1997;
Moore, Glasberg y Vickers, 1999; Zwicker, 1960; Zwicker, Fastl y Dallmayr, 1984).
Básicamente, todos se basan en la idea de que la intensidad de un sonido refleja la
cantidad de excitación que produce en el sistema auditivo. Aunque una prueba
fisiológica directa, en la que se comparó la cantidad total de actividad nerviosa
auditiva en un modelo animal con la sonoridad prevista basada en estudios humanos,
no encontró una buena correspondencia entre ambas (Relkin y Doucet, 1997), los
modelos psicofísicos que relacionan los patrones de excitación previstos, basados en
el filtrado auditivo y la no linealidad coclear, con la sonoridad suelen proporcionar
predicciones precisas de la sonoridad en una amplia variedad de condiciones (por
ejemplo, Chen, Hu, Glasberg y Moore, 2011).
Algunos modelos incorporan predicciones parciales de sonoridad (Chen et al.,
1. La percepción de los tonos 15
musicales
2011; Moore et al., 1997), otros predicen los efectos de la pérdida auditiva coclear
en la sonoridad
16 Andrew J. Oxenham
(Moore y Glasberg, 1997), y otros se han ampliado para explicar la sonoridad de los
sonidos que fluctúan con el tiempo (Chalupper y Fastl, 2002; Glasberg y Moore,
2002). Sin embargo, ninguno ha intentado aún incorporar los efectos del contexto,
como la recalibración o el aumento de la sonoridad.
B. Pitch
El tono es sin duda la dimensión más importante de la música. Las secuencias de
tonos forman una melodía y las combinaciones simultáneas de tonos forman la
armonía, dos fundamentos de la música occidental. Existe una amplia bibliografía
dedicada a la investigación del tono, tanto desde el punto de vista perceptivo como
neuronal (Plack, Oxenham, Popper y Fay, 2005). El correlato físico más claro del
tono es la periodicidad, o tasa de repetición, del sonido, aunque otras dimensiones,
como la intensidad del sonido, pueden tener pequeños efectos (por ejemplo,
Verschuure & van Meeteren, 1975). Para los jóvenes con audición normal, los tonos
puros con frecuencias comprendidas entre unos 20 Hz y 20 kHz son audibles. Sin
embargo, sólo los sonidos con frecuencias de repetición comprendidas entre 30 Hz y
5 kHz provocan una percepción del tono que puede calificarse de musical y que es
lo suficientemente fuerte como para transmitir una melodía (por ejemplo, Attneave y
Olson, 1971; Pressnitzer, Patterson y Krumbholz, 2001; Ritsma, 1962). Tal vez no
resulte sorprendente que estos límites, que se determinaron mediante investigación
psicoacústica, se correspondan bastante bien con los límites inferior y superior de
tono que se encuentran en los instrumentos musicales: las notas más graves y más
agudas de un piano de cola moderno, que cubre los rangos de todos los instrumentos
orquestales estándar, corresponden a 27,5 Hz y 4186 Hz, respectivamente.
Tendemos a reconocer patrones de tonos que forman melodías (véase el capítulo
7 de este volumen). Lo hacemos, presumiblemente, reconociendo los intervalos
musicales entre notas sucesivas (véanse los capítulos 4 y 7 de este volumen), y la
mayoría de nosotros parecemos relativamente insensibles a los valores absolutos de
tono de la nota individual, siempre que las relaciones de tono entre las notas sean
correctas. Sin embargo, aún no está claro cómo se extrae exactamente el tono de
cada nota y cómo se representa en el sistema auditivo, a pesar de muchas décadas de
intensa investigación.
Sin embargo, los umbrales de los oyentes no entrenados sólo necesitaron entre 4 y 8
horas de práctica para igualarse a los de los músicos entrenados, mientras que éstos
no mejoraron con la práctica. Esto sugiere que la mayoría de las personas son
capaces de discriminar diferencias muy finas de frecuencia con muy poco
entrenamiento especializado.
En la Figura 3 se muestran dos representaciones de un tono puro a 440 Hz (el A
orquestal). El panel superior muestra la forma de onda -variaciones de la presión
sonora en función del tiempo- que se repite 440 veces por segundo, por lo que tiene
un periodo de 1/440 s, o unos 2,27 ms. El panel inferior ofrece la representación
espectral, que muestra que el sonido sólo tiene energía a 440 Hz. Esta representación
espectral corresponde a un tono puro "ideal", sin principio ni fin. En la práctica, la
energía espectral se extiende por encima y por debajo de la frecuencia del tono puro,
reflejando los efectos del inicio y el fin. Estas dos representaciones (espectral y
temporal) son una buena introducción a las dos formas en que se representan los
tonos puros en el sistema auditivo periférico.
El primer código de potencial, conocido como código de "lugar", refleja el
filtrado mecánico que tiene lugar en la cóclea del oído interno. La membrana basilar,
que recorre la cóclea llena de líquido desde la base hasta el ápex, vibra en
1 Figura 3 Diagrama
0.8 esquemático de la forma de
0.6 onda temporal (panel
0.4 superior) y el espectro de
potencia (panel inferior) de un
Presión (unidades
0.2
tono puro con una frecuencia
0
de 440 Hz.
arbitrarias)
-0.2
-0.4
-0.6
-0.8
-10 2 4 6
8 10 12
Tiempo (ms)
0.8
Magnitud (unidades
0.6
arbitrarias)
0.4
0.2
00
1000 2000 3000 4000 5000
Frecuencia (Hz)
1. La percepción de los tonos 19
musicales
respuesta al sonido. Las respuestas de la membrana basilar están muy afinadas y son
muy específicas: una determinada frecuencia sólo hará vibrar una región local de la
membrana basilar. Debido a sus propiedades estructurales, el extremo apical de la
membrana basilar responde mejor a las frecuencias bajas, mientras que el extremo
basal responde mejor a las frecuencias altas. Por lo tanto, cada lugar de la membrana
basilar tiene su propia "mejor frecuencia" o "frecuencia característica" (FC), es
decir, la frecuencia a la que ese lugar responde con mayor intensidad. Esta
asignación de frecuencia a lugar, u organización tonotópica, se mantiene a lo largo
de las vías auditivas hasta la corteza auditiva primaria, proporcionando así un código
neural potencial para el tono de los tonos puros.
El segundo código de potencial, conocido como código "temporal", se basa en el
hecho de que los potenciales de acción, o picos, generados en el nervio auditivo
tienden a producirse en una fase determinada dentro del periodo de una sinusoide.
Esta propiedad, conocida como bloqueo de fase, significa que el cerebro podría
representar la frecuencia de un tono puro mediante los intervalos de tiempo entre los
picos, cuando se agrupan a través del nervio auditivo. No se dispone de datos del
nervio auditivo humano, debido a la naturaleza invasiva de las mediciones, pero se
ha descubierto que el bloqueo de fase se extiende a entre 2 y 4 kHz en otros
mamíferos, dependiendo un poco de la especie. A diferencia de la organización
tonotópica, el bloqueo de fase hasta altas frecuencias no se conserva en las
estaciones superiores de las vías auditivas. A nivel de la corteza auditiva, el límite
del bloqueo de fase se reduce como mucho a 100 o 200 Hz (Wallace, Rutkowski,
Shackleton y Palmer, 2000). Por lo tanto, la mayoría de los investigadores creen que
el código de tiempo que se encuentra en el nervio auditivo debe transformarse en
alguna forma de código de lugar o de población en una fase relativamente temprana
del procesamiento auditivo.
Existen pruebas psicoacústicas a favor de los códigos de lugar y temporales. Una
prueba a favor de un código temporal es que la capacidad de discriminación del tono
se deteriora a frecuencias altas: la JND entre dos frecuencias aumenta
considerablemente a frecuencias superiores a unos 4 o 5 kHz, el mismo rango de
frecuencias por encima del cual se degrada la capacidad de los oyentes para
reconocer melodías familiares (Attneave y Olson, 1971) o para notar cambios sutiles
en melodías desconocidas (Oxenham, Micheyl, Keebler, Loper y Santurette, 2011).
Esta frecuencia es similar a la que se acaba de describir en la que el bloqueo de fase
en el nervio auditivo se degrada fuertemente (por ejemplo, Palmer y Russell, 1986;
Rose, Brugge, Anderson y Hind, 1967), lo que sugiere que el código temporal es
necesario para la discriminación precisa del tono y para la percepción de melodías.
Incluso podría considerarse una prueba de que los límites superiores del tono de los
instrumentos musicales están determinados por los límites fisiológicos básicos del
nervio auditivo.
Las pruebas de la importancia de la información de lugar proceden, en primer
lugar, del hecho de que sigue siendo posible algún tipo de percepción del tono
incluso con tonos puros de muy alta frecuencia (Henning, 1966; Moore, 1973), en
los que es poco probable que la información de bloqueo de fase sea útil (por
ejemplo, Palmer y Russell, 1986). Otra línea de evidencia que indica que la
información de lugar puede ser importante procede de un estudio en el que se
utilizaron los llamados "tonos transpuestos" (van de Par y Kohlrausch, 1997) para
20 Andrew J. Oxenham
presentar la información temporal que normalmente sólo estaría disponible en una
región de baja frecuencia de la cóclea a una región de alta frecuencia, disociando así
las señales temporales de las de lugar (Oxenham, Bernstein y Penagos, 2004). En
ese estudio, la discriminación del tono se
1. La percepción de los tonos 21
musicales
Presión (unidades
1
arbitrarias)
-1
-2
0 2 4 6 8 10 12
Tiempo
Espectro (ms)
0
-10
Nivel (dB)
-20
-30
-10
Respuesta (dB)
-20
-30
-10
Excitación (dB)
-20
-30
Tiempo (ms)
resueltos, y los filtros centrados en el octavo y el duodécimo armónicos del complejo, que
ilustran los armónicos que están menos resueltos y muestran modulaciones de amplitud a una
velocidad correspondiente a la F0.
14 Andrew J. Oxenham
forma de onda que impulsa las células ciliadas internas de la cóclea, que a su vez
hacen sinapsis con las fibras nerviosas auditivas para producir los trenes de espigas
que el cerebro debe interpretar.
Si se observan los dos paneles inferiores de la Figura 4, es posible ver una
transición a medida que se pasa de los armónicos con números bajos de la izquierda
a los armónicos con números altos de la derecha: Los primeros armónicos generan
picos distintos en el patrón de excitación, porque los filtros en esa región de
frecuencias son más estrechos que el espacio entre armónicos sucesivos. Observe
también que las formas de onda temporales en las salidas de los filtros centrados en
los armónicos de número bajo se asemejan a tonos puros. A mayor número de
armónicos, el ancho de banda de los filtros auditivos es mayor que el espacio entre
armónicos sucesivos, por lo que se pierden los picos individuales en el patrón de
excitación. Del mismo modo, la forma de onda temporal a la salida de los filtros de
frecuencia más alta ya no se asemeja a un tono puro, sino que refleja la interacción
de múltiples armónicos, produciendo una forma de onda compleja que se repite a
una velocidad correspondiente a la F0.
Los armónicos que producen picos distintos en el patrón de excitación y/o
producen vibraciones casi sinusoidales en la membrana basilar se denominan
"resueltos". Fenomenológicamente, los armónicos resueltos son aquellos que pueden
"oírse" como tonos separados en determinadas circunstancias. Normalmente, no
oímos los armónicos individuales cuando escuchamos un tono musical, pero nuestra
atención puede dirigirse a ellos de varias formas, por ejemplo, amplificándolos o
activándolos y desactivándolos mientras los demás armónicos permanecen
continuos (por ejemplo, Bernstein y Oxenham, 2003; Hartmann y Goupell, 2006).
Hermann von Helmholtz ya observó la capacidad de resolver o escuchar armónicos
individuales de bajo número como tonos puros en su obra clásica, On the Sensations
of Tone Perception (Helmholtz, 1885/1954).
Los armónicos numerados más altos, que no producen picos individuales de
excitación y normalmente no pueden oírse, suelen denominarse "no resueltos". Se
cree que la transición entre armónicos resueltos y no resueltos se encuentra en algún
punto entre el 5º y el 10º armónico, dependiendo de varios factores, como la F0 y las
amplitudes relativas de los componentes, así como de cómo se defina la
resolubilidad (por ejemplo, Bernstein y Oxenham, 2003; Houtsma y Smurzynski,
1990; Moore y Gockel, 2011; Shackleton y Carlyon, 1994).
Se han elaborado numerosas teorías y modelos para explicar cómo se extrae el
tono de la información presente en la periferia auditiva (de Cheveigne', 2005). Al
igual que en el caso de los tonos puros, las teorías pueden dividirse en dos categorías
básicas: teorías de lugar y teorías temporales. Las teorías de lugar suelen proponer
que el sistema auditivo utiliza los armónicos resueltos de orden inferior para calcular
el tono (por ejemplo, Cohen, Grossberg y Wyse, 1995; Goldstein, 1973; Terhardt,
1974b; Wightman, 1973). Esto podría lograrse mediante un proceso de ajuste de
plantillas, con plantillas armónicas "programadas" o plantillas que se desarrollan a
través de la exposición repetida a series armónicas, que finalmente se asocian con la
F0. Las teorías temporales suelen implicar la evaluación de los intervalos de tiempo
entre los picos de los nervios auditivos, utilizando una forma de autocorrelación o
histograma de picos de todos los intervalos (Cariani y Delgutte, 1996; Licklider,
1951; Meddis y Hewitt, 1991; Meddis y O'Mard, 1997; Schouten, Ritsma y
1. La percepción de los tonos 15
musicales
Cardozo, 1962). Esta información puede obtenerse tanto de los armónicos resueltos
como de los no resueltos.
16 Andrew J. Oxenham
C. Timbre
La definición oficial ANSI de timbre es: "Aquel atributo de la sensación auditiva
que permite a un oyente juzgar que dos sonidos no idénticos, presentados de forma
similar y con la misma intensidad y tono, son diferentes" (ANSI, 1994). La norma
continúa señalando que el timbre depende principalmente del espectro de
frecuencias del sonido, pero también puede depender de la presión sonora y de las
características temporales. En otras palabras, todo lo que no sea tono o sonoridad es
timbre. Como el timbre tiene su propio capítulo en este volumen (Capítulo 2), no se
tratará más aquí. Sin embargo, el timbre aparece en la siguiente sección, donde se
aborda su influencia en los juicios sobre el tono y la sonoridad.
Aumento de la luminosidad
Nivel (dB)
Frecuencia
Tiempo
D. Consonancia y disonancia
La cuestión de cómo suenan determinadas combinaciones de tonos cuando se tocan
juntos es fundamental en muchos aspectos de la teoría musical. Las combinaciones
de dos tonos que forman ciertos intervalos musicales, como la octava y la quinta,
suelen considerarse agradables o consonantes, mientras que otras, como la cuarta
aumentada (tri-tono), suelen considerarse desagradables o disonantes. Estos tipos de
percepciones que implican tonos presentados aislados de un contexto musical se han
denominado consonancia o disonancia sensorial. El término consonancia musical
(Terhardt, 1976, 1984) engloba factores sensoriales, pero también incluye muchos
otros factores que contribuyen a que una combinación de sonidos se considere
consonante o disonante, como el contexto (qué sonidos la preceden), el estilo de
música (por ejemplo, jazz o clásica) y, presumiblemente, también el gusto personal
1. La percepción de los tonos 33
musicales
y la historia musical del oyente.
34 Andrew J. Oxenham
1998; Zentner y Kagan, 1996, 1998). Sin embargo, aún no se sabe si los bebés
responden más a los ritmos o a la inarmonicidad, o a ambos. Sería interesante
descubrir si las preferencias de los adultos por la armonicidad reveladas por
McDermott et al. (2010) son compartidas por los bebés, o si los bebés basan
inicialmente sus preferencias en los batimentos acústicos.
Agradecimientos
Emily Allen, Christophe Micheyl y John Oxenham aportaron comentarios útiles sobre una
versión anterior de este capítulo. El trabajo del laboratorio del autor está financiado por los
Institutos Nacionales de la Salud (subvenciones R01 DC 05216 y R01 DC 07657).
Referencias
Instituto Nacional Estadounidense de Normalización. (1994). Terminología acústica. ANSI
S1.1-1994.
Nueva York, NY: Autor.
Arieh, Y., y Marks, L. E. (2003a). Recalibrando el sistema auditivo: A speed-accuracy
analysis of intensity perception. Journal of Experimental Psychology: Human
Perception and Performance, 29, 523-536.
Arieh, Y., y Marks, L. E. (2003b). Time course of loudness recalibration: Implications for
loudness enhancement. Journal of the Acoustical Society of America, 114, 1550 -
1556.
Attneave, F., y Olson, R. K. (1971). El tono como medio: A new approach to psychophysical
1. La percepción de los tonos 37
musicales
scaling. American Journal of Psychology, 84, 147-166.
38 Andrew J. Oxenham
Beerends, J. G., & Houtsma, A. J. M. (1989). Pitch identification of simultaneous diotic and
dichotic two-tone complexes. Journal of the Acoustical Society of America, 85, 813 819.
Bendor, - D., & Wang, X. (2005). The neuronal representation of pitch in primate auditory
cortex. Nature, 436, 1161-1165.
Bernstein, J. G., y Oxenham, A. J. (2003). Pitch discrimination of diotic and dichotic tone
complexes: ¿Resolubilidad armónica o número armónico? Journal of the Acoustical
Society of America, 113, 3323-3334.
Bernstein, J. G., y Oxenham, A. J. (2005). An autocorrelation model with place dependence
to account for the effect of harmonic number on fundamental frequency discrimination.
Journal of the Acoustical Society of America, 117, 3816 - 3831.
Bernstein, J. G., & Oxenham, A. J. (2006a). La relación entre la selectividad de frecuencia y
la discriminación de tono: Efectos del nivel de estímulo. Journal of the Acoustical
Society of America,- 120, 3916 3928.
Bernstein, J. G., & Oxenham, A. J. (2006b). La relación entre la selectividad de frecuencia y
la discriminación de tono: Pérdida auditiva neurosensorial. Journal of the Acoustical
Society of America, 120,- 3929 3945.
Bizley, J. K., Walker, K. M., Silverman, B. W., King, A. J., & Schnupp, J. W. (2009).
Codificación interdependiente de tono, timbre y ubicación espacial en la corteza
auditiva. Journal of Neuroscience, - 29, 2064 2075.
Borchert, E. M., Micheyl, C., & Oxenham, A. J. (2011). Perceptual grouping affects pitch
judgments across time and frequency. Journal of Experimental Psychology: Human
Perception and Performance, 37, 257-269.
Burns, E. M., y Viemeister, N. F. (1976). Nonspectral pitch. Journal of the Acoustical Society
of America, 60, 863 869. -
Burns, E. M., y Viemeister, N. F. (1981). Reproducido de nuevo SAM: Observaciones
adicionales sobre el tono del ruido modulado en amplitud. Journal of the Acoustical
Society
- of America, 70, 1655 1660.
Buus, S., Muesch, H. y Florentine, M. (1998). On loudness at threshold. Journal of the
Acoustical Society of America, 104, 399-410.
Cariani, P. A., y Delgutte, B. (1996). Neural correlates of the pitch of complex tones.
I. Pitch and pitch salience. Journal of Neurophysiology, 76, 1698 - 1716.
Carlyon, R. P. (1996). Encoding the fundamental frequency of a complex tone in the pres-
ence of a spectrally overlapping masker. Journal of the Acoustical Society of America,
99, 517-524.
Carlyon, R. P. (1998). Comments on "A unitary model of pitch perception" [Journal of the
Acoustical Society of America, 102, 1811 1820 - (1997)]. Journal of the Acoustical
Society of America, 104, 1118-1121.
Carlyon, R. P., y Shackleton, T. M. (1994). Comparación de las frecuencias fundamentales de
armónicos resueltos y no resueltos: ¿Evidencia de dos mecanismos de tono? Journal of
the Acoustical Society of America, 95, 3541
- 3554.
Cedolin, L., & Delgutte, B. (2010). Representación espaciotemporal del tono de los tonos
complejos armónicos en el nervio auditivo. Journal of Neuroscience, 30, 12712
- 12724.
Chalupper, J., & Fastl, H. (2002). Dynamic loudness model (DLM) for normal and hearing-
impaired listeners. Acta Acustica unida a Acustica, 88, 378 386. -
Chen, Z., Hu, G., Glasberg, B. R., & Moore, B. C. (2011). A new method of calculating
auditory excitation patterns and loudness for steady sounds. Hearing Research, 282 (1-
2), 204-215.
1. La percepción de los tonos 39
musicales
Cohen, M. A., Grossberg, S. y Wyse, L. L. (1995). A spectral network model of pitch per-
ception. Journal of the Acoustical Society of America, 98, 862 - 879.
Dai, H. (2000). On the relative influence of individual harmonics on pitch judgment. Journal
of the Acoustical Society of America, 107, 953-959.
Daniel, P., y Weber, R. (1997). Rugosidad psicoacústica: Implementación de un modelo opti-
mizado. Acustica, 83, 113 123. -
Darwin, C. J. (2005). Tono y agrupación auditiva. En C. J. Plack, A. J. Oxenham, R. Fay, &
A. N. Popper (Eds.), Pitch: Neural coding and perception (pp. 278 305). - Nueva York,
NY: Springer Verlag.
Darwin, C. J., y Ciocca, V. (1992). Grouping in pitch perception: Effects of onset asyn-
chrony and ear of presentation of a mistuned component. Journal of the Acoustical
Society of America, 91, 3381-3390.
Darwin, C. J., Hukin, R. W., & al-Khatib, B. Y. (1995). Agrupación en la percepción del
tono: Evidence for sequential constraints. Journal of the Acoustical Society of America,
98, -
880 885.
de Boer, E. (1956). On the "residue" in hearing (Tesis doctoral inédita). Países Bajos:
Universidad de Amsterdam.
de Cheveigne', A. (2005). Modelos de percepción del tono. En C. J. Plack, A. J. Oxenham,
A. N. Popper, & R . Fay (Eds.), Pitch: Codificación neuronal y percepción
(pp. 169 -233). Nueva York, NY: Springer Verlag.
de Cheveigne', A., & Pressnitzer, D. (2006). El caso de las líneas de retardo perdidas:
Retardos sintéticos obtenidos por interacción de fase entre canales. Journal of the
Acoustical Society of-America, 119, 3908 3918.
Demany, L., y Ramos, C. (2005). On the binding of successive sounds: perceiving shifts in
nonperceived pitches. Journal of the Acoustical Society of America, 117, 833 841.
Durlach, -N. I., y Braida, L. D. (1969). Intensity perception. I. Preliminary theory of intensity
resolution. Journal of the Acoustical Society of America, 46, 372-383.
Epstein, M., y Florentine, M. (2005). A test of the equal-loudness-ratio hypothesis using
cross-modality matching functions. Journal of the Acoustical Society of America, 118,
907- 913.
Faulkner, A. (1985). Discriminación del tono de señales armónicas complejas:
Discriminación del tono residual o de componentes múltiples. Journal of the Acoustical
Society
- of America, 78, 1993 2004.
Fechner, G. T. (1860). Elemente der psychophysik (Vol. 1). Leipzig, Alemania: Breitkopf
und Haertl.
Fletcher, H., y Munson, W. A. (1933). Loudness, its definition, measurement and calculation.
Journal of the Acoustical Society of America, 5, 82-108.
Fletcher, H., y Munson, W. A. (1937). Relation between loudness and masking. Journal of
the Acoustical Society of America, 9, 1-10.
Florentine, M., Buus, S., & Robinson, M. (1998). Temporal integration of loudness under
partial masking. Journal of the Acoustical Society of America, 104, 999 - 1007.
Gabriel, B., Kollmeier, B. y Mellert, V. (1997). Influence of individual listener, measure-
ment room and choice of test-tone levels on the shape of equal-loudness level contours.
Acustica, 83, 670-683.
Galambos, R., Bauer, J., Picton, T., Squires, K., & Squires, N. (1972). Loudness enhance-
ment following contralateral stimulation. Journal of the Acoustical Society of America,
52(4), 1127-1130.
40 Andrew J. Oxenham
Glasberg, B. R., y Moore, B. C. J. (1990). Derivation of auditory filter shapes from notched-
noise data. Hearing Research, 47, 103 138. -
Glasberg, B. R., y Moore, B. C. J. (2002). A model of loudness applicable to time-varying
sounds. Journal of the Audio Engineering Society, 50, 331- 341.
Gockel, H., Carlyon, R. P., & Plack, C. J. (2004). Efectos de interferencia entre frecuencias en
la discriminación de frecuencias fundamentales: Questioning evidence for two pitch
mechanisms. Journal of the Acoustical Society of America, - 116, 1092 1104.
Goldstein, J. L. (1973). Una teoría de procesador óptimo para la formación central del tono de
tonos complejos. Journal of the Acoustical Society of America, 54, 1496 1516.
Griffiths, -
T. D., Buchel, C., Frackowiak, R. S. y Patterson, R. D. (1998). Analysis of tem-
poral structure in sound by the human brain. Nature Neuroscience, 1, 422-427.
-
Griffiths, T. D., Uppenkamp, S., Johnsrude, I., Josephs, O. y Patterson, R. D. (2001).
Codificación de la regularidad temporal del sonido en el tronco encefálico humano.
Nature Neuroscience,-4, 633 637.
Hall, D. A., & Plack, C. J. (2009). Lugares de procesamiento del tono en el cerebro auditivo
humano.
Corteza cerebral, 19, 576-585.
Hartmann, W. M., y Goupell, M. J. (2006). Enhancing and unmasking the harmonics of a
complex tone. Journal of the Acoustical Society of America, 120, 2142 - 2157.
Heinz, M. G., Colburn, H. S., & Carney, L. H. (2001). Evaluación de los límites del
rendimiento auditivo: I. One-parameter discrimination using a computational model for
the auditory nerve. Neural Computation,- 13, 2273 2316.
Hellman, R. P. (1976). Growth of loudness at 1000 and 3000 Hz. Journal of the Acoustical
Society of America, 60, 672-679.
Hellman, R. P., y Zwislocki, J. (1964). Loudness function of a 1000-cps tone in the presence
of a masking noise. Journal of the Acoustical Society of America, 36, 1618 - 1627.
Helmholtz, H. L. F. (1885/1954). On the sensations of tone (A. J. Ellis, Trans.). Nueva York,
NY: Dover.
Henning, G. B. (1966). Discriminación en frecuencia de tonos de amplitud aleatoria. Journal of
the Acoustical Society of America, 39, -336 339.
Houtsma, A. J. M., & Smurzynski, J. (1990). Pitch identification and discrimination for complex
tones with many harmonics. Journal of the Acoustical Society of America, 87, 304 - 310.
Huron, D. (1989). Voice denumerability in polyphonic music of homogenous timbres. Music
Perception, 6, 361-382.
Jesteadt, W., Wier, C. C., & Green, D. M. (1977). Intensity discrimination as a function of
frequency and sensation level. Revista de la Sociedad Acústica de América, 61,
169- 177.
Kaernbach, C., y Bering, C. (2001). Exploración del mecanismo temporal implicado en el
tono de armónicos no resueltos. Journal of the Acoustical Society of America, 110, 1039
1048.-
Kameoka, A., y Kuriyagawa, M. (1969a). Consonance theory part I: Consonance of dyads.
Journal of the Acoustical Society of America, 45, 1451 - 1459.
Kameoka, A., & Kuriyagawa, M. (1969b). Consonance theory part II: Consonance of com-
plex tones and its calculation method. Journal of the Acoustical Society of America, 45,
1460- 1469.
Keuss, P. J., & van der Molen, M. W. (1982). Efectos positivos y negativos de la intensidad
del estímulo en tareas de reacción auditiva: Further studies on immediate arousal. Acta
Psychologica, 52, 61-72.
1. La percepción de los tonos 41
musicales
Kohfeld, D. L. (1971). Simple reaction time as a function of stimulus intensity in decibels of
light and sound. Journal of Experimental Psychology, 88, 251 - 257.
Kohlrausch, A., Fassel, R., & Dau, T. (2000). The influence of carrier level and frequency on
modulation and beat-detection thresholds for sinusoidal carriers. Journal of the
Acoustical Society of America, 108, 723-734.
Langner, G., y Schreiner, C. E. (1988). Periodicity coding in the inferior colliculus of the cat.
I. Neuronal mechanisms. Journal of Neurophysiology, 60, 1799 1822. -
Liberman, A. M., Isenberg, D. y Rakerd, B. (1981). Duplex perception of cues for stop con-
sonants: Evidence for a phonetic mode. Perception & Psychophysics, 30, 133 143. -
Licklider, J. C., Webster, J. C., y Hedlun, J. M. (1950). On the frequency limits of binaural
beats. Journal of the Acoustical Society of America, 22, 468 - 473.
Licklider, J. C. R. (1951). A duplex theory of pitch perception. Experientia, 7, 128 133.
- Loeb,
G. E., White, M. W. y Merzenich, M. M. (1983). Spatial cross correlation: A pro-
de la percepción del tono acústico. Biological Cybernetics, 47, 149 163. Luce, R. - D., &
Green, D. M. (1972). A neural timing theory for response times and the psy-
chos de intensidad. Psychological Review, 79, 14 57. -
Mapes-Riordan, D., y Yost, W. A. (1999). Recalibración de la sonoridad en función del nivel.
Journal of the Acoustical Society of America, 106, 3506 - 3511.
Marks, L. E. (1994). "Recalibrando" el sistema auditivo: La percepción del volumen.
Revista de Psicología Experimental: Percepción y Rendimiento Humanos, 20,
382- 396.
Mauermann, M., Long, G. R., & Kollmeier, B. (2004). Fine structure of hearing threshold and
loudness perception. Journal of the Acoustical Society of America, 116, 1066 -1080.
McDermott, J. H., Lehr, A. J., & Oxenham, A. J. (2010). Las diferencias individuales revelan
la base de la consonancia. Current Biology, 20, - 1035 1041.
Meddis, R., & Hewitt, M. (1991). Sensibilidad virtual de tono y fase estudiada de un modelo
informático de la periferia auditiva. I: Identificación del tono. Journal of the Acoustical
Society of America, 89, 2866-2882.
Meddis, R., y O'Mard, L. (1997). A unitary model of pitch perception. Journal of the
Acoustical Society of America, 102, 1811-1820.
Micheyl, C., Bernstein, J. G., & Oxenham, A. J. (2006). Detection and F0 discrimination of
harmonic complex tones in the presence of competing tones or noise. Journal of the
Acoustical Society of America, 120, 1493-1505.
Micheyl, C., Delhommeau, K., Perrot, X., & Oxenham, A. J. (2006). Influence of musical and
psychoacoustical training on pitch discrimination. Hearing Research, 219,
36 -47.
Micheyl, C., Keebler, M. V., & Oxenham, A. J. (2010). Pitch perception for mixtures of
spectrally overlapping harmonic complex tones. Journal of the Acoustical Society of
America, 128, 257-269.
Micheyl, C., & Oxenham, A. J. (2003). Further tests of the "two pitch mechanisms" hypothe-
sis. Journal of the Acoustical Society of America, 113, 2225.
Miller, G. A. (1956). El número mágico siete, más o menos dos: Algunos límites de nuestra
capacidad para procesar información. Psychology Review, 63, 81-96.
Moore, B. C. J. (1973). Frequency difference limens for short-duration tones. Journal of the
Acoustical Society of America, 54, 610-619.
Moore, B. C. J., y Glasberg, B. R. (1990). Frequency discrimination of complex tones with
overlapping and non-overlapping harmonics. Journal of the Acoustical Society of
America, 87, 2163-2177.
42 Andrew J. Oxenham
Moore, B. C. J., y Glasberg, B. R. (1996). Una revisión del modelo de sonoridad de Zwicker.
Acustica, 82, 335-345.
Moore, B. C. J., y Glasberg, B. R. (1997). A model of loudness perception applied to cochlear
hearing loss. Auditory Neuroscience, 3, 289 311. -
Moore, B. C. J., Glasberg, B. R. y Baer, T. (1997). A model for the prediction of thresholds,
loudness, and partial loudness. Journal of the Audio Engineering Society, 45, 224-240.
-
Moore, B. C. J., Glasberg, B. R. y Peters, R. W. (1985). Relative dominance of individual
partials in determining the pitch of complex tones. Journal of the Acoustical Society of
America, 77, 1853-1860.
Moore, B. C. J., Glasberg, B. R., & Peters, R. W. (1986). Thresholds for hearing mistuned
partials as separate tones in harmonic complexes. Journal of the Acoustical Society of
America, 80, 479-483.
Moore, B. C. J., Glasberg, B. R., & Vickers, D. A. (1999). Further evaluation of a model of
loudness perception applied to cochlear hearing loss. Journal of the Acoustical Society of
America, 106, 898 907. -
Moore, B. C. J., & Gockel, H. E. (2011). Resolvability of components in complex tones and
implications for theories of pitch perception. Hearing Research, 276, 88 - 97.
Moore, B. C. J., y Peters, R. W. (1992). Pitch discrimination and phase sensitivity in young
and elderly subjects and its relationship to frequency selectivity. Journal of the
Acoustical Society of America, 91, 2881-2893.
Moore, B. C. J., & Se˛k, A. (2009). Sensitivity of the human auditory system to temporal fine
structure at high frequencies. Journal of the Acoustical Society of America, 125, 3186
3193.-
Noesselt, T., Tyll, S., Boehler, C. N., Budinger, E., Heinze, H. J., & Driver, J. (2010). Mejora
de la visión de baja intensidad inducida por el sonido: Multisensory influences on human
sensory-specific cortices and thalamic bodies relate to perceptual enhancement of visual
detection sensitivity. Journal of Neuroscience, 30, 13609 - 13623.
Oberfeld, D. (2007). Loudness changes induced by a proximal sound: ¿Aumento de la
sonoridad, recalibración de la sonoridad o ambos? Journal of the Acoustical Society of
America, 121,
- 2137 2148.
Odgaard, E. C., Arieh, Y., & Marks, L. E. (2003). Cross-modal enhancement of perceived
brightness: Sensory interaction versus response bias. Perception & Psychophysics, 65,
123- 132.
Odgaard, E. C., Arieh, Y., & Marks, L. E. (2004). Brighter noise: Sensory enhancement of
perceived loudness by concurrent visual stimulation. Cognitive, Affective, & Behavioral
Neuroscience, 4, 127-132.
Oxenham, A. J., Bernstein, J. G. W., & Penagos, H. (2004). La representación tonotópica
correcta es necesaria para la percepción compleja del tono. Proceedings of the National
Academy of Sciences USA, -101, 1421 1425.
Oxenham, A. J., & Buus, S. (2000). Level discrimination of sinusoids as a function of dura-
tion and level for fixed-level, roving-level, and across-frequency conditions. Journal of
the Acoustical Society of America, 107, 1605-1614.
Oxenham, A. J., Micheyl, C., Keebler, M. V., Loper, A. y Santurette, S. (2011). Pitch per-
ception beyond the traditional existence region of pitch. Proceedings of the National
Academy of Sciences USA, 108, 7629 - 7634.
Palmer, A. R., y Russell, I. J. (1986). Phase-locking in the cochlear nerve of the guinea-pig
and its relation to the receptor potential of inner hair-cells. Hearing Research, 24, 1-15.
1. La percepción de los tonos 43
musicales
Patterson, R. D. (1973). The effects of relative phase and the number of components on
residue pitch. Journal of the Acoustical Society of America, 53, 1565 - 1572.
Penagos, H., Melcher, J. R. y Oxenham, A. J. (2004). A neural representation of pitch
salience in non-primary human auditory cortex revealed with fMRI. Journal of
Neuroscience, 24, 6810-6815.
Plack, C. J. (1996). Loudness enhancement and intensity discrimination under forward and
backward masking. Journal of the Acoustical Society of America, 100, 1024 - 1030.
Plack, C. J., Oxenham, A. J., Popper, A. N., & Fay, R. (Eds.), (2005). Pitch: Neural coding
and perception. New York, NY: Springer Verlag.
Plomp, R., & Levelt, W. J. M. (1965). Consonancia tonal y ancho de banda crítico. Journal of
the Acoustical Society of America, 38, 548-560.
Poulton, E. C. (1977). Quantitative subjective assessments are almost always biased, some-
times completely misleading. British Journal of Psychology, 68, 409 - 425.
Poulton, E. C. (1979). Models for the biases in judging sensory magnitude. Boletín de
Psicología, 86, 777
- 803.
Pressnitzer, D., Patterson, R. D., & Krumbholz, K. (2001). El límite inferior del tono melódico.
Journal of the Acoustical Society of America, 109, 2074 - 2084.
Relkin, E. M., y Doucet, J. R. (1997). ¿Es el volumen simplemente proporcional al número de
espigas del nervio auditivo ? Journal of the Acoustical Society of America,
- 101, 2735
2741.
Ritsma, R. J. (1962). Región de existencia del residuo tonal. I. Journal of the Acoustical
Society of America, 34, 1224-1229.
Robinson, D. W., y Dadson, R. S. (1956). A re-determination of the equal-loudness relations
for pure tones. British Journal of Applied Physics, 7, 166 181.
-
Rose, J. E., Brugge, J. F., Anderson, D. J., & Hind, J. E. (1967). Phase-locked response to
low-frequency tones in single auditory nerve fibers of the squirrel monkey. Journal of
Neurophysiology, 30, 769-793.
Scharf, B. (1964). Enmascaramiento parcial. Acustica, - 14, 16 23.
Scharf, B., Buus, S. y Nieder, B. (2002). Aumento del volumen: ¿Reducción de sonoridad
inducida disfrazada? (L). Journal of the Acoustical Society of America, 112, 807- 810.
Schouten, J. F. (1940). El residuo y el mecanismo de la audición. Actas del
Koninklijke Nederlandse Academie van Wetenschappen, 43, 991 - 999.
Schouten, J. F., Ritsma, R. J., & Cardozo, B. L. (1962). Tono del residuo. Journal of the
Acoustical Society of America, 34, 1418-1424.
Schutz, M., y Kubovy, M. (2009). Causalidad e integración intermodal. Journal of
Experimental Psychology: Human Perception and Performance, 35, 1791-1810.
Schutz, M., y Lipscomb, S. (2007). Oír gestos, ver música: La visión influye en la duración del
tono percibido. Perception, 36, 888 897. -
Seebeck, A. (1841). Beobachtungen u¨ber einige Bedingungen der Entstehung von To¨nen.
Anales de Química Física, 53, 417 436.-
Shackleton, T. M., y Carlyon, R. P. (1994). The role of resolved and unresolved harmonics in
pitch perception and frequency modulation discrimination. Journal of the Acoustical
Society of America, 95, 3529-3540.
Shamma, S., y Klein, D. (2000). The case of the missing pitch templates: How harmonic
templates emerge in the early auditory system. Journal of the Acoustical Society of
America, 107, 2631-2644.
Shinn-Cunningham, B. G., Lee, A. K., & Oxenham, A. J. (2007). Un elemento sonoro se
pierde en la competición perceptiva. Actas de la Academia Nacional de Ciencias de
EE.UU., 104, 12223-12227.
44 Andrew J. Oxenham
A. Espacio tímbrico
El escalado multidimensional (MDS) no tiene en cuenta la estructura física o
perceptiva del timbre. Los oyentes simplemente valoran en una escala que varía de
muy similar a muy diferente todos los pares de un conjunto determinado de sonidos.
Los sonidos suelen estar igualados en cuanto a tono, volumen y duración, y se
presentan desde la misma ubicación en el espacio, de modo que sólo varía el timbre,
para centrar la atención de los oyentes en este conjunto de atributos. A continuación,
las puntuaciones de disimilitud se ajustan a un modelo de distancia en el que los
sonidos con timbres similares están más próximos entre sí y los que tienen timbres
disimilares están más alejados. El método de análisis se presenta en la figura 1. La
representación gráfica del modelo de distancia se denomina "espacio tímbrico".
Estas técnicas se han aplicado a sonidos sintéticos (Miller & Carterette, 1975;
Plomp, 1970; Caclin, McAdams, Smith & Winsberg, 2005), sonidos resintetizados o
simu- lados de instrumentos (Grey, 1977; Kendall, Carterette y Hajda, 1999;
Krumhansl, 1989; McAdams, Winsberg, Donnadieu, De Soete y Krimphoff, 1995;
Wessel, 1979), sonidos de instrumentos grabados (Iverson y Krumhansl, 1993;
Lakatos,
1
A diferencia del capítulo sobre timbre de las ediciones anteriores de este libro, se hará menos hincapié
2. Percepción del timbre 37
musical
en el análisis y la síntesis del sonido y más en la percepción y la cognición. Risset y Wessel (1999)
sigue siendo un excelente resumen de estas cuestiones anteriores.
38 Stephen McAdams
" #12
X
R
dijt 5 wtr ðxir 2xjr Þ2 1vt ðsi 1sj Þ ;
r51 (Ecuaci
ón 1)
donde dijt es la distancia entre los sonidos i y j para la clase latente t, xir es el coordi-
nado del sonido i en la dimensión r, R es el número total de dimensiones, wtr es el
peso en la dimensión r para la clase t, si es la especificidad en el sonido i, y vt es el
peso en todo el conjunto de especificidades para la clase t. El modelo básico no tiene
2. Percepción del timbre 39
musical
vbs
corto 4
hrp
ols
3
vbn hcd obc
2 gtr
pno
1
Dimensión 1
logarítmico)
(tiempo de
0
ataque
-1
tbn
-2 cnt tpr
gtn ehn
fhn
-3 sno bsn
largo
stg tpt
3
bajo
2
1 -3
0 -2
-1 más
-1 0
-2 1
2
alta -3 3
menos
Figura 2 El espacio tímbrico hallado por McAdams et al. (1995) para un conjunto de
sonidos sintetizados. La solución CLASCAL tiene tres dimensiones con especificidades
(la fuerza de la especificidad se muestra por el tamaño del cuadrado). También se indican
los correlatos acústicos de cada dimensión. (vbs 5 vibráfono, hrp 5 arpa, ols 5 obolesta
(híbrido oboe/celesta), gtr 5 guitarra, pno 5 piano, vbn 5 vibrone (híbrido
vibráfono/trombón), hcd 5 clavicordio, obc 5 obochord (híbrido oboe/clavicordio), gtn
5 guitarnet (híbrido guitarra/clarinete), cnt 5 clarinete, sno 5 striano (híbrido cuerda
arqueada/piano), tbn 5 trombón, fhn 5 corno francés, stg 5 cuerda arqueada, tpr 5
trompar (híbrido trompeta/guitarra), ehn 5 corno inglés, bsn 5 fagot, tpt 5 trompeta).
Modificado de la Figura 1, McAdams et al. (1995). ©1995 por Springer-Verlag. Adaptado con
permiso.
características similares a las del trombón). Wessel, Bristow y Settel (1987) crearon
estos sonidos en un sintetizador Yamaha DX7 FM. Un análisis CLASCAL reveló
tres dimensiones compartidas, la existencia de especificidades en los sonidos y cinco
clases latentes de oyentes, para los que diferían los pesos relativos en las
dimensiones compartidas y el conjunto de especificidades.
En la figura 3 se muestran los pesos relativos de las tres dimensiones y el
conjunto de especificidades de las cinco clases latentes. La mayoría de los oyentes
pertenecían a las clases 1 y 2 y tenían pesos bastante iguales en las dimensiones y las
especificidades. Lo que distinguía a estas dos clases era simplemente el uso de la
escala de valoración: Los oyentes de la clase 1 utilizaron
42 Stephen McAdams
1.6
Clase 1
Clase 2
Clase 3
Clase 4
1.4 Clase 5
1.2
Peso normalizado
1.0
0.8
0.6
0.4
Dim 1Dim 2Dim 3 Especifique
más de la escala que los oyentes de la clase 2. En las otras tres clases, sin embargo,
algunas dimensiones eran prominentes (pesos altos) y otras estaban perceptualmente
atenuadas (pesos bajos). Por ejemplo, los oyentes de la clase 3 otorgaron un peso
elevado a la dimensión 2, que parece estar relacionada con las características
espectrales de los sonidos, y un peso bajo a las especificidades. Por el contrario, los
oyentes de la clase 4 favorecieron la dimensión 1 (relacionada con la dimensión
temporal del tiempo de ataque) y las especificidades, y atenuaron las dimensiones
espectral (Dim 2) y espectrotemporal (Dim 3).
Los modelos de espacio tímbrico han resultado útiles para predecir las
percepciones de los oyentes en situaciones que van más allá de las medidas
específicamente en los experimentos, lo que sugiere que, de hecho, captan aspectos
importantes de la representación tímbrica. En consonancia con las predicciones de
un modelo tímbrico, Grey y Gordon (1978) descubrieron que al intercambiar las
envolventes espectrales en pares de sonidos que diferían principalmente a lo largo de
una de las dimensiones de su espacio que se creía relacionado con las propiedades
espectrales, estos sonidos cambiaban de posición a lo largo de esta dimensión. El
espacio tímbrico también ha resultado útil para predecir la percepción de intervalos
2. Percepción del timbre 43
musical
6
obochord trumpar
oboe
4
oboe
fagot
Amplitud
corno inglés clavicordio
de cuerda trompeta
2 arqueada
striano
Dimensión 2 guitarra
0
piano
0246 8 10 12 14 16
piano
muestreado
trombón guitarnet
arpa SC = 4,3Rango armónico
-2 piano de
arco
Amplitud
clarinete
vibráfono obolesta
Trombón trompa
-4 vibrone
-6
2.5 3.0 3.5 4.0 4.5 5.0 5.5
024 6 8 10 12 14 16 Centroide espectral (SC, rango armónico)
SC = 2,6Rango armónico
Figura 4 Centroide espectral en relación con la segunda dimensión del espacio de Krumhansl
(1989) utilizando los sonidos sintetizados de Wessel et al. (1987). Los gráficos de la
izquierda y la derecha representan los espectros de frecuencia de dos de los sonidos (trombón
y oboe, respectivamente). La punta de flecha en el eje x indica la ubicación del centroide
espectral. El gráfico del centro muestra la regresión del centroide espectral (eje x) sobre la
posición a lo largo de la dimensión perceptiva (eje y). Obsérvese que todos los puntos están
muy próximos a la línea de regresión, lo que indica una estrecha asociación entre los
parámetros físicos y perceptivos.
vibráfono
vibráfono
Amplitud
guitarra
tiempo de ataque obolesta
= 4 ms
6
clavicordio
arpa
piano piano de
4 muestreado arco
piano
obochord
trompeta
0.00 0.19 0.38 0.57 0.75 vibrone
2
Tiempo ataqu tiempo = 330 ms
(seg) e
Amplitud
Dimensión 1
striano
-2
guitarra
trompeta 0.16 0.33 0.49 0.65 0.82
Tiempo (seg)
-4 cuerda
Corno inglés
arque
trombón piano de arco
ada
oboe
clarinete
-6
fagot
Trompa
-8
-3 -2 -2 -1 -1 0
log (tiempo de ataque)
Figura 5 Tiempo de ataque logarítmico en relación con la primera dimensión del espacio
de Krumhansl (1989). Los gráficos de la izquierda y la derecha muestran las envolventes
de amplitud de los sonidos de vibráfono y piano de arco. Las flechas indican el tiempo de
ataque.
2
http://recherche.ircam.fr/pub/timbretoolbox o http://www.cirmmt.mcgill.ca/research/tools/timbretoolbox
48 Stephen McAdams
3
trombón piano muestreado
1300 guitarra piano 1300
1250 2 guitarnet muestr 1250
cuerda eado
1200 vibráfono 1200
arque
1150 1 ada 1150
Centroide espectral
Centroide espectral
clavicordio clarinete
Dimensión 3
1100 1100
trompet
obolesta
a
1050 0 arpa piano 1050
1000 1000
(Hz)
(Hz)
trompeta
950 -1 950
trombón
900 Fagot 900
vibrone
850 -2 trompa 850
Corno
800 inglés 800
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 obochord 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
3
Tiempo (seg) Tiempo (seg)
.94 .95 .96 .97 .98 .99 1
Flujo espectral
Figura 6 Flujo espectral en relación con la tercera dimensión del espacio encontrado por McAdams et al. (1995). Los gráficos de la izquierda y la
derecha muestran la variación en el tiempo del centroide espectral para el trombón y el piano muestreado. Obsérvese que los puntos están más
dispersos alrededor de la línea de regresión en el gráfico central, lo que indica que este parámetro físico explica mucho menos de la varianza en las
posiciones de los sonidos a lo largo de la dimensión perceptiva.
44 Stephen McAdams
trompeta
Amplitud
8
DE = -5,7
trompeta
trumpar
4 trombón
a piano
0
fagot clarinete
guitanet
Amplitud
piano de arco
arpa vibráfono
-2
DE = 41,4
obolesta
clarinet
Corno inglés e
-4
oboe obocordio
048 10 14 18 22 26
Rango
armónico
-10 0 10 20 30 40 50
Desviación espectral (SD en dB)
Figura 7 Desviación espectral en relación con la tercera dimensión del espacio encontrado
por Krumhansl (1989). Los gráficos de la izquierda y la derecha muestran los espectros de
frecuencia y las envolventes espectrales globales de los sonidos de trompeta y clarinete.
Obsérvese que las amplitudes de los componentes de frecuencia están próximas a la
envolvente global en el caso de la trompeta, pero se desvían por encima y por debajo de esta
envolvente en el caso del clarinete.
una basada principalmente en los valores medios (11 descriptores) y la otra en los
rangos intercuartílicos de las medidas variables en el tiempo de estas propiedades
espectrales (7 descriptores). Así pues, las tendencias centrales y la variabilidad de la
forma espectral se comportan de forma independiente en toda la base de datos
MUMS. Un tercer gran grupo de 16 descriptores incluía la mayoría de los
descriptores temporales, como el tiempo de ataque logarítmico, y descriptores
energéticos, como la variabilidad de la energía del ruido y la energía total a lo largo
del tiempo. Un cuarto gran grupo incluía 10 descriptores relacionados con la
periodicidad, el ruido y la irregularidad de la envolvente espectral. El resto de
grupos más pequeños tenían uno o dos descriptores cada uno e incluían descriptores
de la forma espectral, la variación espectral y la amplitud y frecuencia de las
modulaciones en la envolvente temporal.
La combinación de un modelo cuantitativo de relaciones perceptivas entre
timbres y la explicación psicofísica de los parámetros del modelo es un paso
importante para obtener un control predictivo del timbre en varios ámbitos, como el
análisis y la síntesis de sonidos y la búsqueda inteligente basada en el contenido en
bases de datos de sonidos (McAdams y Misdariis, 1999; Peeters, McAdams y
Herrera, 2000). Estas representaciones sólo son útiles en la medida en que sean (a)
generalizables más allá del conjunto de sonidos realmente estudiados, (b) robustas
con respecto a los cambios en el contexto musical, y (c) generalizables a otros tipos
de tareas de escucha distintos de los utilizados para estructurar el modelo. En la
medida en que una representación posea estas propiedades, podrá considerarse como
un relato preciso del timbre musical, caracterizado por una característica importante
de un modelo científico, la capacidad de predecir nuevos fenómenos empíricos.
A. Mezcla tímbrica
La creación de nuevos timbres a través de la orquestación depende necesariamente
del grado de fusión o mezcla de las fuentes sonoras constituyentes para crear el
nuevo sonido emergente (Brant, 1971; Erickson, 1975). Sandell (1995) ha propuesto
que hay tres clases de objetivos perceptivos en la combinación de instrumentos:
heterogeneidad tímbrica en la que se busca mantener los instrumentos
perceptivamente distintos, aumento tímbrico en el que un instrumento embellece a
otro que domina perceptivamente la combinación, y emergencia tímbrica en la que
resulta un nuevo sonido que no se identifica con ninguno de sus constituyentes. La
mezcla parece depender de una serie de factores acústicos como la sincronía de
inicio de los sonidos constituyentes y otros que están más directamente relacionados
con el timbre, como la similitud de los ataques, la diferencia en los centroides
espectrales y el centroide global de la combinación. Por ejemplo, Sandell (1989)
descubrió que al someter las puntuaciones de mezcla tomadas como medida de
proximidad a un escalado multidimensional, se podía obtener un "espacio de
mezcla"; las dimensiones de este espacio estaban correlacionadas con el tiempo de
ataque y el centroide espectral, lo que sugería que cuanto más similares eran estos
parámetros para los dos sonidos combinados, mayor era su mezcla (Figura 8).
Kendall y Carterette (1993) hallaron una tendencia similar en relación con el papel
de la similitud espectrotemporal en la mezcla de combinaciones de instrumentos de
viento. Estos autores también revelaron una relación inversa entre la mezcla y la
identificabilidad de los sonidos constituyentes, es decir, los sonidos que se mezclan
TM
Dimensión 2 (Centroide
X2
C1
O2
espectral)
X1
TP S1
C2
S2 S3
BN EH
FH
FL
X3
Dimensión 1 (Tiempo de ataque)
mejores son más difíciles de identificar por separado en la mezcla. En el caso de las
díadas de sonidos impulsivos y continuos, la mezcla es mayor para los ataques más
lentos y los centroides espectrales más bajos, y el timbre emergente resultante viene
determinado principalmente por las propiedades del sonido impulsivo (Tardieu y
McAdams, en prensa).
Tiempo
Tiempo
Figura 9 Las dos versiones de una melodía creada por David Wessel con un instrumento
(arriba) o dos instrumentos alternados (abajo). En la melodía superior con un solo timbre, se
percibe un único patrón de tresillos ascendentes. En la melodía inferior de timbre alterno, si
2. Percepción del timbre 57
musical
la diferencia tímbrica es suficiente, se escuchan dos patrones intercalados de tresillos
descendentes a la mitad del tempo de la secuencia original.
58 Stephen McAdams
timbre en la segregación del flujo auditivo (Moore y Gockel, 2002). Iverson (1995)
utilizó secuencias que alternaban entre dos tonos de instrumentos grabados con el
mismo tono y sonoridad y pidió a los oyentes que juzgaran el grado de segregación.
Se realizó un escalado multidimensional de los juicios de segregación tratados como
una medida de disimilitud para determinar qué atributos acústicos contribuían a la
impresión de segregación del flujo auditivo. Una comparación con trabajos
anteriores sobre el espacio tímbrico utilizando los mismos sonidos (Iverson y
Krumhansl, 1993) mostró que tanto las señales acústicas estáticas (como el centroide
espectral) como las señales acústicas dinámicas (como el tiempo de ataque y el flujo
espectral) estaban implicadas en la segregación.
Este resultado se refinó en un experimento de Singh y Bregman (1997) en el que
la amplitud de la envolvente y el contenido espectral se variaron
independientemente y se midieron sus contribuciones relativas a la segregación de la
corriente. Para los parámetros utilizados, un cambio de dos a cuatro armónicos
produjo un mayor efecto en la segregación que un cambio de un ataque de 5 ms y un
decaimiento de 95 ms a un ataque de 95 ms y un decaimiento de 5 ms. La
combinación de ambos no produjo una mayor segregación. La combinación de
ambos no produjo una mayor segregación que la obtenida con el cambio espectral,
lo que sugiere una mayor contribución de esta propiedad sonora a la segregación.
Bey y McAdams (2003) utilizaron un paradigma de discriminación de melodías
en el que primero se presentaba una melodía objetivo intercalada con una melodía
distractora, seguida de una melodía de prueba que era idéntica a la objetivo o difería
en dos notas que cambiaban el contorno (Figura 10). La diferencia de timbre entre
las melodías objetivo y las distractoras variaba dentro del espacio tímbrico de
McAdams et al. (1995).
Mezcla
Prue
(objetivo +
ba
distractor)
Frecuenci
a
Tiempo
Frecuenci
a
Tiempo
Extraído de la Figura 2, Bey y McAdams (2003). ©2003 por The American Psychological
Association, Inc. Adaptado con permiso.
60 Stephen McAdams
0.9
0.8
Proporción media
0.7
correcta
0.6
0.5
0.4
0 1 2 3 4 5 6 7 8 9
Distancia entre timbres
C. Intervalos tímbricos
Consideremos la trayectoria tímbrica mostrada en la Figura 12 a través del espacio
tímbrico de McAdams et al. (1995) que comienza con la guitarra (gtn) y termina
con el corno inglés (ehn). ¿Cómo se podría construir una melodía a partir de la
cuerda de arco (stg) para que se percibiera como una transposición de esta
Klangfarbenmelodie? La noción de transposición de la relación entre dos timbres a
otro punto del espacio tímbrico plantea la cuestión de si los oyentes pueden percibir
2. Percepción del timbre 61
musical
realmente la relación tímbrica entre dos timbres.
62 Stephen McAdams
corto 4 vbs
hrp
ols
3
logarítmico)
(tiempo de
0
ataque
-1
tbn tpr
-2 gtn cnt
ehn
sno
fhn bsn
-3
largo stg tpt
3
bajo
2
1 -3
0 -2
-1 -1 meno
0 s
-2 1
2
alto -3 3
más
Figura 1 2 Trayectoria de una melodía tímbrica corta a través del espacio tímbrico. ¿Cómo se
transpondría la melodía tímbrica que empieza en gtn a otra que empieza en stg?
corto 4
D3
D1
3
D4
2 C
1
Dimensión 1
logarítmico)
(tiempo de
0
ataque
-1
A
-2 B
-3
largo
bajo3
2
1 -3
0 -2 más
-1
-1 0
-2 1
2
-3 3
alta menos
Finalización
4 * * 4
*
media
media
3 * * 3
2 2
menos completo tensión mínima
1 tensión 1 completa
5 10 15 20 25 5 10 15 20 25
Segmento Segmento
piano
orquesta
Además, como los timbres de estos instrumentos suelen ser muy diferentes, varias
voces distintas con timbres diferentes
70 Stephen McAdams
Dimensión 1
Dimensión 1
1 1
pno Triplete 2
0 0
-1 -1
tbn tpr tpr
cnt cnt
-2 gtn ehn -2 gtn tbn
sno fhn fhn ehn
-3 bsn -3 sno bsn
stg tpt stg tpt
3 3
2 2
1 Triplete 2 -2
3 1 -3
0 0 -2
-1 -1
-1 0 -1 0
-2 1 -2 1
2 2
-3 3 -3 3
S3: neutral
4 vbs
hrp
3
ols
2 vbn hcd obc
gtr pno
Dimensión 1
0 Triplete 1 Triplete 2
-1
cnt tbn tpr
-2 ehn
gtn fhn
-3 bsn
sno
stg
3
tpt
2
1 -3
0 -2
-1
-1 0
-2 1
2
-3 3
Figura 15 Ejemplos de tripletas tímbricas utilizadas en las tres gramáticas tímbricas extraídas
del espacio tímbrico de McAdams et al. (1995). En S1 (congruente), la segmentación de la
secuencia en grupos de timbres próximos en el espacio correspondía a las tripletas de la
gramática definidas en términos de probabilidades de transición. En S2 (incongruente), la
segmentación agrupa el último timbre de un triplete con el primero del triplete siguiente,
aislando el timbre central de cada triplete. En S3 (neutro), todos los timbres son más o menos
equidistantes, por lo que no se crea segmentación.
dos grupos
74 Stephen McAdams
"aprendizaje
60 se expuso a la gramática durante 33 minutos
%
de tres timbres formaban mejor una unidad que podía formar parte de una secuencia
más larga de tim- bres. Las elecciones de un tresillo que formaban parte de la
gramática se puntuaron como correctas.
Los oyentes fueron capaces de aprender la gramática de forma implícita con sólo
escucharla, ya que las tasas de respuestas correctas del grupo de aprendizaje fueron
superiores a las del grupo que no había sido expuesto previamente a las secuencias
(Figura 16). Pero, curiosamente, este aprendizaje no dependía de la congruencia
entre la estructura de agrupamiento creada por las discontinuidades acústicas y la
estructura creada por las regularidades estadísticas determinadas por las
probabilidades de transición entre timbres dentro y entre tripletes. Se obtuvo el mismo
aumento en la tasa de respuestas correctas para las tres secuencias. Este resultado
sugiere que la elección se vio afectada por la estructura de agrupamiento -los
oyentes prefieren los tripletes "bien formados"-, pero el grado de aprendizaje
estadístico que se produjo al escuchar las secuencias fue el mismo en todas las
condiciones. Así pues, los oyentes parecen capaces de aprender la gramática
construida por la regla de secuenciación tímbrica, independientemente de que las
secuencias tímbricas de la gramática estén compuestas por timbres similares o
disímiles. No obstante, los oyentes prefieren una organización en motivos
compuesta por timbres próximos en el espacio tímbrico y distantes en timbre de
otros motivos.
empezado a abordar recientemente (Nattiez, 2007; Roy, 2003) y que los psicólogos
aún no han abordado con alcance ni profundidad.
Nattiez (2007), en particular, ha tomado la distinción de Meyer (1989) entre
parámetros musicales primarios y secundarios y ha cuestionado su relegación del
timbre a un segundo plano. En la concepción de Meyer, los parámetros primarios,
como el tono y la duración, pueden ser portadores de sintaxis.3 pueden ser
portadores de sintaxis. Para Meyer, las relaciones sintácticas se basan en
expectativas que se resuelven en el cierre, es decir, en implicaciones y realizaciones.
Los parámetros secundarios, en cambio, no se organizan en unidades discretas o
categorías claramente reconocibles. Según Snyder (2000), oímos los parámetros
secundarios (entre los que también incluye el timbre) simplemente en términos de
sus cantidades relativas, que son útiles más para la expresión musical y el matiz que
para construir estructuras gramaticales. Sin embargo, Nattiez (2007) señala que,
según sus propios análisis de la música instrumental y los de Roy (2003) en la
música electroacústica, el timbre puede utilizarse para crear relaciones sintácticas
que dependen de expectativas que conducen a una percepción de cierre. Así pues, el
principal límite de las conclusiones de Meyer sobre el timbre es que limitó sus
análisis a obras compuestas en términos de tono y ritmo y en las que el timbre sólo
podía desempeñar un papel funcional secundario. Esto recuerda la distinción de Rea
entre orquestación prima facie y orquestación normativa mencionada anteriormente.
Basta citar la música de compositores electroacústicos como Dennis Smalley, la
música orquestal de Gyo¨rgy Ligeti o la música mixta de Trevor Wishart para
comprender las posibilidades. Pero incluso en la música orquestal de Beethoven en
el alto período clásico, el timbre desempeña un papel estructurador a nivel de
segmentación seccional inducida por cambios en la instrumentación y a nivel de
distinción de voces individuales o capas orquestales compuestas de timbres
similares.
Como factor responsable de estructurar la tensión y la liberación, el timbre ha
sido utilizado eficazmente por compositores electroacústicos como Francis
Dhomont y Jean-Claude Risset. Según los análisis de Roy (2003), la música de
Dhomont, por ejemplo, utiliza el timbre para crear expectativas y decepciones en un
contexto musical que no está "contaminado" por fuertes estructuras de tono. Esta
última observación implica que en un contexto en el que el tono es una fuerza
estructuradora, el timbre puede tener dificultades para imponerse como parámetro
dominante, lo que sugiere una especie de jerarquía de dominancia que favorece al
ritmo y al tono cuando entran en juego varios parámetros. Las investigaciones sobre
las condiciones en las que los distintos parámetros musicales pueden actuar en
presencia de otros en la estructuración perceptiva de la música no son legión y rara
vez van más allá de la pareja real de tono y ritmo (véase la discusión en McAdams,
1989).4 El terreno para explorar las interacciones entre los parámetros musicales, y
así situar sus posibles papeles relativos en las formas musicales portadoras, requerirá
un esfuerzo conjunto que implique el análisis musicológico y la experimentación
psicológica, pero es potencialmente vasto, rico y muy apasionante.
3
Probablemente se refería a los intervalos interanuales, porque la duración de la nota en sí es
probablemente un parámetro secundario relacionado con la articulación.
4
Una excepción es el trabajo de Krumhansl e Iverson (1992) que muestra que en la percepción de
2. Percepción del timbre 79
musical
secuencias existe una asimetría en la relación entre tono y timbre, de forma que el tono parece
percibirse más en términos relativos y el timbre en términos absolutos.
80 Stephen McAdams
Agradecimientos
La preparación de este capítulo ha contado con el apoyo del Consejo de Investigación en
Ciencias Naturales e Ingeniería y del Consejo de Investigación en Ciencias Sociales y
Humanidades de Canadá, así como del programa de Cátedras de Investigación de Canadá.
Referencias
Barthet, M., Kronland-Martinet, R., & Ystad, S. (2007). Improving musical expressiveness by
time-varying brightness shaping. En R. Kronland-Martinet, S. Ystad, & K. Jensen (Eds.),
Computer music modeling and retrieval: Sense of sounds (pp. 313 -336). Berlín,
Alemania: Springer.
Bey, C., & McAdams, S. (2003). Post-recognition of interleaved melodies as an indirect
measure of auditory stream formation. Journal of Experimental Psychology: Human
Perception and Performance, 29, 267 - 279.
Bigand, E., Parncutt, R., & Lerdahl, F. (1996). Percepción de la tensión musical en secuencias
cortas de acordes: The influence of harmonic function, sensory dissonance, horizontal
motion, and musical training. Perception & Psychophysics, - 58, 125 141.
Bigand, E., Perruchet, P., & Boyer, M. (1998). Implicit learning of an artificial grammar of
-
musical timbres. Cahiers de Psychologie Cognitive, 17, 577 600.
Brant, H. (1971). Orchestration. En J. Vinton (Ed.), Dictionary of contemporary music
(pp. 538- 546). Nueva York, NY: E. P. Dutton.
Bregman, A. S. (1990). Análisis de escenas auditivas: La organización perceptiva del sonido.
Cambridge, MA: MIT Press.
Bregman, A. S., y Campbell, J. (1971). Primary auditory stream segregation and perception of
order in rapid sequences of tones. Journal of Experimental Psychology, 89,
244- 249.
Caclin, A., McAdams, S., Smith, B. K., & Winsberg, S. (2005). Acoustic correlates of timbre
space dimensions: A confirmatory study using synthetic tones. Journal of the Acoustical
Society of America, 118, 471 482. -
Carpentier, G., Tardieu, D., Harvey, J., Assayag, G., & Saint-James, E. (2010). Predicción de
las características tímbricas de las combinaciones de sonidos de instrumentos:
- of New Music Research, 39, 47 61.
Application to automatic orchestra- tion. Journal
Carroll, D., & Chang, J. (1970). Analysis of individual differences in multidimensional scal-
ing via an N-way generalization of Eckart-Young decomposition. Psychometrika, 35,
283- 319.
Culling, J. F., y Darwin, C. J. (1993). The role of timbre in the segregation of simulta- neous
voices with intersecting F0 contours. Perception & Psychophysics, 34,
303- 309.
Delie`ge, I. (1987). Condiciones de agrupamiento en la escucha musical: Una aproximación a
las reglas de preferencia de agrupamiento de Lerdahl & Jackendoff. - Music Perception, 4,
325 360.
Delie`ge, I. (1989). Un enfoque perceptivo de las formas musicales contemporáneas.
Contemporáneo
Music Review, 4, 213 - 230.
Ehresman, D., & Wessel, D. L. (1978). Perception of timbral analogies, Rapports de l'IRCAM
(Vol. 13). París, Francia: IRCAM-Centre Pompidou.
Erickson, R. (1975). Sound structure in music. Berkeley, CA: University of California Press.
2. Percepción del timbre 81
musical
Eronen, A., y Klapuri, A. (2000). Musical instrument recognition using cepstral coefficients
and temporal features. Proceedings of the 2000 IEEE International Conference on
Acoustics, Speech, and Signal Processing, Estambul, 2, II753-II756.
Esling, P., Carpentier, G., & Agon, C. (2010). Dynamic musical orchestration using genetic
algorithms and a spectrotemporal description of musical instruments. En C. Di Chio, et
al. (Eds.), Applications of evolutionary computation, LNCS 6025 (pp. 371 - 380). Berlín,
Alemania: Springer-Verlag.
Fabiani, M., & Friberg, A. (2011). Influence of pitch, loudness, and timbre on the perception
of instrument dynamics. Journal of the Acoustical Society of America, 130, - EL193
EL199.
Freed, D. J. (1990). Auditory correlates of perceived mallet hardness for a set of recorded
-
percussive events. Journal of the Acoustical Society of America, 87, 1236 1249.
Fujinaga, I., & MacMillan, K. (2000). Reconocimiento en tiempo real de instrumentos
orquestales. Actas de la Conferencia Internacional de Música por Ordenador, -Berlín
(pp. 141 143). San Francisco, CA: Asociación Internacional de Música por Ordenador.
Giordano, B. L., & McAdams, S. (2006). Identificación material de sonidos de impacto
reales: Efectos de la variación de tamaño en placas de acero, vidrio, madera y plexiglás.
- 119, 1171 1181.
Journal of the Acoustical Society of America,
Giordano, B. L., & McAdams, S. (2010). Mecánica de la fuente sonora y percepción del
- 168.
timbre musical: Evidence from previous studies. Music Perception, 28, 155
Giordano, B. L., Rocchesso, D. y McAdams, S. (2010). Integración de la información
acústica en la percepción de fuentes sonoras impactadas: The role of information
accuracy and exploitability. Journal of Experimental Psychology: Human Perception
and Performance, 36, - 462 476.
Gordon, J. W. (1987). The perceptual attack time of musical tones. Journal of the Acoustical
Society of America, 82, 88 -105.
Gregory, A. H. (1994). Timbre y flujo auditivo. Music Perception, 12, 161 174. Grey,
- J. M.
(1977). Multidimensional perceptual scaling of musical timbres. Journal of the
Acoustical Society of America, 61, 1270 - 1277.
Grey, J. M., & Gordon, J. W. (1978). Perceptual effects of spectral modifications on musical
timbres. Journal of the Acoustical Society of America, 63, 1493 1500.
-
Hajda, J. M., Kendall, R. A., Carterette, E. C., & Harshberger, M. L. (1997). Cuestiones
metodológicas en la investigación del timbre. En I. Delie`ge, & J. Sloboda (Eds.),
-
Perception and cognition of music (pp. 253 306). Hove, Reino Unido: Psychology Press.
Handel, S. (1995). Percepción tímbrica e identificación auditiva de objetos. En B. C. J. Moore
(Ed.), Hearing (pp. 425 -462). San Diego, CA: Academic Press.
Handel, S., y Erickson, M. (2001). Una regla empírica: El ancho de banda para la invariancia
- 19, 121 126.
tímbrica es una octava. Music Perception,
Handel, S., y Erickson, M. (2004). Identificación de la fuente sonora: The possible role of
timbre transformations. Music Perception, 21,- 587 610.
Hartmann, W. M., & Johnson, D. (1991). Segregación de arroyos y canalización periférica.
Percepción musical, 9, 155- 184.
Helmholtz, H. L. F. von (1885). Sobre las sensaciones del tono como base fisiológica para la
teoría de la música. New York, NY: Dover. (A. J. Ellis, Trans. de la 4ª ed. alemana,
1877; republ. 1954).
Henley, N. M. (1969). Un estudio psicológico de la semántica de los términos animales.
Journal of Verbal Learning and Verbal Behavior, - 8, 176 184.
Iverson, P. (1995). Auditory stream segregation by musical timbre: Efectos de los atributos
acústicos estáticos y dinámicos. Journal of Experimental Psychology: Human
Perception and Performance, 21, 751-763.
82 Stephen McAdams
Iverson, P., y Krumhansl, C. L. (1993). Aislamiento de los atributos dinámicos del timbre musical.
Journal of the Acoustical Society of America, 94, 2595 2603.
-
Kendall, R. A., y Carterette, E. C. (1991). Perceptual scaling of simultaneous wind instru-
ment timbres. Music Perception, 8, 369 - 404.
Kendall, R. A., y Carterette, E. C. (1993). Identificación y mezcla de timbres como base para la
orquestación. Contemporary Music Review, 9, 51 67. -
Kendall, R. A., Carterette, E. C., & Hajda, J. M. (1999). Perceptual and acoustical fea- tures of
natural and synthetic orchestral instrument tones. Music Perception, 16,
327- 364.
Kobayashi, Y., & Osaka, N. (2008). Construction of an electronic timbre dictionary for envi-
ronmental sounds by timbre symbol. Proceedings of the International Computer Music
Conference, Belfast. San Francisco, CA: Asociación Internacional de Música por
Ordenador.
Krimphoff, J., McAdams, S., & Winsberg, S. (1994). Caracte'risation du timbre des sons
complexes. II: Analyses acoustiques et quantification psychophysique [Caracterización
del timbre de sonidos complejos. II: Acoustical analyses and psychophysical
quantification]. Journal de Physique, 4(C5), 625 - 628.
Krumhansl, C. L. (1989). ¿Por qué es tan difícil comprender el timbre musical? En S. Nielze'n, &
O. Olsson (Eds.), Estructura y percepción del sonido electroacústico y la música
(pp. 43 -53). Amsterdam, Países Bajos: Excerpta Medica.
Krumhansl, C. L., & Iverson, P. (1992). Perceptual interactions between musical pitch and
timbre. Journal of Experimental Psychology: Human Perception and Performance, 18,
739- 751.
Kruskal, J. (1964a). Multidimensional scaling by optimizing goodness of fit to a nonmetric
hypothesis. Psychometrika, 29, 1 - 27.
Kruskal, J . (1964b). Escalamiento multidimensional no métrico: A numerical method.
Psychometrika, 29, 115 - 129.
Lakatos, S. (2000). Un espacio perceptivo común para timbres armónicos y percusivos.
Perception & Psychophysics, 62, 1426 - 1439.
Lakatos, S., McAdams, S., & Causse', R. (1997). The representation of auditory source char-
acteristics: Simple geometric form. Perception & Psychophysics, 59, 1180 1190.
-
Lee, M., & Wessel, D. L. (1992). Connectionist models for real-time control of synthesis and
compositional algorithms. Proceedings of the 1992 International Computer Music
-
Conference, San Jose (pp. 277 280). San Francisco, CA: International Computer Music
Association.
Lerdahl, F., y Jackendoff, R. (1983). La teoría generativa de la música tonal. Cambridge,
MA: MIT Press.
Lutfi, R. (2008). Identificación de fuentes sonoras humanas. En W. Yost, A. Popper y R. Fay
(Eds.),
Percepción auditiva de fuentes sonoras (pp. 13-42). Nueva York, NY: Springer-Verlag.
Marozeau, J., de Cheveigne', A., McAdams, S., & Winsberg, S. (2003). The dependency of
timbre on fundamental frequency. Journal of the Acoustical Society of America, 114,
2946- 2957.
Marozeau, J., y de Cheveigne', A. (2007). El efecto de la frecuencia fundamental en la
dimensión de brillo del timbre. Revista de la Sociedad Acústica de América, 121,
383- 387.
McAdams, S. (1989). Psychological constraints on form-bearing dimensions in music.
Revista de música contemporánea, 4(1),-181 198.
McAdams, S. (1993). Reconocimiento de fuentes y eventos sonoros. En S. McAdams, & E.
Bigand (Eds.), Thinking in sound: The cognitive psychology of human audition (pp. - 146
198). Oxford, Reino Unido: Oxford University Press.
2. Percepción del timbre 83
musical
McAdams, S., y Bregman, A. S. (1979). Hearing musical streams. Computer Music Journal,
3(4), 26- 43.
McAdams, S., y Cunibile, J.-C. (1992). Perception of timbral analogies. Philosophical
-
Transactions of the Royal Society, Londres, Serie B, 336, 383 389.
McAdams, S., y Misdariis, N. (1999). Perceptual-based retrieval in large musical sound
databases. En P. Lenca (Ed.), Proceedings of Human Centred Processes '99, Brest (pp.
445 450).-Brest, Francia: ENST Bretagne.
McAdams, S., y Rodet, X. (1988). The role of FM-induced AM in dynamic spectral profile
analysis. En H. Duifhuis, J. W. Horst, & H. P. Wit (Eds.), Basic issues in hearing (pp.
359 369).-Londres, Inglaterra: Academic Press.
McAdams, S., Chaigne, A., & Roussarie, V. (2004). Psicomecánica de fuentes sonoras
simuladas: Material properties of impacted bars. Journal of the Acoustical Society of
America, 115, 1306 1320. -
McAdams, S., Depalle, P. y Clarke, E. (2004). Análisis del sonido musical. En E. Clarke, &
N. Cook (Eds.), Empirical musicology: Aims, methods, prospects (pp. 157 196). - Nueva
York, NY: Oxford University Press.
McAdams, S., Roussarie, V., Chaigne, A., & Giordano, B. L. (2010). Psicomecánica de
fuentes sonoras simuladas: Propiedades materiales de las placas impactadas. Journal of
the Acoustical Society of America, 128, 1401- 1413.
McAdams, S., Winsberg, S., Donnadieu, S., De Soete, G., & Krimphoff, J. (1995). Perceptual
scaling of synthesized musical timbres: Common dimensions, specificities, and latent
subject classes. Psychological Research, 58, 177 192. -
Meyer, L. B. (1989). Estilo y música: Teoría, historia e ideología. Philadelphia, PA:
University of Pennsylvania Press.
Miller, J. R., y Carterette, E. C. (1975). Perceptual space for musical structures. Journal of the
Acoustical Society of America, 58, 711 720.-
Momeni, A., y Wessel, D. L. (2003). Characterizing and controlling musical material
intuitively with geometric models. En F. Thibault (Ed.), Proceedings of the 2003
Conference on New Interfaces for Music Expression, Montreal - (pp. 54 62). Montreal,
Canada: Universidad McGill.
Moore, B. C. J., & Gockel, H. (2002). Factores que influyen en la segregación secuencial de
corrientes.
Acustica Unida con Acta Acustica, 88, 320 332. -
Nattiez, J. -J. (2007). Le timbre est-il un parame`tre secondaire? [¿ E s e l timbre un
parámetro secundario?]. Cahiers de la Socie'te' Que'be'coise de Recherche en Musique,
9(1-2), 13 24.
-
Opolko, F., & Wapnick, J. (2006). McGill University master samples [DVD set]. Montreal,
Canadá: Universidad McGill.
Paraskeva, S., & McAdams, S. (1997). Influence of timbre, presence/absence of tonal hierar-
chy and musical training on the perception of tension/relaxation schemas of musical
phrases. Proceedings of the 1997 International Computer Music Conference,
-
Thessaloniki (pp. 438 441). San Francisco, CA: International Computer Music
Association.
Parncutt, R. (1989). La armonía: Un enfoque psicoacústico. Berlín, Alemania: Springer-
Verlag.
Patterson, R. D., Allerhand, M., & Gigue`re, C. (1995). Modelización en el dominio temporal
del procesamiento auditivo periférico: Una arquitectura modular y una plataforma de
software. Journal of the Acoustical Society- of America, 98, 1890 1894.
Peeters, G., McAdams, S. y Herrera, P. (2000). Instrument sound description in the context of
MPEG-7. Actas de la Conferencia Internacional de Música por Ordenador 2000, Berlín
(pp. 166-169). San Francisco, CA: Asociación Internacional de Música por
Ordenador.
84 Stephen McAdams
Peeters, G., Giordano, B. L., Susini, P., Misdariis, N., & McAdams, S. (2011). La caja de
herramientas Timbre: Extracción de descriptores de audio a partir de señales musicales.
- of America, 130, 2902 2916.
Journal of the Acoustical Society
Plomp, R. (1970). El timbre como atributo multidimensional de los tonos complejos. En R.
Plomp, &
G. F. Smoorenburg (Eds.), Frequency analysis and periodicity detection in hearing
(pp. 397- 414). Leiden, Países Bajos: Sijthoff.
Plomp, R. (1976). Aspectos de la sensación tonal: A psychophysical study. Londres, Reino
Unido: Academic Press.
Risset, J.-C. (2004). Timbre. En J.-J. Nattiez, M. Bent, R. Dalmonte, & M. Baroni (Eds.),
Musiques. Une encyclope'die pour le XXIe sie`cle. Vol. 2.: Les savoirs musicaux
[Músicas. Una enciclopedia para el siglo XXI. Vol. 2: Conocimientos musicales] (pp.
134 161).-París, Francia: Actes Sud.
Risset, J. -C., & Wessel, D. L. (1999). Exploración del timbre mediante análisis y síntesis. En
D. Deutsch (Ed.), The psychology of music (2ª ed., pp. 113 - 168). San Diego, CA:
Academic Press.
Rose, F., & Hetrick, J. (2007). L'analyse spectrale comme aide a` l'orchestration contempo-
raine [El análisis espectral como ayuda para la orquestación contemporánea]. Cahiers de
la Socie'te' Que'be'coise de Recherche en Musique,
- -9(1 2), 63 68.
Roy, S. (2003). L'analyse des musiques e'lectroacoustiques: Mode`les et propositions [El
análisis de las músicas electroacústicas: modelos y propuestas]. París, Francia:
L'Harmattan.
Rumelhart, D. E., y Abrahamson, A. A. (1973). A model for analogical reasoning.
Psicología cognitiva, 5, 1 28.
-
Saldanha, E. L., & Corso, J. F. (1964). Timbre cues and the identification of musical instru-
-
ments. Journal of the Acoustical Society of America, 36, 2021 2126.
Sandell, G. J. (1989). Perception of concurrent timbres and implications for orchestration.
Proceedings of the 1989 International Computer Music Conference, Columbus (pp. 268
272).
- San Francisco, CA: Asociación Internacional de Música por Ordenador.
Sandell, G. J. (1995). Roles para el centroide espectral y otros factores en la determinación de
-
"mezclado" pares de instrumentos en la orquestación. Music Perception, 13, 209 246.
Schoenberg, A. (1978). Teoría de la armonía. Berkeley, CA: University of California Press.
(R. E. Carter, Trans. de la edición original alemana, 1911).
Singh, P. G., y Bregman, A. S. (1997). The influence of different timbre attributes on the
perceptual segregation of complex-tone sequences. Journal of the Acoustical Society of
America, 120, 1943 - 1952.
Slawson, W. (1985). Sound color. Berkeley, CA: University of California Press.
Snyder, B. (2000). Música y memoria: An introduction. Cambridge, MA: MIT Press.
Steele, K., y Williams, A. (2006). ¿Es el ancho de banda de la invariancia tímbrica sólo una
octava?
Percepción musical, 23, 215 - 220.
Tardieu, D., & McAdams, S. (en prensa). Perception of dyads of impulsive and sustained
instrument sounds. Music Perception.
Tillmann, B., & McAdams, S. (2004). Implicit learning of musical timbre sequences:
Regularidades estadísticas confrontadas con (des)similitudes acústicas. Journal of
Experimental Psychology: Learning, Memory, and Cognition, - 30, 1131 1142.
Traube, C., Depalle, P., & Wanderley, M. (2003). Indirect acquisition of instrumental gesture
based on signal, physical and perceptual information. En F. Thibault (Ed.), Proceedings
of the 2003 Conference on New Interfaces for Musical Expression, Montreal (pp. 42-47).
Montreal, Canadá: Universidad McGill.
Vurma, A., Raju, M., & Kuuda, A. (2011). ¿Afecta el timbre al tono? Estimations by musi-
cians and non-musicians. Psychology of Music, 39, 291-306.
2. Percepción del timbre 85
musical
Wessel, D. L. (1973). Psicoacústica y música: Un informe de la Universidad Estatal de
Michigan.
PACE: Boletín de la Computer Arts Society, 30, 1 2.-
Wessel, D. L. (1979). El espacio tímbrico como estructura de control musical. Computer
-
Music Journal, 3(2), 45 52.
Wessel, D. L., Bristow, D., & Settel, Z. (1987). Control of phrasing and articulation in synthesis.
Proceedings of the 1987 International Computer Music Conference, Champaign/Urbana
(pp. 108-116). San Francisco, CA: International Computer Music Association.
Winsberg, S., & Carroll, D. (1989). A quasi-nonmetric method for multidimensional scaling
via an extended Euclidean model. Psychometrika, 54, 217 229. -
Winsberg, S., & De Soete, G. (1993). A latent class approach to fitting the weighted
Euclidean model, CLASCAL. Psychometrika, 58, 315 - 330.
Winsberg, S., & De Soete, G. (1997). Multidimensional scaling with constrained dimensions:
CONSCAL. British Journal of Mathematical and Statistical Psychology, 50, 55 72. -
Wright, J. K., y Bregman, A. S. (1987). Auditory stream segregation and the control of
dissonance in polyphonic music. Contemporary Music Review, 2(1), 63-92.
3 Percepción del canto
Johan Sundberg
Departamento de Habla, Música y Audición, KTH (Real Instituto
de Tecnología), Estocolmo, Suecia
I. Introducción
La comprensión de la percepción del canto puede surgir de dos tipos de
investigación. Un tipo se refiere a las propiedades acústicas del canto, que varían
sistemáticamente y se examinan desde el punto de vista de la percepción. Estas
investigaciones son poco frecuentes. Otro tipo de investigación compara las
características acústicas de varios tipos de voces o fonaciones, como los estilos
clásicos frente a los de correa o la fonación pulsada frente a la normal. Dado que
estas clasificaciones deben basarse en señales perceptivas auditivas, estas
investigaciones son relevantes desde el punto de vista perceptivo. Muchas
investigaciones sobre el canto poseen este tipo de relevancia perceptiva.
La investigación sobre la percepción del canto no está tan desarrollada como la
de la percepción del habla. Por lo tanto, no se puede hacer aquí una presentación
exhaustiva. En su lugar, se revisan una serie de investigaciones diferentes que sólo
están parcialmente relacionadas entre sí.
Cuando escuchamos a un cantante, podemos observar una serie de fenómenos
perceptivos notables que plantean diferentes preguntas. Por ejemplo: ¿Cómo es que
podemos oír la voz aunque la orquesta esté alta? ¿Cómo es posible que, por lo
general, identifiquemos correctamente las vocales del cantante a pesar de que la
calidad vocálica en el canto difiere considerablemente de la que estamos
acostumbrados en el habla? ¿Cómo es posible que podamos identificar el sexo, el
registro y el timbre de voz de cada cantante cuando el tono de la vocal se encuentra
dentro de un rango común a todos los cantantes y a varios registros? ¿Cómo es
posible que percibamos el canto como una secuencia de tonos discretos, aunque los
eventos de frecuencia fundamental (F0) no formen un patrón de frecuencias
fundamentales discretas? Éstas son algunas de las principales cuestiones que se
abordan en este capítulo. En primer lugar, sin embargo, se presenta un breve
resumen de la acústica de la voz cantada.
elementos básicos
Psicología de la Música. DOI: http://dx.doi.org/10.1016/B978-0-12-381460-9.00003-1
2013 Elsevier Inc. Todos los derechos reservados.
70 Johan Sundberg
ESPECTRO RADIADO
Nivel
Frecuencia
Velum
TRACTO VOCAL
Curva de frecuencias
T
Nivel
Formante Frecuenci
s Pliegues
a VOZ FUENTE
Espectro vocales
Tráquea
Nivel
Pulmones
Frecuencia
Forma de onda
transglot
Flujo de
aire
al
Tiempo
III. Fonación
La calidad de la voz puede variar considerablemente mediante ajustes laríngeos que
3. Percepción del canto 73
2500
heet /i/
apu
2000 esta
// e
Frecuencia del segundo
n
/æ/
1500
formante (Hz)
/a/ corte
su
/œ/
1000 // duro
//
/u/ /o/ causa
arranque todos
500
0
0 200 400 600 800 1000
Frecuencia del primer formante (Hz)
200 200
150 150
Log de los índices de
sonoridad medios
100 a 100
o
e
50 50
i
u
0 0
70 80 90 100 1 10 100
Nivel sonoro (dB) Presión subglótica (cm H2 O)
Figura 3 Nivel de presión sonora (NPS) y valores medios de sonoridad de las vocales indicadas
producidas con diferentes grados de sonoridad vocal, trazados en función del NPS y de la
presión subglótica (paneles izquierdo y derecho, respectivamente).
Datos de Ladefoged y McKinney (1963).
-30
-40 16
Nivel medio del espectro
dB
22
-50 dB
-60
-70
(dB)
-80
100 1000 10000
Frecuencia (Hz)
Figura 4 Espectros medios a largo plazo de una voz masculina no entrenada que lee el
mismo texto con distintos grados de volumen vocal.
Datos de Nordenberg y Sundberg (2004).
H1-H2 tan alto como casi 25 dB para una fonación muy suave (baja presión
subglotal), mientras que para la fonación más fuerte es de sólo 7,5 dB (Sundberg,
Andersson y Hultqvist, 1999). Para una presión subglótica relativa dada, la
fundamental en los cantantes masculinos de teatro musical tiende a ser más débil,
como puede verse en el mismo gráfico (Bjo¨rkner, 2008).
Cuando la aducción glótica se reduce al mínimo para producir un tipo de
fonación no jadeante, se produce una "fonación fluida", en la que tanto la
fundamental de la fuente de la voz como los sobretonos superiores son fuertes. Los
no cantantes tienden a cambiar las características de la fonación con el tono y la
sonoridad, de modo que los tonos altos y/o fuertes se producen con una fonación
más presionada que los tonos bajos. En cambio, los cantantes con formación clásica
parecen evitar estos cambios "automáticos" de la fonación.
Las amplitudes de los impulsos transglotales de flujo de aire están influidas por el
área glótica. Esto significa que dependen, entre otras cosas, de la longitud de las
cuerdas vocales; para una amplitud de vibración dada, las cuerdas vocales más
largas abren u n área glótica mayor que las cuerdas más cortas. Por lo tanto, en un
tono dado y para una presión subglotal dada, un cantante con cuerdas vocales largas
debe producir tonos con una mayor amplitud pico a pico del flujo de aire transglotal
y por lo tanto una fuente de voz fundamental más fuerte que un cantante con cuerdas
vocales más cortas. Como las voces graves tienen cuerdas vocales más largas que las
agudas, cabe esperar que la amplitud de la fundamental también se incluya entre las
características de las distintas categorías de voz. Esto probablemente nos ayude a
saber si un individuo fona en la parte superior, media o inferior de su rango de
tonos. Otra diferencia importante entre las clasificaciones de las voces son las
frecuencias de los formantes, como veremos más adelante.
3. Percepción del canto 77
25
Cantantes de ópera de
F0 = 110 Hz formación clásica
Cantantes de teatro musical
20
15
H1-H2 (dB)
10
0
10 20 30 40 50 60 70 80 90 100
Presión subglótica normalizada (% del intervalo individual)
En resumen, aparte del tono, hay dos aspectos principales de los sonidos
vocálicos que pueden variar de forma bastante independiente: la amplitud de la
fundamental, que depende en gran medida de la aducción glótica, y la amplitud de
los sobretonos, que está controlada por la presión subglótica. En las voces de los no
cantantes, la aducción glótica suele aumentar con el tono y la intensidad vocal. Los
cantantes parecen evitar estos cambios automáticos en el origen de la voz que
acompañan a los cambios en el tono o la intensidad. Necesitan variar el timbre de
voz por razones expresivas más que fisiológicas. Por lo tanto, se puede decir que
ortogonalizan las dimensiones fonatorias.
B. Regístrese en
El registro, que en algunas publicaciones también se denomina mecanismo, es un
aspecto de la fonación que ha sido objeto de considerable investigación, aunque esta
terminología ha permanecido poco clara (véase, por ejemplo, Henrich, 2006). En
general, se acepta que un registro es una serie de tonos de escala adyacentes que (a)
suenan igual en timbre y (b) se perciben como producidos de forma similar.
Además, en general se admite que las diferencias de registro reflejan diferencias en
el modo de vibración de las cuerdas vocales. Un ejemplo sorprendente del concepto
de registro es el contraste entre los registros modal y de falsete en la voz masculina.
La transición de un registro a otro suele ir asociada, aunque no necesariamente, a un
salto de tono.
En la voz masculina, existen al menos tres registros: aleteo vocal, modal y
falsete. Abarcan las gamas más grave, media y aguda de la voz. A menudo se
supone que la voz femenina contiene cuatro registros: pecho, medio,
78 Johan Sundberg
A2 A4 A5 A6
C4
110 Hz "Keyhole" 440 Hz 880 Hz 1760 Hz
IV. Resonancia
A. Frecuencias de formantes en tonos altos
La mayoría de los cantantes tienen que cantar a valores de F0 superiores a los
utilizados en el habla normal; la F0 media de la voz de hombres y mujeres adultos es
de unos 110 Hz y 200 Hz, y rara vez supera los 200 Hz y 400 Hz, respectivamente.
Por lo tanto, en el habla, F1 es normalmente más alta que F0. En el canto, los tonos
más agudos de soprano, contralto, tenor, barítono y bajo corresponden a valores de
F0 de unos 1050 Hz (tono C6 ), 700 Hz (F5 ), 520 Hz (C5 ), 390 Hz (G4 ) y 350 Hz
(F4 ), respectivamente. Por lo tanto, el valor normal de F1 de muchas vocales suele
ser mucho más bajo que la F0 de los cantantes, como puede verse en la figura 2. Si
el cantante utilizara en el canto las mismas frecuencias de articulación y for- mant
que en el habla, se produciría la situación ilustrada en la parte superior de la figura 7.
La frecuencia fundamental, es decir, el parcial más bajo del espectro, aparecería a
una frecuencia muy superior a la de la primera frecuencia formante (F1). En otras
palabras, la capacidad del tracto vocal para transferir sonido se desperdiciaría en una
frecuencia en la que no hay sonido que transferir.
Los cantantes evitan esta situación. La estrategia consiste en abandonar las
frecuencias de formantes del habla normal y acercar la F1 a la F0 (Garnier, Henrich,
Smith y Wolfe, 2010; Henrich, Smith y Wolfe, 2011; Sundberg, 1975). Un método
comúnmente utilizado para alcanzar este efecto parece ser reducir la constricción
máxima del tracto vocal y luego ampliar la apertura de la mandíbula (Echternach et
al., 2010; Sundberg, 2009). Ambas modificaciones tienden a elevar la F1 (cf.
Lindblom & Sundberg, 1971). Esto explica por qué las mujeres cantantes, en la
parte superior de su rango de tono, tienden a cambiar la apertura de la boca de una
manera dependiente del tono en lugar de una manera dependiente de la vocal, como
en el habla normal.
El resultado acústico de esta estrategia se ilustra en la parte inferior de la Figura
7. La amplitud de la fundamental, y por tanto el SPL global de la vocal, aumenta
considerablemente. Obsérvese que esta ganancia de SPL es el resultado de un
fenómeno resonatorio, obtenido sin un aumento del esfuerzo vocal.
La figura 8 muestra las frecuencias de formantes medidas en una soprano que
3. Percepción del canto 81
canta varias vocales en diferentes tonos. Como puede verse en la figura, la cantante
mantuvo
82 Johan Sundberg
Parciales
Frecuenci
a
las frecuencias formánticas del habla normal hasta el tono en el que F0 se acercaba a
F1. Por encima de este tono, F1 se elevaba a una frecuencia cercana a F0.
¿Qué cantantes utilizan esta estrategia de formantes dependientes del tono? La
estrategia se ha documentado en cantantes soprano (Johansson, Sundberg y
Wilbrand, 1985; Joliveau, Smith y Wolfe, 2004; Sundberg, 1975), pero también se
adopta en otros casos, en los que el cantante canta a una F0 superior al valor normal
de F1 (Henrich et al., 2011). Consultando de nuevo la Figura 2, encontramos que
para las voces de bajo y barítono, la mayoría de las vocales tienen una F1 superior a
su F0 superior. En el caso de los tenores y contraltos, ocurre lo mismo solo con
algunas vocales, y en el caso de las sopranos, con pocas vocales. Por lo tanto, se
puede suponer que los cantantes bajos y barítonos aplican la estrategia de formantes
dependientes del tono para algunas vocales en la parte superior de sus rangos de
tono, los tenores para algunas vocales en la parte superior de su rango de tono, las
contraltos para muchas vocales en la parte superior de su rango de tono y las
sopranos para la mayoría de las vocales en la mayor parte de su rango de tono. Un
estudio de las aperturas mandibulares de cantantes profesionales con formación
clásica para diferentes vocales cantadas en diferentes tonos confirmó básicamente
estas suposiciones para las vocales /α/1 y /a/, pero para vocales anteriores como /i/ y
/e/, la estrategia parecía ser primero ampliar la constricción lingual y después
ampliar la apertura mandibular (Sundberg & Skoog, 1997).
Un ensanchamiento de la apertura mandibular afecta en primer lugar a F1, pero
también se ven afectadas las frecuencias de formantes superiores. Esto también se
ilustra en la figura 8; todas las frecuencias de formantes cambian cuando F1 se
acerca a la proximidad de F0.
3. Percepción del canto 83
1
Todos los caracteres que aparecen dentro de // son símbolos del Alfabeto Fonético Internacional.
84 Johan Sundberg
Figura 8 Frecuencias de
4.0 formantes de las vocales
indicadas (símbolos del
Alfabeto Fonético
i
Internacional) medidas en una
e F4
a soprano profesional que cantaba
e i e
i
ei e a diferentes vocales a diferentes
3.0 i
a
u tonos. Las líneas muestran
a
u
a u u esquemáticamente cómo
u
cambiaban las frecuencias de
Frecuencia de formantes
a
a a
1.0 au
u
u i ae F1
u u
a a a a
eu i
e
e e ui
u u
i i
-10
Nivel medio
(dB)
-20
Figura 9 Espectros medios a largo plazo que muestran la distribución típica de la energía
sonora en las orquestas sinfónicas occidentales y en el habla normal (curvas discontinuas y
continuas).
Sung
Nivel (10 dB/división)
Habla
Figura 10 Espectros de una vocal /u/ hablada y cantada (curvas delgada y gruesa). El pico
entre 2,5 y 3 kHz se denomina grupo de formantes del cantante.
Las frecuencias de los formantes vienen determinadas por las dimensiones del
tracto vocal, es decir, por la articulación, como ya se ha mencionado. Una
configuración articulatoria que agrupe F3, F4 y F5 de tal manera que se genere el
grupo de formantes de un cantante implica una faringe ancha (Sundberg, 1974). Este
ensanchamiento puede lograrse probablemente bajando la laringe, y una posición
baja de la laringe se observa típicamente en cantantes masculinos con formación
clásica (Shipp & Izdebski, 1975). Así, el grupo de formantes del cantante puede
entenderse tanto acústica como articulatoriamente.
La frecuencia central del grupo de formantes del cantante varía ligeramente entre
las distintas clasificaciones de la voz. Así lo demostraron Dmitriev y Kiselev (1979)
en términos de espectros medios a largo plazo (LTAS). Para los bajos, la frecuencia
central se sitúa cerca de 2,3 kHz, y para los tenores, cerca de 2,8 kHz. Estos
resultados fueron corroborados posteriormente por varios investigadores (Bloothooft
y Plomp, 1988; Ekholm et al., 1998; Sundberg, 2001). La variación es pequeña, pero
se ha comprobado que es perceptualmente relevante en una prueba de audición en la
que participaron expertos a los que se pidió que determinaran la clasificación de
estímulos sintetizados (Berndtsson y Sundberg, 1995).
Parece esencial que la intensidad del grupo de formantes del cantante no varíe
demasiado de una vocal a otra. En el habla neutra, el nivel de F3 normalmente puede
diferir en casi 30 dB entre una /i/ y una /u/ debido a la gran diferencia en F2, lo que
resulta en una gran diferencia en la proximidad entre F2 y F3 en estas vocales (véase
la Figura 2). Los cantantes masculinos de formación clásica agrupan densamente F3,
F4 y F5 en /u/, mientras que su F2 en /i/ es mucho menor que en el habla. Como
consecuencia, el nivel del grupo de formantes del cantante en /i/ es mucho más
similar al de /u/ en el canto que en el habla (Sundberg, 1990). Se podría considerar
el grupo de formantes del cantante como algo parecido a una tapa uniforme tímbrica
para las vocales cantadas que debería aumentar la similitud en la calidad de voz de
las vocales. Esto ayudaría a los cantantes a lograr un efecto legato en frases que
contienen diferentes vocales.
No se ha encontrado un grupo de formantes de cantante en las sopranos (Seidner
et al., 1985; Weiss, Brown y Morris, 2001). Esto puede deberse a varias razones.
Una puede ser puramente perceptiva. El principio básico para producir el grupo de
formantes de un cantante es que F3, F4 y F5 se concentran en un rango de
frecuencias bastante estrecho. En el canto agudo, la distancia de frecuencia entre
parciales es obviamente grande (es decir, igual a F0). Una soprano que agrupara
estos formantes más agudos produciría vocales con un grupo de formantes de
cantante sólo en los tonos en los que un parcial cayera en el rango de frecuencias del
grupo. Para algunos tonos, no habría tal parcial, y tales tonos sonarían diferentes de
aquellos donde había un parcial golpeando el cluster. Como se ha mencionado, las
grandes diferencias en la calidad de la voz entre tonos adyacentes en una frase no
parecen compatibles con el canto legato.
Los cantantes de los géneros musicales pop no cantan con un grupo de formantes
de cantante. Más bien, se ha observado que algunos de ellos producen un pico
espectral considerablemente más -bajo en el rango de frecuencias de 3,2 a 3,6 kHz
(Cleveland, Sundberg y Stone, 2001). Este pico también se ha observado en algunos
locutores profesionales, como locutores de radio y actores, y en lo que se ha
denominado voces "buenas" (Leino, Laukkanen y Leino, 2011). Este pico parece ser
3. Percepción del canto 89
Los expertos en voz reconocen fácilmente el grupo de formantes del cantante. Sin
embargo, se utilizan muchos términos para referirse a él. Vennard, un eminente
profesor de canto e investigador de la voz, se refiere a él simplemente como "los
2800 Hz" que producen el "timbre" de la voz (Vennard, 1967). Parece que el
término alemán "Stimmsitz", cuando se utiliza para referirse a voces masculinas de
formación clásica, se asocia con el grupo de formantes de un cantante que está
presente en todas las vocales y en todos los tonos (W. Seidner, comunicación
personal, 2011).
4.0
3.5
F4
F5
3.0
F4
Frecuencias de formantes
2.5 F3
2.0
1.5 F2
(kHz)
1.0
0.5
F1
palabras
94 Johan Sundberg
las frecuencias de formantes parecían estar asociadas a los cantantes graves y las
frecuencias de formantes altas a los tenores. En una prueba de audición posterior,
Cleveland verificó estos resultados presentando a los mismos profesores de canto
vocales sintetizadas con frecuencias formánticas que variaban sistemáticamente de
acuerdo con sus resultados de la prueba que utilizaba sonidos vocálicos reales.
Roers, Mu¨rbe y Sundberg (2009) analizaron los perfiles radiográficos de 132
cantantes que fueron aceptados para la formación de cantantes solistas en la
Hochschule fu¨r Musik de Dresde, Alemania, y midieron las dimensiones de sus
tractos vocales y la longitud de sus pliegues vocales. Sus resultados corroboraron los
comunicados anteriormente por Dmitriev y Kiselev (1979), según los cuales las
voces graves tienden a tener tractos vocales largos y viceversa. Observaron además
que esta diferencia depende principalmente de la longitud de la cavidad faríngea.
Así, las sopranos tienden a tener las faringes más cortas y los bajos las más largas.
También observaron que las cuerdas vocales solían ser más cortas en las
clasificaciones con una gama de tonos más alta y más largas en las clasificaciones
con una gama de tonos más baja. Esto sugiere que en un tono determinado, los
cantantes con un rango de tono más alto deberían tender a tener una fundamental de
la voz más débil que los cantantes con un rango de tono más bajo, como se ha
mencionado anteriormente.
En resumen, las frecuencias de los formantes, incluida la frecuencia central del
grupo de formantes del cantante, difieren significativamente entre las principales
clasificaciones de la voz. Estas diferencias probablemente reflejan las diferencias en
las dimensiones del tracto vocal, en particular la relación entre la longitud de la
faringe y la boca.
V. Intensidad y enmascaramiento
Los cantantes de ópera y de conciertos de estilo clásico a veces van acompañados de
una orquesta que puede ser bastante ruidosa; el nivel de sonido ambiente en una sala
de conciertos puede alcanzar de 90 a 100 dB. El efecto de enmascaramiento de un
sonido depende en gran medida de cómo se distribuye la energía sonora a lo largo de
la escala de frecuencias. Esta distribución puede visualizarse en términos de LTAS.
El espectro que se muestra en la Figura 9 se obtuvo a partir de una grabación del
Vorspiel del primer acto de la ópera Die Meistersinger de Wagner, y la mayor parte
de la música orquestal de la cultura occidental produce un LTAS similar. Los
componentes espectrales más fuertes suelen aparecer en la región de
200-500 Hz, y por encima de 500 Hz, la curva cae unos 9 dB/octava, dependiendo
del volumen de la orquesta (Sundberg, 1972).
El efecto de enmascaramiento de un sonido con un LTAS como el que se muestra
en la Figura 9 es, por supuesto, mayor en aquellas frecuencias en las que el sonido
enmascarador es más fuerte. Disminuye más por debajo que por encima de la
frecuencia del enmascarador. Así, por término medio, el efecto-de enmascaramiento
del sonido de la orquesta será mayor a 200 500 Hz y menor a frecuencias más altas
y, sobre todo, más bajas.
La otra curva de la figura 9 muestra una LTAS media de 15 voces masculinas no
3. Percepción del canto 95
entrenadas que leen un texto estándar en voz alta. Esta LTAS es sorprendentemente
similar a la de una orquesta, lo que sugiere que la combinación de una orquesta
ruidosa con
96 Johan Sundberg
a u a i
80
a
ua
60 i,e a
i,e
40
20
o,u,e i
0
0 6 12 18 24 30
Tono (semitonos por encima de A3, 220 Hz)
(1982). Los círculos abiertos muestran los datos correspondientes a las sílabas de Smith y
Scott (1980).
3. Percepción del canto 101
C. Altura de la laringe
La percepción de la voz parece estar influida por la familiaridad con la producción
de la propia voz. El hallazgo mencionado anteriormente de que la sonoridad vocal
percibida está más estrechamente relacionada con la presión subglótica que con la
presión sonora puede considerarse una señal de que "oímos" en relación con lo que
sería necesario para producir las características acústicas que percibimos. Del mismo
modo, otras dimensiones perceptivas de la calidad de la voz parecen más
fisiológicas que acústicas en algunas condiciones.
La posición vertical de la laringe parece ser un ejemplo de ello. Los correlatos
acústicos de los cambios percibidos en la altura de la laringe se investigaron en un
experimento de síntesis (Sundberg y Askenfelt, 1983). Los estímulos consistían en
una serie de escalas ascendentes. Hacia el final de la escala, se introdujeron signos
acústicos de una l a r i n g e elevada en términos de un debilitamiento de la fuente
102 Johan Sundberg
E. Naturalidad
La síntesis es una herramienta valiosa para identificar las correlaciones acústicas y
fisiológicas de las cualidades perceptivas de la voz cantada. Por ejemplo,
104 Johan Sundberg
supongamos que hemos encontrado una serie de características acústicas de una voz
determinada a partir de una serie de mediciones. A continuación, todas estas
características pueden incluirse en una síntesis, variarse sistemáticamente y
evaluarse en una prueba de audición. La síntesis sonará
3. Percepción del canto 105
0 0
-10 -10
-20 -20
-30 -30
-40 -40
-50 -50
-60 -60
0 1 2 3 4 0 1 2 3 4
Frecuencia (kHz) Frecuencia (kHz)
exactamente como los sonidos originales sólo si todas las propiedades acústicas
perceptivamente relevantes están correctamente representadas. En otras palabras, la
síntesis es una poderosa herramienta para determinar hasta qué punto la descripción
acústica de una voz es perceptualmente exhaustiva.
En las pruebas de audición con estímulos sintetizados, la naturalidad es esencial.
Si los estímulos no suenan naturales, es probable que la relevancia de los resultados
de una prueba de audición se vea comprometida. La naturalidad percibida puede
depender de características espectrales inesperadas. La figura 13 ofrece un ejemplo.
Muestra dos espectros de la misma vocal, uno que suena natural y otro que suena
antinatural. Los espectros son casi idénticos. La diferencia, discreta desde el punto
de vista acústico pero importante desde el punto de vista perceptivo, consiste en un
pequeño detalle en las formas de los picos de los formantes en el espectro. La
versión que suena poco natural tenía picos de formantes demasiado romos. Es
interesante que esta diminuta propiedad espectral sea importante desde el punto de
vista perceptivo. De nuevo, sin embargo, la estrategia perceptiva es bastante lógica.
Los picos espectrales tan romos nunca pueden ser generados por un tracto vocal
humano y, por tanto, pueden considerarse un criterio fiable de falta de naturalidad.
VII. Vibrato
A. Características físicas
El vibrato se da en la mayoría de las óperas y conciertos occidentales y, a menudo,
106 Johan Sundberg
B. Aspectos perceptivos
1. Inteligibilidad de las vocales
A F0s altas, los parciales espectrales están muy espaciados a lo largo del continuo de
frecuencias y, por lo tanto, es difícil detectar dónde se encuentran los formantes;
puede que no haya parciales cerca de los formantes. No es descabellado sospechar
que el vibrato facilitaría la identificación de vocales a F0s altos, ya que el vibrato
hace que los parciales se muevan en frecuencia y las variaciones de amplitud que
acompañan a las variaciones de frecuencia dan entonces algunas pistas sobre las
posiciones de los formantes. El principio simple es que un parcial crece en amplitud
a medida que se acerca a una frecuencia de formante y disminuye en amplitud a
medida que se aleja de una frecuencia de formante, como se ilustra en la Figura 14.
Por lo tanto, el vibrato de frecuencia va acompañado de oscilaciones en la
frecuencia. Por lo tanto, el vibrato de frecuencia va acompañado de oscilaciones de
108 Johan Sundberg
Frecuencia
por encima y por debajo del pico del formante durante el ciclo de vibrato. Por lo
tanto, las relaciones de fase entre las ondulaciones de frecuencia y amplitud de un
tono con vibrato nos informan sobre la frecuencia de los formantes. La cuestión es si
el oído puede detectar y utilizar esta información. De ser así, el vibrato facilitaría la
identificación de vocales en tonos altos.
Sundberg (1977b) investigó la influencia del vibrato en la identificación de
vocales sintetizadas con una F0 entre 300 y 1000 Hz. Se pidió a sujetos entrenados
fonéticamente que identificaran estos estímulos como cualquiera de las 12 vocales
largas suecas. Los efectos observados fueron en su mayoría pequeños.
Como este resultado parece contrario a la intuición, McAdams y Rodet (1988)
llevaron a cabo un experimento en el que se presentaron tonos con y sin vibrato a
cuatro sujetos. Los tonos tenían espectros idénticos cuando se presentaban sin
vibrato, pero diferían cuando se presentaban con vibrato. La figura 15 muestra los
espectros y patrones de formantes que utilizaron para obtener este efecto. La tarea de
los sujetos consistía en decidir si dos estímulos presentados sucesivamente eran
idénticos o no. Los sujetos fueron capaces de oír la diferencia entre los tonos con
vibrato, pero necesitaron un amplio entrenamiento para oír el efecto. Estos
resultados sugieren que el vibrato normalmente no facilita en gran medida la
identificación de las vocales.
2. La soltería en Pitch
En general, está bien establecido que la F0 determina el tono. Sin embargo, en el
caso de los tonos con vibrato, esto no es del todo cierto. Aunque la F0 varía
regularmente en esos tonos, el tono que percibimos es perfectamente constante
siempre que la velocidad y la extensión del vibrato se mantengan dentro de ciertos
límites. ¿Cuáles son esos límites? Ramsdell estudió esta cuestión en la Universidad
de Harvard en una tesis que desgraciadamente nunca se publicó. Ramsdell varió
sistemáticamente la velocidad y la extensión del vibrato e hizo que los oyentes
decidieran cuándo el tono resultante poseía una "unicidad en el tono" óptima. Sus
resultados para un tono de 500 Hz se muestran en la figura 16.
110 Johan Sundberg
0 Figura 15 Espectros de
estímulo y patrones de
F1 F2
-10 formantes implicados utilizados
por McAdams y Rodet (1988)
-20 en un experimento que probaba
F3
la relevancia de la
Nivel (dB)
F4
-30 identificación vibrato-vocal; se
podía obtener el mismo
-40 F5
espectro mediante los dos
patrones de frecuencia de
-50 formantes diferentes mostrados
por las curvas discontinuas.
0 1 2 3 4 5
Frecuencia (kHz)
140
120
100
Alcance del vibrato
80
60
( cent)
F0 = 200 Hz
40
F0 = 100 Hz
20
F0 = 150 y 200 Hz
Figura 16 Valores de la extensión del vibrato que producen una "unicidad en el tono" óptima a
diferentes velocidades de vibrato (según Ramsdell, véase el texto). Los símbolos en círculo
muestran la máxima similitud percibida con la voz humana cantada obtenida por Gibian
(1972). Los datos de Ramsdell se obtuvieron con una F0 de 500 Hz, mientras que los de Gibian
corresponden a los valores de F0 indicados en el gráfico.
3. Tono y F0 media
Otro aspecto perceptivo del vibrato es el tono percibido. Siempre que la velocidad y
la extensión del vibrato se mantengan dentro de unos límites aceptables, ¿cuál es el
tono que percibimos? Esta cuestión fue estudiada de forma independiente por
Shonle y Horan (1980) y Sundberg (1972, 1978b). Sundberg hizo que sujetos
entrenados musicalmente igualaran el tono de un tono con vibrato ajustando la F0 de
un tono posterior sin vibrato. Los dos tonos, que eran vocales cantadas sintetizadas,
eran idénticos excepto por el vibrato. Se presentaron repetidamente hasta que se
completó el ajuste. La velocidad del vibrato era de 6,5 ondulaciones por segundo y
la extensión de 630 cents. La figura 17 muestra los resultados. El oído parece
calcular la media de la frecuencia de ondulación, y el tono percibido se corresponde
estrechamente con esta media.
Shonle y Horan utilizaron estímulos de ondas sinusoidales y llegaron
prácticamente a la misma conclusión. Sin embargo, también demostraron que es la
media geométrica y no la aritmética la que determina el tono. La diferencia entre
estas dos medias es muy pequeña para vibratos musicalmente aceptables.
Con frecuencia se supone que el vibrato es útil en la práctica musical porque
reduce las exigencias de precisión de la F0 (véase, por ejemplo, Stevens y Davis,
1938; Winckel, 1967). Una posible interpretación de esta suposición es que el tono
de un tono con vibrato se percibe con menos precisión que el tono de un tono sin
vibrato. Otra interpretación es que el intervalo de tono entre dos tonos sucesivos se
percibe con menos precisión cuando los tonos tienen vibrato que cuando no lo
tienen.
154 ms
2.0%
Frecuencia fundamental
30
Desviación de la media
lineal (cent)
20 1.0
10
0 0
-10
-20 -1.0
-30
-2.0
70 100 150 200 300 Tiempo
Frecuencia fundamental (Hz)
Figura 17 Panel izquierdo: F0 media de una vocal sintetizada sin vibrato que los sujetos
entrenados musicalmente percibieron que tenía el mismo tono que la misma vocal presentada
con vibrato (Según Sundberg, 1978b). El panel derecho muestra la forma de onda, la
velocidad y la extensión utilizadas en el experimento.
3. Percepción del canto 113
‰
10 6
4
5
2
(cent)
0 0
Media
-2
-5
Estos tiempos desaparecerían si uno de los tonos tuviera vibrato. Así, si dos voces
cantan perfectamente "rectas" (es decir, sin vibrato), las exigencias de precisión con
respecto a la F0 son mayores que si cantan con vibrato.
En el canto de coloratura staccato, a veces aparecen tonos más cortos que la
duración de un ciclo de vibrato. d'Alessandro y Castellengo (1991) midieron el tono
percibido de dichos tonos cortos. Curiosamente, descubrieron que la mitad
ascendente de un ciclo de vibrato, cuando se presentaba sola, se percibía 15
centésimas por encima de la F0 media, mientras que la mitad descendente se
percibía 11 centésimas por debajo de la media. Los autores concluyeron que el final
de esos breves deslizamientos de tono es más significativo para la percepción del
tono que el principio.
Nuestras conclusiones son que el tono de un tono con vibrato es prácticamente
idéntico al tono de un tono sin vibrato con una F0 igual a la media geométrica de la
F0 del tono con vibrato. Además, la precisión con la que se percibe el tono de un
tono con vibrato no se ve afectada de forma apreciable por el vibrato.
teóricamente es "correcto".
116 Johan Sundberg
Pitch
A
200200 G
céntimos F
F0
F0 (Hz)
E
D
C
Tiempo
1s
IX. Expresión
La expresividad suele considerarse uno de los aspectos más esenciales del canto, y
se ha analizado en un gran número de investigaciones (para una revisión, véase
Juslin y Laukka, 2003). La atención se ha centrado sobre todo en las emociones
básicas, como la ira, el miedo, la alegría, la tristeza y la ternura. Aquí sólo se
reseñan algunos ejemplos de los resultados de estas investigaciones.
La comunicación de emociones básicas funciona bastante bien en el canto. Se han
-
observado identificaciones correctas en torno al 60% 80% en pruebas de audición de
elección forzada relativas a estados de ánimo como la ira, el miedo y la alegría
(Kotlyar y Morozov, 1976; Siegwarth y Scherer, 1995).
Kotlyar y Morozov (1976) estudiaron los detalles de la interpretación que
contienen los mensajes emocionales del cantante. Hicieron que los cantantes
interpretaran una serie de ejemplos para representar diferentes estados de ánimo.
Observaron efectos importantes en el tempo y el volumen general, así como
patrones temporales característicos en el tono y la amplitud, además de micropausas
entre sílabas. Siegwarth y Scherer (1995) observaron que la producción tonal del
cantante también es relevante, en particular, la dominancia de la fundamental y las
amplitudes de los parciales altos. Rapoport (1996) descubrió que los cantantes
utilizaban todo un "alfabeto" de diferentes patrones de F0 con fines expresivos. Por
ejemplo, algunos tonos se acercan a su valor objetivo con un deslizamiento
ascendente rápido o lento, mientras que otros alcanzan su F0 objetivo al inicio del
tono.
En la mayoría de los estudios sobre la coloración emocional del canto, el carácter
agitado frente al pacífico es una dimensión dominante. Sundberg, Iwarsson y
Hagega˚rd (1995) compararon las interpretaciones de una serie de fragmentos
musicales cantados sin acompañamiento por un cantante de ópera profesional. El
cantante cantó los fragmentos de dos formas, como en un concierto o tan vacío de
expresión musical como pudo. Se observaron una serie de características que
parecían diferenciar los fragmentos agitados de los tranquilos. Así, en los ejemplos
agitados, los cambios de nivel sonoro eran más rápidos, la intensidad vocal era
mayor, el tempo era más rápido y la amplitud del vibrato era generalmente mayor
que en los ejemplos tranquilos, sobre todo en las versiones expresivas. En los
fragmentos con ambiente tranquilo, se observaron las diferencias opuestas entre las
3. Percepción del canto 119
X. Observaciones finales
En el presente capítulo se han considerado dos tipos de hechos relacionados con el
canto. Uno es la elección de las características acústicas de los sonidos vocálicos que
los cantantes aprenden a adoptar y que representan desviaciones típicas del habla
normal. Se han analizado tres ejemplos de dichas características: (1) las elecciones
de frecuencias de formantes dependientes del tono en el canto agudo, (2) el grupo de
formantes del cantante que se produce típicamente en todos los sonidos vocálicos en
la voz masculina de canto con entrenamiento clásico, y (3) el grupo de formantes del
cantante que se produce típicamente en todos los sonidos vocálicos en la voz
masculina de canto con entrenamiento clásico.
(3) el vibrato que se produce tanto en el canto masculino como en el femenino.
Hay buenas razones para suponer que estas características tienen un propósito
específico. Tanto las frecuencias de formantes dependientes del tono como el grupo
de formantes del cantante son fenómenos resonatorios que aumentan la audibilidad
3. Percepción del canto 121
una mayor libertad en cuanto a la entonación, ya que elimina los golpes con el
sonido de un acompañamiento sin vibrato. Así pues, en estos tres casos, el canto se
diferencia del habla de forma muy adecuada. Resulta tentador especular con la
posibilidad de que estas características se hayan desarrollado como resultado de la
evolución; los cantantes que las desarrollaron tuvieron éxito y, por tanto, sus
técnicas fueron copiadas por otros cantantes.
Un segundo tipo de dato sobre el canto que se trata en este capítulo son los
correlatos acústicos de varias clasificaciones de la voz que se puede suponer que se
basan en la per- cepción. Tales clasificaciones no son sólo tenor, barítono, bajo, etc.,
sino también esfuerzo vocal (por ejemplo, piano, mezzo piano) y registro. Hemos
visto que en la mayoría de estos casos era difícil encontrar un denominador acústico
común, porque las características acústicas de las categorías varían con la vocal y la
F0. Más bien, el denominador común parece existir dentro del cuerpo. En el caso de
la clasificación de la voz masculina -tenor, barítono y bajo-, las diferencias
características en la frecuencia de los formantes serían el resultado de diferencias
morfológicas en la longitud del tracto vocal y las cuerdas vocales. Lo mismo ocurre
con el esfuerzo vocal y el registro, porque reflejan diferencias en el control y el
funcionamiento de las cuerdas vocales. Por lo tanto, estos ejemplos de clasificación
de la voz parecen basarse en las propiedades de las estructuras de las vías
respiratorias más que en propiedades acústicas específicas de los sonidos vocales.
Esto es probablemente revelador en relación con la forma en que percibimos las
voces cantadas. Parece que interpretamos estos sonidos en función de cómo se
utilizó el sistema de producción de la voz para crearlos.
En cuanto a la interpretación artística, parece que contiene al menos tres
componentes diferentes. Uno es la diferenciación de distintos tipos de notas, como
tonos de escala y valores de nota. Otro componente es la delimitación de los
componentes estructurales, como motivos, subfrases y frases. Estos requisitos de la
interpretación cantada parecen aplicarse tanto al habla como a la música y es
probable que se hayan desarrollado en respuesta a las propiedades del sistema
perceptivo humano. El tercer componente es la señalización del ambiente emocional
del texto y la música. También a este respecto, la percepción del canto parece estar
estrechamente relacionada con la percepción del habla. La codificación de las
emociones en el habla y el canto sería similar y probablemente se basaría en un
"lenguaje corporal" para la comunicación de las emociones. Si esto es cierto, nuestro
conocimiento del comportamiento emocional humano y, en particular, del habla, nos
sirve de referencia para descodificar la información emocional del canto.
Referencias
Andreas, T. (2006). La influencia del movimiento tonal y la calidad vocálica en la inteligibilidad
del canto. Logopedia Foniatría Vocología, 31, 17 -22.
Appelman, D. R. (1967). La ciencia de la pedagogía vocal. Bloomington, IN: Indiana University
Press.
Bartholomew, W. T. (1934). A physical definition of 'good voice quality' in the male voice.
Journal of the Acoustical Society of America, 6, 25-33.
3. Percepción del canto 123
Benolken, M. S., y Swanson, C. E. (1990). The effect of pitch-related changes on the per-
ception of sung vowels. Journal of the Acoustical Society of America, 87, 1781 - 1785.
Berndtsson, G., & Sundberg, J. (1995). Perceptual significance of the center frequency of the
singer's formant. Revista Escandinava de Logopedia y Foniatría, 20, 35 41. -
Bjørklund, A. (1961). Análisis de voces de soprano. Journal of the Acoustical Society of
America, 33, 575-582.
Bjo¨rkner, E. (2008). Teatro musical y canto de ópera: ¿por qué tan diferentes? A study of
sub- glottal pressure, voice source, and formant frequency characteristics. Journal of
Voice, 22,
- 533 540.
Bloothooft, G., y Plomp, R. (1988). El timbre de las vocales cantadas. Journal of the
Acoustical Society of America, - 84, 847 860.
Cabrera, D., Davis, D. J., & Connolly, A. (2011). Directividad vocal horizontal a largo plazo
de cantantes de ópera: efectos de la proyección del canto y del entorno acústico. Journal
of Voice, 25(6),
- e291 e303.
Cleveland, T. (1977). Acoustic properties of voice timbre types and their influence on voice
classification. Journal of the Acoustical Society of America, 61, 1622- 1629.
Cleveland, T., Sundberg, J., & Stone, R. E. (2001). Long-term-average spectrum characteris-
tics of country singers during speaking and singing. Journal of Voice, 15, 54 60.
-
Collyer, S., Davis, P. J., Thorpe, C. W., & Callaghan, J. (2009). F0 influences the relationship
between sound pressure level and spectral balance in female classically trained singers.
Journal of the Acoustical Society of America, 126, 396-406.
d'Alessandro, C., & Castellengo, M. (1991). Etude, par la synthese, de la perception du
vibrato vocal dans la transition de notes. Ponencia presentada en la Conferencia
Internacional de la Voz en Besancon, Francia.
Dejonkere, P. H., Hirano, M., & Sundberg, J. (Eds.) (1995). Vibrato. San Diego, CA: Singular
Publishing Group.
Dmitriev, L., y Kiselev, A. (1979). Relación entre la estructura de formantes de diferentes
tipos de voces cantadas y la dimensión de las cavidades supraglotales. Folia Phoniatrica,
31, 238-241.
Doscher, B. M. (1994). La unidad funcional de la voz cantada (2ª ed.). London, England:
Scarecrow Press.
Echternach, M., Sundberg, J., Arndt, S., Markl, M., Schumacher, M., & Richter, B. (2010).
Tracto vocal en registros femeninos: un estudio dinámico de resonancia magnética en
tiempo real. Journal of Voice, 24,
133- 139.
Ekholm, E., Papagiannis, G. C., & Chagnon, F. P. (1998). Relating objective measurements to
expert evaluation of voice quality in western classical singing: critical perceptual
parameters. Journal of Voice, 12, 182 - 196.
Erickson, M. L. (2003). Dissimilarity and the classification of female singing voices: a pre-
liminary study. Journal of Voice, 17(2), 195 206.
-
Erickson, M. L. (2009). ¿Pueden los oyentes oír quién canta? Parte B: oyentes experimentados.
Journal of Voice, 23, 577 - 586.
Erickson, M. L., Perry, S., & Handel, S. (2001). Funciones de discriminación: ¿pueden
utilizarse para clasificar las voces cantadas? Journal of Voice,
- 15(4), 492 502.
Erickson, M. L., y Perry, S. R. (2003). ¿Pueden los oyentes oír quién está cantando? A
comparison of three-note and six-note discrimination tasks. Journal of Voice,- 17(3), 353
369.
Fahey, R. P., Diehl, R. L., & Traunmu¨ller, H. (1996). Perception of back vowels: effects of
varying F1-F0 bark distance. Journal of the Acoustical Society of America, 99, 2350
2357.-
Fant, G. (1960). Teoría acústica de la producción del habla. La Haya, Países Bajos: Mouton.
124 Johan Sundberg
Fant, G. (1973). Speech sounds and features. Cambridge, MA: MIT Press.
Fonagy, I. (1967). Ho¨rbare Mimik. Phonetica, 16, 25-35.
Fonagy, I. (1976). Mimik auf glottaler Ebene. Phonetica, 8, 209 - 219.
Fonagy, I. (1983). La vive voix. París, Francia: Payot.
Fyk, J. (1995). Entonación melódica, psicoacústica y violín. Gora, Polonia: Organon.
Garnier, M., Henrich, N., Smith, J., & Wolfe, J. (2010). Vocal tract adjustments in the high
soprano range. Journal of the Acoustical Society of America, 127, 3771 - 3780.
Gibian, G. L. (1972). Síntesis de vocales cantadas. Quarterly Progress Report,
Massachusetts Institute of Technology,
- 104, 243 247.
Gottfried, T., & Chew, S. (1986). Inteligibilidad de las vocales cantadas por un contratenor.
Journal of the Acoustical Society of America,- 79, 124 130.
Gregg, J. W., & Scherer, R. C. (2006). Vowel intelligibility in classical singing. Journal of
Voice, 20, 198 -210.
Henrich, N. (2006). Mirroring the voice from Garcia to the present day: some insights into
singing voice registers. Logopedia Foniatría Vocología, 31, 3 14. -
Henrich, N., Smith, J., & Wolfe, J. (2011). Resonancias del tracto vocal en el canto:
estrategias utilizadas por sopranos, contraltos, tenores y barítonos. Journal of the
Acoustical-Society of America, 129, 1024 1035.
Hirano, M., Hibi, S., & Hagino, S. (1995). Aspectos fisiológicos del vibrato. En P . H.
Dejonkere, M . Hirano, & J. Sundberg (Eds.), Vibrato (pp. 9 34). San Diego,-CA:
Singular Publishing Group.
Hollien, H. (1983). El enigma del formante del cantante. En D. M. Bless, & J. H. Abbs (Eds.),
Vocal fold physiology: Contemporary research and clinical issues (pp. 368 378). - San
Diego, CA: College-Hill.
Horii, Y. (1989). Análisis acústico del vibrato vocal: interpretación teórica de los datos.
Journal of Voice, 3, 36 -
43.
Johansson, C., Sundberg, J., & Wilbrand, H. (1985). Estudio radiográfico de la articulación y
las frecuencias de formantes en dos cantantes femeninas. En A. Askenfelt, S. Felicetti, E.
Jansson, &
J. Sundberg (Eds.), SMAC 83: Proceedings of the Stockholm International Music
Acoustics Conference (Vol. 1, pp. 203 218). Estocolmo,
- Suecia: Real Academia Sueca
de Música (Publicación nº 46).
Joliveau, E., Smith, J., & Wolfe, J. (2004). Vocal tract resonances in singing: the soprano
voice. Journal of the Acoustical Society of America, 116, 2434 - 2439.
Juslin, P. N., y Laukka, P. (2003). Comunicación de emociones en la expresión vocal y la
interpretación musical: ¿diferentes canales, mismo código? Psychology Bulletin, 129,
770- 814.
Kotlyar, G. M., y Morozov, V. P. (1976). Acoustical correlates of the emotional content of
vocalized speech. Soviet Physics Acoustics, 22, 208 - 211.
Ladefoged, P., y McKinney, N. P. (1963). Loudness, sound pressure, and subglottal pressure
in speech. Journal of the Acoustical Society of America, 35, 454 - 460.
Leino, T., Laukkanen, A. -M., & Leino, V. R. (2011). Formation of the actor's/speaker's
formant: a study applying spectrum analysis and computer modeling. Journal of Voice,
25, 150-158.
Lindblom, B., y Sundberg, J. (1971). Acoustical consequences of lip, tongue, jaw, and lar-
ynx movements. Journal of the Acoustical Society of America, 50, 1166 - 1179.
Lindestad, P. A˚ ., & So¨dersten, M. (1998). Laryngeal and pharyngeal behavior in counter-
canto de tenor y barítono: un estudio videofibroscópico. Journal of Voice, 2, 132 - 139.
Marshal, A. H., y Meyer, J. (1985). La directividad y las impresiones auditivas de los
cantantes.
Acustica, 58, 130-140.
3. Percepción del canto 125
McAdams, S., y Rodet, X. (1988). The role of FM-induced AM in dynamic spectral profile
analysis. En H. Duifhuis, J. Horst, & H. Wit (Eds.), Basic issues in hearing (pp. 359
369). Londres,
- Inglaterra: Academic Press.
Miller, D. G. (2008). Resonancia en el canto: La construcción de la voz a través de la
retroalimentación acústica.
Princeton, NJ: Inside View Press.
Morozov, V. P. (1965). La inteligibilidad en el canto en función del tono fundamental de la
voz.
Física Acústica Soviética, 10, 279-283.
Nordenberg, M., y Sundberg, J. (2004). Efecto del LTAS en la variación del volumen vocal.
Logopedia Foniatría Vocología, 29, 183 191. -
Palmer, C. (1989). Mapping musical thought to musical performance. Journal of
Experimental Psychology, 15, 331-346.
Plomp, R. (1977, julio). Continuity effects in the perception of sounds with interfering noise
bursts. Ponencia presentada en el Symposium sur la Psychoacoustique Musicale,
IRCAM, París.
Prame, E. (1994). Mediciones de la velocidad de vibrato de diez cantantes. Journal of the
Acoustical Society of America, - 94, 1979 1984.
Prame, E. (1997). Extensión del vibrato y entonación en cantantes líricos occidentales
profesionales.
Journal of the Acoustical Society of America, 102, 616 - 621.
Rapoport, E. (1996). Código de expresión en la ópera y el canto de lied. Journal of New
Music Research, 25, - 109 149.
Rasch, R. A. (1978). La percepción de notas simultáneas como en la música polifónica.
Acustica, 40, 21-33.
Roers, F., Mu¨rbe, D., & Sundberg, J. (2009). Clasificación de la voz y el tracto vocal de los
cantantes: un estudio de imágenes de rayos X y morfología. Journal of the Acoustical
Society of-America, 125, 503 512.
Rubin, H. J., Le Cover, M., & Vennard, W. (1967). Vocal intensity, subglottic pressure and
airflow relationship in singers. Folia Phoniatrica, 19, 393 -413.
Rzhevkin, S. N. (1956). Ciertos resultados del análisis de la voz de un cantante. Física
Soviética Acústica, - 2, 215 220.
Scotto di Carlo, N., y Germain, A. (1985). A perceptual study of the influence of pitch on the
intelligibility of sung vowels. Phonetica, 42, 188 197.-
Seashore, C. E. (1967). Psicología de la música. New York, NY: Dover. (Obra original pub-
lished 1938).
Seidner, W., Schutte, H., Wendler, J., & Rauhut, A. (1985). Dependence of the high singing
formant on pitch and vowel in different voice types. En A. Askenfelt, S. Felicetti, E.
Jansson, & J. Sundberg (Eds.), SMAC 83: Proceedings of the Stockholm International
Music Acoustics Conference (Vol. 1, pp. 261 - 268). Estocolmo, Suecia: The Royal
Swedish Academy of Music (Publicación nº 46).
Shipp, T., Doherty, T., & Haglund, S. (1990). Physiologic factors in vocal vibrato produc-
tion. Journal of Voice, 4, 300 304.
-
Shipp, T., & Izdebski, C. (1975). Vocal frequency and vertical larynx positioning by singers
and nonsingers. Journal of the Acoustical Society of America, 58, 1104 - 1106.
Shonle, J. I., y Horan, K. E. (1980). The pitch of vibrato tones. Journal of the Acoustical
Society of America, 67, 246-252.
Siegwarth, H., & Scherer, K. (1995). Concomitantes acústicos de la expresión emocional en
el canto operístico: el caso de Lucia en Ardi gli incensi. Revista de la voz, 9,
249- 260.
Sirker, U. (1973). Objektive Frequenzmessung und subjektive Tonho¨henempfindung bei
Musikinstrumentkla¨ngen. Revista Sueca de Musicología, 55, 47-58.
126 Johan Sundberg
Sjo¨lander, P., & Sundberg, J. (2004). Spectrum effects of subglottal pressure variation in pro-
fessional baritone singers. Journal of the Acoustical Society of America, 115, 1270
1273.-
Slawson, A. W. (1968). Vowel quality and musical timbre as functions of spectrum envelope
and F0. Journal of the Acoustical Society of America, 43, 87 -101.
Smith, L. A., y Scott, B. L. (1980). Aumento de la inteligibilidad de las vocales cantadas.
Journal of the Acoustical Society of America,- 67, 1795 1797.
Stevens, S. S., y Davis, H. (1938). Hearing, its psychology and physiology. New York, NY:
Wiley.
Stumpf, C. (1926). Die Sprachlaute. Berlín, Alemania: Springer-Verlag.
Sundberg, J. (1970). Estructura formántica y articulación de vocales habladas y cantadas.
Folia Phoniatrica, 22,
- 28 48.
Sundberg, J. (1972). Producción y función del 'formante de canto'. En H. Glahn,
S. Sorenson, & P. Ryom (Eds.), Report of the 11th Congress of the International
Musicological Society, II (pp. 679 -688). Copenhague, Dinamarca: Editor Wilhelm
Hansen.
Sundberg, J. (1974). Interpretación articulatoria del 'formante de canto'. Journal of the
Acoustical Society of America, 55, 838-844.
Sundberg, J. (1975). Técnica de formantes en una cantante profesional. Acustica, 32,
89-96.
Sundberg, J. (1977a). Canto y timbre. En Music, room, acoustics (pp. 57 81). -
Estocolmo, Suecia: Real Academia Sueca de Música (Publicación nº 17).
Sundberg, J. (1977b). Vibrato e identificación vocálica. Archivos de Acústica, 2, 257 - 266.
Sundberg, J. (1978a). Effects of the vibrato and the singing formant on pitch. Musicologica
Slovaca, 6, 51-69.
Sundberg, J. (1978b). Síntesis del canto. Revista sueca de musicología, 60(1),
107- 112.
Sundberg, J. (1989). Aspects of structure. En S. Nielse'n, & O. Olsson (Eds.), Structure and
perception of electroacoustic sound and music: Proceedings of the Marcus Wallenberg
Symposium in Lund, Sweden, August 1988 (pp.-33 42). Amsterdam, Países Bajos:
Excerpta Medica.
Sundberg, J. (1990). ¿Qué tienen de especial los cantantes? Journal of Voice, - 4, 107 119.
Sundberg, J. (1995). Acoustic and physioacoustics aspects of vocal vibrato. En P. H.
Dejonkere,
M. Hirano, & J. Sundberg (Eds.), Vibrato (pp. 35-62). San Diego, CA: Singular
Publishing Group.
Sundberg, J. (2001). Nivel y frecuencia central del formante del cantante. Journal of Voice,
15(2), 176-186.
Sundberg, J. (2009). Configuración articulatoria y afinación en una cantante soprano de
formación clásica . Journal of Voice,
- 23, 546 551.
Sundberg, J., Andersson, M., & Hultqvist, C. (1999). Effects of subglottal pressure variation
on professional baritone singers' voice sources. Journal of the Acoustical Society of
America, 105(3), 1965-1971.
Sundberg, J., y Askenfelt, A. (1983). Altura de la laringe y fuente de la voz: ¿existe una
relación? En J. Abbs, & D. Bless (Eds.), Fisiología de las cuerdas -vocales (pp. 307 316).
Houston, TX: College Hill.
Sundberg, J., Friberg, A., & Fryde'n, L. (1991). Secretos comunes de músicos y oyentes: An
analysis-by-synthesis study of musical performance. En P. Howell, R. West, &
I. Cross (Eds.), Representing musical structure (pp. 161 -197). Londres, Inglaterra:
Academic Press.
3. Percepción del canto 127
Sundberg, J., y Gauffin, J. (1982). Amplitude of the voice source fundamental and the
intelligibility of super pitch vowels. In R. Carlson, & B. Granstro¨m (Eds.), The repre-
sentation of speech in the peripheral auditory system, proceedings of a symposium
(pp. 223- 228). Amsterdam, Países Bajos: Elsevier Biomedical Press.
Sundberg, J., & Gramming, P. (1988). Spectrum factors relevant to phonetogram measure-
ment. Journal of the Acoustical Society of America, 83, 2352 - 2360.
Sundberg, J., Iwarsson, J., & Hagega˚rd, H. (1995). La expresión de las emociones de un
cantante en la interpretación cantada. En O. Fujimura, & M. Hirano (Eds.), Vocal fold
physiology: Voice quality -and control (pp. 217 232). San Diego, CA: Singular
Publishing Group.
Sundberg, J., La˜, F. M. B., & Himonides, E. (2011, junio). Es expresiva la entonación?
Póster presentado en el 40th Annual Symposium on Care of the Professional Voice,
Philadelphia, PA.
Sundberg, J., Prame, E., & Iwarsson, J. (1996). Replicabilidad y precisión de los patrones de
tono en cantantes profesionales. En P. J. Davis, & N. H. Fletcher (Eds.), Vocal fold
physiology, controlling complexity and chaos - (pp. 291 306). San Diego, CA: Singular
Publishing Group.
Sundberg, J., y Romedahl, C. (2009). Text intelligibility and the singer's formant-a rela-
tionship? Journal of Voice, 23, 539 - 545.
Sundberg, J., y Skoog, J. (1997). Dependence of jaw opening on pitch and vowel in singers.
Revista de la Voz, 11, 301-306.
Sundberg, J., y Thale'n, M. (2010). ¿Qué es el twang? Journal of Voice, 24, 654-660.
Titze, I. R. (1992). Interpretación acústica del perfil de alcance de la voz. Journal of Speech
and Hearing Research, 35, - 21 34.
van Besouw, R. M., Brereton, J., & Howard, D. M. (2008). Rango de afinación para tonos con
y sin vibrato. Music Perception, 26, 145 155. -
Vennard, W. (1967). Singing, the mechanism and the technic (2ª ed.). Nueva York, NY:
Fischer.
Vennard, W., Hirano, M., Ohala, J., & Fritzell, B. (1970-1971). A series of four electro-
myographic studies. The National Association of Teachers of Singing Bulletin, octubre
- diciembre 1970, 30 37; febrero
1970, 16 21; - - 26 32; mayo junio
marzo 1971, - -
1971, 22- 30
Vurma, A., y Ross, J. (2002). ¿Dónde está la voz de un cantante si se coloca hacia delante?
Journal of Voice, - 16(3), 383 391.
Weiss, R., Brown, W. S., Jr. y Morris, J. (2001). Singer's formant in sopranos: fact or fic-
tion? Journal of Voice, 15(4), 457 - 468.
Winckel, F. (1953). Physikalischen Kriterien fu¨r objektive Stimmbeurteilung. Folia
Phoniatrica (Separatum), 5, 232-252.
Winckel, F. (1967). Música, sonido y sensación: A modern exposition. New York, NY: Dover.
4 Intervalos y escalas
William Forde Thompson
Departamento de Psicología, Universidad Macquarie, Sydney, Australia
I. Introducción
Los sonidos que implican cambios de tono proceden de diversas fuentes y
proporcionan información útil sobre el entorno. Para los seres humanos, las fuentes
más destacadas de cambios de tono proceden del habla y la música. El habla incluye
patrones de tono ascendente y descendente que caracterizan la prosodia vocal. Estos
patrones señalan el estado emocional del hablante, proporcionan una fuente de
acento lingüístico e indican si el hablante está haciendo una pregunta o una
afirmación. En la música también se producen cambios continuos de tono, pero es
más frecuente que se produzcan cambios discretos de un nivel de tono a otro,
denominados intervalos. Las secuencias de intervalos caracterizan las melodías de la
música occidental y no occidental y pueden tener un importante significado
estructural, emocional y estético (Crowder, 1984; Narmour, 1983; Thompson,
2009).
Tanto en el habla como en la música, los cambios relativos en el tono son muy
informativos. De hecho, es posible que los cambios de tono en estos dos dominios se
procesen mediante mecanismos superpuestos (Juslin y Laukka, 2003; Patel, 2008;
Ross, Choi y Purves, 2007; Thompson, Schellenberg y Husain, 2004). La música
tiene la característica añadida de que enfatiza una colección de categorías de tono
discretas, reduciendo el continuo de frecuencias audibles a un número manejable de
elementos perceptivos y fomentando los cambios bruscos de tono. Las colecciones
de categorías de tonos discretos, o escalas, proporcionan un marco psico-lógico
dentro del cual la música puede ser percibida, organizada, comunicada y recordada.
Este capítulo examina la sensibilidad humana a las relaciones tonales y las
escalas musicales que nos ayudan a organizar estas relaciones. También se analizan
los sistemas de afinación, es decir, los medios por los que se crean y mantienen las
escalas y las relaciones tonales dentro de una determinada tradición musical. Entre
las cuestiones que se abordan en este capítulo se encuentran las siguientes ¿Cómo
procesa el sistema auditivo los intervalos tonales? ¿Tienen ciertos intervalos un
estatus perceptivo especial? ¿Cuál es la relación entre los intervalos formados por
tonos que suenan secuencialmente y los formados por tonos que suenan
simultáneamente? ¿Por qué la mayor parte de la música se organiza en torno a
escalas? ¿Existen similitudes entre las escalas utilizadas en los distintos sistemas
musicales de las distintas culturas? ¿Existe un sistema de afinación óptimo?
3. Percepción del canto 129
A. Intervalos simultáneos
Las combinaciones de tonos simultáneos son la base de la armonía musical. ¿Por
qué algunas combinaciones de tonos suenan mejor que otras? La preferencia por la
consonancia frente a la disonancia se observa en bebés con escasa exposición
4. Intervalos y escalas 109
100 Hz
Frecuencia
1 200 Hz del tono
inferior
400 Hz
Disonanci
a sensorial
600 Hz
1000 Hz
441
1322
2200
Magnitud
3095 4000
4840
Figura 2 El espectro de una flauta de pan con una frecuencia fundamental a f 5 440 Hz y
parciales prominentes aproximadamente a 3f, 5f, 7f, 9f y 11f.
4. Intervalos y escalas 115
diferentes fonemas. Su enfoque consistió en analizar los espectros de las vocales del
habla neutra pronunciadas por hablantes de inglés americano y mandarín, y
comparar los armónicos con mayor intensidad dentro del primer y segundo
formantes. Este procedimiento dio como resultado una distribución de todas las
relaciones formante segundo/formante primero derivadas de los espectros de 8
vocales pronunciadas por hablantes de inglés americano y 6 vocales pronunciadas
por hablantes de mandarín. Por término medio, el 68% de las relaciones de
frecuencia extraídas coincidían con intervalos encontrados en la escala cromática.
En cambio, sólo el 36% de los pares de armónicos seleccionados al azar en la misma
gama de frecuencias coincidían con intervalos de la escala cromática. Esta
comparación ilustra que los intervalos musicales no están simplemente
correlacionados con los intervalos de tono de cualquier forma de onda armónica
(periódica), sino que reflejan un sesgo específico del habla. Este sesgo específico del
habla sugiere que "la preferencia humana por los intervalos específicos de la escala
cromática, subconjuntos de los cuales se utilizan en todo el mundo para crear
música, surge de la experiencia rutinaria de estos intervalos durante la comunicación
social" (Ross et al., 2007, p. 9854, véase también, Han, Sundararajan, Bowling,
Lake, & Purves, 2011).
Sin embargo, la mayoría de los investigadores creen que el uso generalizado de
ciertos intervalos en la música se ve favorecido por funciones básicas del sistema
auditivo. En primer lugar, Helmholtz (1877/1954) observó que el concepto de
rugosidad puede extenderse a combinaciones de tonos complejos, siendo la cantidad
total de disonancia igual a alguna combinación de la rugosidad generada por todos
los parciales que interactúan. Cuando se combinan tonos con espectros armónicos,
los intervalos consonantes como la octava y la quinta tienen muchos parciales en
común, y los que son únicos tienden a no ocurrir dentro de una banda crítica y, por
lo tanto, no dan lugar a rugosidad. Los tonos complejos que forman intervalos
disonantes, como la quinta disminuida (seis semitonos), tienen pocos parciales en
común, y algunos de sus parciales únicos caen dentro de la misma banda crítica,
dando lugar a batido y aspereza. Lo más significativo es que la tercera y cuarta
parciales del tono más grave de un intervalo tritono están a sólo un semitono de
distancia de la segunda y tercera parciales del tono más agudo de ese intervalo.
Plomp y Levelt (1965) calcularon los niveles previstos de consonancia y
disonancia para combinaciones de tonos formadas por seis parciales armónicos y
con el primer tono fijado en 250 Hz (véase también Hutchinson y Knopoff, 1978;
Kameoka y Kuriyagawa, 1969a, 1969b; Terhardt, 1974). Los resultados de estos
cálculos ilustran picos de consonancia en intervalos utilizados habitualmente en la
música occidental: tercera menor (5:6), tercera mayor (4:5), cuarta perfecta (3:4),
quinta perfecta (2:3), sexta mayor (3:5) y octava (1:2). Kameoka y Kuriyagawa
(1969a, 1969b) desarrollaron un algoritmo para estimar la cantidad total de
disonancia en díadas de tonos puros y complejos. Su modelo asumía que la
disonancia es aditiva y dependiente de la sonoridad, y se basaban en la ley de
potencia de significación psicológica para combinar los niveles de disonancia de
diferentes díadas de armónicos, obteniendo una medida final denominada
disonancia absoluta. Estos modelos matemáticos de la disonancia concuerdan
ampliamente con los juicios de disonancia, pero las predicciones se rompen cuando
se incluyen más o menos armónicos en el modelo (Mashinter, 2006; Vos, 1986).
4. Intervalos y escalas 117
que las combinaciones de tonos se fusionen. Otro punto de vista relacionado es que
la consonancia se ve reforzada por la armonicidad, es decir, hasta qué punto los
componentes de frecuencia combinados en un intervalo coinciden con una serie
armónica única. Se cree que la armonicidad desempeña un papel importante en la
percepción del tono. Terhardt (1974) propuso que el sistema auditivo hace coincidir
cualquier conjunto de parciales entrantes, ya procedan de un solo tono o de
combinaciones de tonos, con la plantilla armónica más cercana. Si los parciales
coinciden con la serie armónica, el tono es inequívoco. A medida que la colección
de parciales se desvía de la armonicidad, el tono se vuelve más ambiguo.
Según Terhardt, las plantillas armónicas se desarrollan a través de la exposición
repetida a los espectros armónicos de los sonidos del habla, que predominan en el
entorno acústico a lo largo del desarrollo humano. Una posibilidad más general es
que la exposición repetida a cualquier estímulo acústico conduzca al desarrollo de
una plantilla para ese estímulo. Las plantillas de acordes, por ejemplo, podrían
desarrollarse incluso para combinaciones de tonos que no se alinean con una serie
armónica, siempre que esos acordes se encuentren repetidamente en el entorno
musical de una persona. Estas plantillas permitirían a los músicos entrenados
identificar acordes muy familiares y también podrían subyacer a la percepción de la
consonancia y la disonancia (McLachlan; 2011; véase también McLachlan y
Wilson, 2010).
Para el intervalo de octava, los parciales del tono más agudo coinciden con los
parciales pares del tono más grave. El resultado de esta combinación es un nuevo
tono complejo con una frecuencia fundamental igual a la del tono inferior original,
pero con un espectro de amplitud diferente y, por tanto, un timbre diferente. Esta
coincidencia de parciales explica por qué los tonos separados por una octava se
perciben como muy similares, un fenómeno conocido como equivalencia de octava
(Idson y Massaro, 1978; Kallman, 1982; Shepard, 1964).
El intervalo de octava es muy consonante y genera una fuerte sensación de tono
equivalente al tono inferior del intervalo. Los intervalos menos consonantes tienden
a generar sensaciones de tono más ambiguas. Thompson y Parncutt (1997)
modelaron las sensaciones de tono derivadas del intervalo de quinta perfecta, el
intervalo de tercera mayor y la tríada mayor (véase también Parncutt, 1989). Su
modelo asume que los intervalos simultáneos generan múltiples sensaciones de tono
que se extienden más allá de las frecuencias fundamentales de los tonos, reflejando
sobretonos, sensaciones de tonos subarmónicos y los efectos del enmascaramiento
auditivo. Estas sensaciones de tono varían en saliencia dependiendo del intervalo,
con la sensación de tono más saliente percibida como el tono (virtual) del complejo.
Las combinaciones de tonos que generan sensaciones de tono muy salientes e
inequívocas deberían conducir a una mayor fusión y, según Stumpf, a una mayor
consonancia. Las predicciones del modelo se compararon con las puntuaciones de
bondad de ajuste de los tonos de sondeo presentados inmediatamente después de los
intervalos. Los resultados indicaron una estrecha correspondencia entre las
predicciones y las puntuaciones, lo que confirma los supuestos básicos del modelo.
La mayoría de los investigadores creen que la armonicidad desempeña un papel
importante en la percepción del tono, pero el papel de la armonicidad en la
consonancia está menos claro. Uno de los problemas es que la armonicidad está
asociada a la ausencia de batido, por lo que cualquier asociación entre armonicidad y
4. Intervalos y escalas 119
1
Disonanci
a sensorial
0
0 1 2 3 4 5 6 7 89 10 11 12
Semitonos
Figura 3 Curva de disonancia de un espectro inarmónico con parciales en f y p2f. ffiffiLos
mínimos son evidentes en 1,21 (entre 3 y 4 semitonos) y 1,414 (un tritono).
De Sethares (2005, p. 102).
4. Intervalos y escalas 123
B. Intervalos secuenciales
Los intervalos formados por la sucesión de dos tonos -también llamados intervalos
melódicos o secuenciales- son la base de la melodía. La melodía, a su vez,
desempeña un profundo papel en la música. Los intervalos secuenciales grandes,
cuando van seguidos de un cambio de dirección, constituyen la base de las melodías
de "relleno" (Meyer, 1973), y los "saltos" melódicos se perciben como puntos de
acento melódico (Boltz y Jones, 1986; Jones, 1987). Por el contrario, las melodías
que consisten en una secuencia de pequeños intervalos suenan coherentes y
cohesionadas (Huron, 2001).
Las secuencias de intervalos melódicos constituyen la "huella dactilar" de la
música, y los casos de infracción de los derechos de autor suelen centrarse en la
melodía y rara vez en los atributos armónicos, rítmicos o tímbricos
- de la música
124 William Forde Thompson
(Cronin, 1997-1998; Frieler & Riedemann, 2011; Mu¨llensiefen & Pendzich, 2009).
En la conocida acción judicial de Keith Prowse Music (KPC) contra George
Harrison, alegando infracción de los derechos de autor de su exitosa canción "My
Sweet Lord", los argumentos jurídicos cruciales giraban en torno a
4. Intervalos y escalas 125
40
30
20
10
0
0 1 2 3 4 5 6 7 8 910 11 12
Tamaño del intervalo, semitonos
126 William Forde Thompson
(Chang & Trehub, 1977; Morrongiello, Trehub, Thorpe, & Capodilupo, 1985; Pick,
Palmer, Hennessy, & Unze, 1988; Trehub, Bull, & Thorpe, 1984).
A menudo se sugiere que los mecanismos que subyacen al procesamiento de la
melodía pueden estar implicados en dominios distintos de la música, como la
entonación del habla (Ilie y Thompson, 2006, 2011; Miall y Dissanayake, 2003;
Patel, 2003, 2008; Thompson et al., 2004; Thompson y Quinto, 2011). Ilie y
Thompson (2006, 2011) descubrieron que las manipulaciones de atributos acústicos
básicos como la intensidad, la altura tonal y el ritmo (tempo) tienen consecuencias
emocionales similares tanto si se imponen a estímulos musicales como orales.
Thompson et al. (2004) demostraron que la administración de 1 año de clases de
piano a una muestra de niños conducía a un aumento de la sensibilidad a las
connotaciones emocionales de la prosodia del habla. Por último, existe una
convergencia de datos estadísticos sobre los cambios de tono que se producen en el
habla y las melodías. Por ejemplo, Patel, Iversen y Rosenberg (2006) compararon la
variabilidad media del tono en el habla y las canciones populares francesas e
inglesas. La variabilidad del tono de una sílaba a otra del francés hablado era
significativamente menor que la del inglés hablado, y se observó una diferencia
paralela en las canciones populares francesas e inglesas.
Los sustratos neurales para procesar el contorno y el tamaño del intervalo parecen
ser diferentes (Liegeois-Chauvel, Peretz, Babei, Laguitton y Chauvel, 1998; Peretz y
Coltheart, 2003; Schuppert, Munte, Wieringa y Altenmuller, 2000). Esta visión de la
modularidad se ve respaldada por los hallazgos de deficiencias selectivas en la
capacidad de reconocimiento musical tras una lesión cerebral o entre individuos con
dificultades congénitas (véase el capítulo 13 de este volumen). Sin embargo, estas
disociaciones tienen implicaciones ambiguas. Por ejemplo, el procesamiento preciso
de intervalos exactos puede depender del funcionamiento correcto de múltiples
cálculos, de modo que el daño a cualquiera de ellos conduce a una percepción de
intervalos deficiente. La percepción del contorno puede implicar menos cálculos o
cálculos menos precisos y, por lo tanto, puede ser menos susceptible de deterioro
tras una lesión cerebral. Por otra parte, si la extracción del contorno tiene una
aplicación más amplia que la extracción del tamaño del intervalo (por ejemplo, en la
percepción de la prosodia del habla), entonces puede ser robusta a la degradación,
dando lugar a disociaciones aparentes entre el contorno y el tamaño del intervalo
después de una lesión cerebral.
McDermott, Lehr y Oxenham (2008) aportaron pruebas de que la capacidad de
extraer el contorno es una propiedad general del sistema auditivo. Presentaron a los
participantes una secuencia de cinco tonos seguida de una segunda secuencia que se
transponía hacia arriba o hacia abajo en el tono. Los cinco tonos variaban en uno de
tres atributos acústicos: tono (como en una melodía), timbre e intensidad. La tarea
consistía en juzgar si el patrón de variación (contorno) de los dos estímulos era igual
o diferente. Uno de los resultados fue que los contornos de timbre e intensidad se
reconocían igual de bien que los contornos de tono, lo que sugiere que el tono
relativo no es más que un ejemplo de una sensibilidad general a la información
relacional en el entorno acústico. Además, los participantes podían asignar
contornos de tono a contornos similares en timbre o intensidad, una capacidad que
también puede extenderse a los contornos visuales (Prince, Schmuckler y
Thompson, 2009; Schmuckler, 2004). Es decir, los aumentos de brillo e intensidad
130 William Forde Thompson
se escucharon de forma similar a los aumentos de tono, pero de forma diferente a las
disminuciones de tono (véase también Neuhoff, Kramer y Wayand, 2002). Estos
resultados sugieren que el contorno está representado por un código general que
permite comparar
4. Intervalos y escalas 131
mejor el tamaño de los intervalos que los oyentes sin formación. En este intervalo,
sólo los oyentes entrenados juzgaron el tamaño del intervalo de forma coherente con
una asignación logarítmica de la frecuencia fundamental. En el caso de los
intervalos superiores a una octava, los oyentes entrenados y los no entrenados
mostraron una menor diferenciación de los tamaños de intervalo, y ninguno de los
grupos juzgó los intervalos de acuerdo con un mapeo logarítmico de la frecuencia
fundamental. En otras palabras, los efectos de la formación musical no se
observaron en los intervalos superiores a una octava, sino que se limitaron a los
intervalos que aparecen con frecuencia en la música.
4. Intervalos y escalas 135
Esta divergencia de los juicios sobre el tamaño del intervalo con respecto a la
escala logarítmica es una reminiscencia de los primeros estudios psicofísicos que
condujeron a la escala mel. Stevens, Volkmann y Newman (1937) definieron un
tono puro de 1000 Hz a 40 dB por encima del umbral como 1000 mels, y el tono en
mels de otras frecuencias se determinó pidiendo a participantes no entrenados
musicalmente que ajustaran un tono puro de comparación hasta que se percibiera
como la mitad de la altura de tono de un tono estándar (método de fraccionamiento).
La escala mel y la escala logarítmica son aproximadamente equivalentes por debajo
de 500 Hz, pero divergen por encima de 500 Hz, donde los tamaños de intervalo
perceptualmente equivalentes (en m e l s ) abarcan relaciones de frecuencia
progresivamente más pequeñas (véase también Beck y Shaw, 1961; Greenwood,
1997; Stevens y Volkmann, 1940).
El contexto tonal también afecta a la valoración de las relaciones tonales.
Krumhansl (1979) pidió a los oyentes que juzgaran la similitud entre pares de tonos
presentados inmediatamente después de contextos musicales que definían la
tonalidad. Al centrarse en las puntuaciones de similitud en lugar de en el tamaño del
intervalo o las etiquetas categóricas, fue posible obtener influencias en la percepción
del intervalo que no son evidentes para otros tipos de juicios. El patrón de
valoraciones reveló que un contexto musical afecta en gran medida a la relación
psicológica entre tonos. Los pares de tonos tomados de la tríada tónica de la
tonalidad definida (primer, tercer o quinto grado de una escala mayor) se juzgaron
como estrechamente relacionados. Sin embargo, cuando los mismos intervalos no
eran miembros de la tríada tónica, la similitud percibida entre los tonos era menor.
La similitud también se veía afectada por el orden en que se presentaban los tonos.
Los tonos menos relacionados con la tonalidad (por ejemplo, los tonos no
diatónicos) se juzgaron más similares a los tonos estables dentro de la tonalidad (por
ejemplo, los miembros de la tríada tónica) que en el orden temporal inverso, lo que
ilustra una especie de efecto prototipo. En resumen, los intervalos se perciben de
distintas maneras dependiendo de su función dentro de un contexto tonal subyacente
y no dependen únicamente de factores psicoacústicos. Los modelos geométricos del
tono también implican que una descripción psicológica completa de las relaciones
de tono requiere múltiples dimensiones (véase también Deutsch, 1969, 1992;
Capítulo 7, este volumen; Krumhansl, 1990; Krumhansl y Kessler, 1982;
Shepard, 1964, 1982a, 1982b, 2011).
A menudo se ha sugerido que las melodías implican movimiento (Boltz, 1998;
Jones, Moynihan, MacKenzie, & Puente, 2002; Repp, 1993; Shepard, 2011; Shove
& Repp, 1995), y los intervalos melódicos se describen a menudo utilizando
metáforas basadas en el movimiento, como subir y bajar. ¿Tienen los intervalos
melódicos cualidades motrices? Según la teoría de la codificación común, las áreas
de movimiento del cerebro pueden activarse si la música se percibe en términos de
acciones subyacentes o asociadas (Leman, 2009; Overy & Molnar-Szakacs, 2009;
Prinz, 1996; Thompson & Quinto, 2011; Zatorre, Chen, & Penhune, 2007).
Investigaciones recientes en nuestro laboratorio dirigidas por Paolo Ammirante
han demostrado que los cambios de tono interactúan con los mecanismos de
sincronización en el sistema motor (Ammirante y Thompson, 2010, 2012;
Ammirante, Thompson y Russo, 2011). En estos estudios se utilizó un paradigma de
continuación del golpeteo, en el que los participantes golpeaban en sincronía con
136 William Forde Thompson
una señal de ritmo y luego intentaban continuar golpeando a la misma velocidad una
vez que se retiraba la señal de ritmo. Para examinar el papel de los cambios de tono
en el sistema motor, cada golpe en la fase de continuación activaba un tono sonoro.
Los tonos de estos tonos se manipulaban para formar patrones melódicos. Cambios
de tono
4. Intervalos y escalas 137
la probabilidad de aparición de tonos y clases de tonos. Las notas de escala son más
frecuentes que las que no lo son, por lo que son más esperadas y se procesan con
mayor eficacia.
Utilizando la desconocida escala Bohlen-Pierce, Loui, Wessel y Hudson Kam
(2010) crearon gramáticas musicales a partir de las cuales se compusieron melodías.
Hace varias décadas, Heinz Bohlen diseñó la escala Bohlen-Pierce para que fuera
distinta de las escalas occidentales, pero diera lugar a una sensación de tonalidad. Se
expuso a los participantes
- a melodías durante 25 30 minutos y luego se les evaluó el
reconocimiento, la generalización y el aprendizaje estadístico. El aprendizaje
estadístico se evaluó pidiendo a los participantes que calificaran la bondad de ajuste
de los tonos de sondeo que seguían a las melodías de la nueva gramática. Tanto los
participantes entrenados musicalmente como los no entrenados pudieron reconocer
melodías individuales con gran precisión y generalizaron sus conocimientos a
nuevas melodías compuestas a partir de la misma gramática. Las puntuaciones de
los tonos sonda correspondían a la frecuencia de aparición de diferentes tonos, lo
que ilustra la sensibilidad a las propiedades estadísticas de las melodías.
En un artículo que marcó un hito, Dowling (1978) hizo hincapié en la
importancia psicológica de las escalas. Presentó a los participantes una melodía
objetivo seguida de una melodía de comparación y les pidió que indicaran si las
melodías eran iguales o diferentes. Las melodías de comparación eran de tres tipos:
(a) transposiciones exactas de la melodía objetivo; (b) transposiciones que se
ajustaban a la escala y el contorno de la melodía objetivo pero implicaban cambios
en los intervalos precisos implicados (es decir, respuestas tonales), o (c) estímulos
de comparación atonales. Los estímulos objetivo coincidían con transposiciones
exactas o respuestas tonales, pero rara vez se confundían con estímulos de
comparación atonal. Basándose en estos hallazgos y otros relacionados, Dowling
propuso que las melodías nuevas se representan principalmente por la escala y el
contorno, más que por los intervalos precisos implicados.
La mayoría de las escalas occidentales y no occidentales permiten la formación
de inter- valos consonantes. Combinando notas de la escala diatónica mayor, se
pueden crear intervalos como octava, quinta, cuarta, tercera y sexta. Estos intervalos
son consonantes principalmente porque están representados en los espectros de
formas de onda periódicas complejas, incluida la voz humana y muchos
instrumentos musicales. A su vez, cuando dos tonos con espectros armónicos
complejos se combinan a distancias de tono variables, se producen mínimos locales
de disonancia y máximos de fusión cuando la distancia entre los tonos coincide con
la distancia entre los parciales de los espectros individuales.
La entonación justa (afinación) se utiliza para crear escalas que optimicen la
consonancia entre los tonos de la escala. Dada la primera nota de la escala, o tónica,
la entonación justa optimiza la consonancia en los intervalos afinando otras notas de
la escala de forma que sus frecuencias fundamentales se relacionen con la de la
tónica mediante pequeñas proporciones enteras: octava (2:1), quinta (3:2), cuarta
(4:3), tercera mayor (5:4), tercera menor (6:5), sexta mayor (5:3) y sexta menor
(8:5). Una limitación de las escalas de entonación justa es que son imposibles de
lograr en su totalidad: si el sexto grado de escala se afina según la relación de 8:5,
entonces la inter- valación entre los grados de escala segundo y sexto no será
coherente con la relación deseada de 3:2. Una segunda limitación de las escalas de
148 William Forde Thompson
escala mayor creada por afinación justa, un acorde de Fa mayor tiene un intervalo
de quinta de 722 centésimas (aproximadamente 20 centésimas más que una quinta
afinada justa). Por supuesto, este problema afecta principalmente a los instrumentos
de afinación fija, como los teclados, en los que la afinación de las notas individuales
no puede ajustarse para adaptarse a una nueva tonalidad.
Pitágoras intentó construir una escala musical completa subiendo y bajando
sucesivamente de quinta en quinta. Subiendo desde un tono inicial un intervalo de
quinta perfecta 12 veces se obtiene un nuevo tono con una nueva frecuencia
fundamental que se relaciona con la del tono inicial mediante la relación (342)12 .
Estos 12 pasos ascendentes conducen de nuevo a la clase de tono del tono inicial en
un sistema igual temperado (7 octavas más alto), pero no en entonación justa.
Cuando el tono definido por (342)12 se transpone siete octavas hacia abajo, la
relación se convierte en 5314414524288, o 23 cents sostenido del unísono. Este
intervalo se denomina coma pitagórica y se ilustra en la figura 5. La afinación en
temperamento igual consiste en distribuir esta discrepancia por igual entre los 12
tonos de la escala cromática. Las diferencias entre la afinación con temperamento
igual y la entonación justa son sutiles, pero normalmente pueden ser detectadas por
oyentes atentos. La popularidad de la escala temperada igual entre los músicos
occidentales altamente cualificados plantea dudas sobre el papel central de la
pulsación en la disonancia (véase también McDermott et al., 2010).
El temperamento igual y la afinación justa están diseñados para maximizar el
número de intervalos consonantes entre sonidos con espectros armónicos, incluida la
voz humana y muchos instrumentos musicales. Sin embargo, varios tipos de
instrumentos musicales tienen timbres inarmónicos, como los gongs, las campanas,
los tambores, los cuencos tibetanos y los bloques de madera. Para la mayoría de los
oyentes occidentales, las sensaciones tonales de los instrumentos armónicos son más
claras que las de los inarmónicos, pero ambos tipos de instrumentos pueden afinarse
sistemáticamente.
Los espectros de los instrumentos que predominan en una cultura musical
influyen en cómo se afinan esos instrumentos y, por tanto, en las escalas que se
asocian a la música. Sethares (2005) observó una estrecha correspondencia entre los
intervalos, las escalas y las propiedades espectrales de los instrumentos. En las
tradiciones que se basan principalmente en instrumentos con espectros inarmónicos,
las escalas musicales tienden a ser muy diferentes de las escalas diatónicas mayores
y menores occidentales, precisamente porque permiten la formación de los
intervalos que se encuentran dentro de los espectros de esos instrumentos
inarmónicos.
Entre este gran número de escalas posibles, las más parecidas a la serie armónica
son las que más se han utilizado en todas las culturas y a lo largo de la historia.
Los autores propusieron que existe una preferencia biológica por las series ar-
mónicas, y que esta preferencia se refleja en las escalas que se utilizan en la música.
Sin embargo, una explicación con menos suposiciones es que las propiedades
espectrales de los instrumentos utilizados en una tradición musical influyen en las
escalas que se utilizan (Sethares, 2005). Dado que una elevada proporción de
instrumentos producen sonidos periódicos, incluida la voz humana, la mayoría de las
escalas permiten intervalos que tienen propiedades espectrales similares a la serie
armónica (y, por lo tanto, son poco disonantes). Sin embargo, tradiciones como la
música gamelán javanesa, que utilizan instrumentos inarmónicos, tienen escalas
muy diferentes. Las escalas slendro y pelog permiten intervalos que no son similares
a la serie armónica pero que son predecibles a partir de las propiedades espectrales
de los instrumentos utilizados en esa tradición.
escuchar sólo unas pocas notas musicales. Sin embargo, durante la audición musical,
la comprensión de las escalas puede ser menos importante que los mecanismos de
aprendizaje estadístico. Dado que el desarrollo de las escalas depende de los timbres
de los instrumentos, no existe una escala o sistema de afinación ideal. Para la música
que enfatiza los instrumentos con espectros armónicos, las escalas tienden a permitir
la formación de intervalos como la octava, la quinta y la tercera, intervalos que
también se encuentran en los espectros armónicos de los sonidos periódicos. Para la
música que enfatiza los instrumentos con espectros inarmónicos, las escalas
permiten otros intervalos que reflejan esos espectros. No obstante, la mayoría de las
escalas a lo largo de la historia y a través de las culturas son predecibles a partir de
la serie armónica, lo que refleja la prevalencia de los espectros armónicos en los
instrumentos musicales, incluida la voz humana.
Agradecimientos
Agradezco a Richard Parncutt, Neil McLachlan y Catherine Greentree sus útiles comentarios,
sugerencias y ayuda editorial.
Referencias
Ammirante, P., & Thompson, W. F. (2010). Melodic accent as an emergent property of tonal
motion. Empirical Musicology Review, 5, 94 - 107.
Ammirante, P., & Thompson, W. F. (2012). Continuation tapping to triggered melodies: motor
resonance effects of melodic motion. Experimental Brain Research, 216(1), 51 - 60.
Ammirante, P., Thompson, W. F., & Russo, F. A. (2011). Ideomotor effects of pitch in
-
continuation tapping. Revista trimestral de Psicología Experimental, 64, 381 393.
Attneave, F., y Olson, R. K. (1971). Pitch as medium: a new approach to psychophysical scaling.
American Journal of Psychology, 84, 147 166. -
Balzano, G. J. (1977). On the bases of similarity of musical intervals [Resumen]. Journal of
the Acoustical Society of America, 61, S51.
Balzano, G. J. (1980). The group-theoretic description of 12-fold and microtonal pitch systems.
Computer Music Journal, 4(4), 66-84.
Balzano, G. J. (1982). The pitch set as a level of description for studying musical pitch
perception. En M. Clynes (Ed.), Music, mind and brain (pp. 321 - 351). Nueva York, NY:
Plenum.
Beck, J., & Shaw, W. A. (1961). La escala de tono por el método de estimación de magnitud.
American Journal of Psychology, 74, 242-251.
Bidelman, G. M., & Krishnan, A. (2009). Neural correlates of consonance, dissonance, and
the hierarchy of musical pitch in the human brainstem. The Journal of Neuroscience, 29,
-
13165 13171.
Bidelman, G. M., & Krishnan, A. (2011). Brainstem correlates of behavioral and
compositional preferences of musical harmony. Neuroreport, - 22(5), 212 216.
Bidet-Caulet, A., & Bertrand, O. (2009). Mecanismos neurofisiológicos implicados en la
- 3, 182 191.
organización perceptiva auditiva. Frontiers in Neuroscience,
Boltz, M. (1998). Tempo discrimination of musical patterns: effects due to pitch and rhythmic
structure. Perception & Psychophysics, 60, 1357-1373.
4. Intervalos y escalas 155
Dowling, W. J., y Harwood, D. L. (1986). Music cognition. Nueva York, NY: Academic Press.
Dowling, W. J., y Fujitani, D. S. (1970). Contour, interval, and pitch recognition in memory
-
for melodies. Journal of the Acoustical Society of America, 49, 524 531.
Edworthy, J. (1985). Intervalo y contorno en el procesamiento de la melodía. Percepción musical,
2,
375- 388.
Eimas, P. D., y Corbit, J. D. (1973). Adaptación selectiva de detectores de rasgos lingüísticos.
Psicología cognitiva, 4, 99 109.
-
Eimas, P. D., Siqueland, E. R., Jusczyk, P., & Vigorito, J. (1971). Speech perception in infants.
Science, 171, 303 306. -
France`s, R. (1988). La perception de la musique (W. J. Dowling, Transl.). Hillsdale, NJ:
Erlbaum. (Obra original publicada en 1958)
Frieler, K., y Riedemann, F. (2011). ¿Es probable la creación independiente en la música pop?
Musica Scientiae, 15, 17 - 28.
Fujioka, T., Trainor, L. J., Ross, B., Kakigi, R., & Pantev, C. (2005). Codificación automática
de melodías polifónicas en músicos y no músicos. Journal of Cognitive Neuroscience,
17, 1578 1592. -
Garner, W. R. (1974). El procesamiento de la información y la estructura. Potomac, MD:
Erlbaum. Gill, K. Z., y Purves, D. (2009). A biological rationale for musical scales. PLoS
ONE, 4(12),
e8144. doi:10.1371/journal.pone.0008144
Greenwood, D. D. (1961a). Auditory masking and the critical band. Journal of the Acoustical
Society of America, 33, 484 501. -
Greenwood, D. D. (1961b). Ancho de banda crítico y las coordenadas de frecuencia de la
membrana basilar . Journal of the Acoustical Society of America, 33, - 1344 1356.
Greenwood, D. D. (1991). Critical bandwidth and consonance in relation to cochlear
frequency-position coordinates. Revista de la Sociedad Acústica de América, 54,
64- 208.
Greenwood, D. D. (1997). The Mel Scale's disqualifying bias and a consistency of pitch-
difference equisections in 1956 with equal cochlear distances and equal frequency ratios.
Hearing Research, 103, 199 224. -
Guernsey, M. (1928). El papel de la consonancia y la disonancia en la música. American
Journal of Psychology,- 40, 173 204.
Hagerman, B., y Sundberg, J. (1980). Fundamental frequency adjustments in barbershop
singing. Journal of Research in Singing, 4, 1 -17.
Han, S., Sundararajan, J., Bowling, D. L., Lake, J. y Purves, D. (2011). Co-variación de la
tonalidad en la música y el habla de diferentes culturas. PLoS ONE, 6, e20160.
doi:10.1371/journal.pone.0020160
Hannon, E. E., y Trainor, L. J. (2007). Music acquisition: effects of enculturation and formal
training on development. Trends in Cognitive Science, 11, 466 472. -
Hartmann, W. M. (1993). Sobre el origen de la octava melódica ampliada. Journal of the
Acoustical Society of America, 93, 3400 - 3409.
Helmholtz, H. (1954). On the sensations of tones (A. J. Ellis, Trans.). New York, NY: Dover.
(Obra original publicada en 1877)
Houtsma, A. J. M. (1968). Discrimination of frequency ratios [Resumen]. Journal of the
Acoustical Society of America, 44, 383.
Houtsma, A. J. M. (1984). Pitch salience of various complex sounds. Percepción musical, 1,
296- 307.
Huron, D. (1989). Voice denumerability in polyphonic music of homogenous timbres. Music
Perception, 6, 361-382.
4. Intervalos y escalas 157
Huron, D. (1991a). Consonancia tonal versus fusión tonal en sonoridades polifónicas. Music
Perception, 9, 135 -154.
Huron, D. (1991b). Reseña de "auditory scene analysis: the perceptual organization of sound"
de Albert S. Bregman. Psychology of Music, 19, 77 82. -
Huron, D. (2001). Tono y voz: una derivación de las reglas de conducción de la voz a partir de
-
principios perceptivos . Music Perception, 19, 1 64.
Huron, D. (2006). Dulce anticipación: La música y la psicología de la expectación. Boston,
MA: MIT Press. (ISBN-13:978-0-262-58278-0)
Huron, D. (2008). Preparación asíncrona de intervalos tonalmente fusionados en música
polifónica.
Revista de Musicología Empírica, 3(1), - 11 21.
Hutchinson, W., y Knopoff, L. (1978). El componente acústico de la consonancia occidental.
Interface, 7, 1 -
29.
Idson, W. L., y Massaro, D. W. (1978). A bidimensional model of pitch in the recognition of
melodies. Perception & Psychophysics, 14, 551 565. -
Ilie, G., y Thompson, W. F. (2006). A comparison of acoustic cues in music and speech for
three dimensions of affect. Music Perception, 23, 319 -329.
Ilie, G., & Thompson, W. F. (2011). Experiential and cognitive changes following seven
-
minutes exposure to music and speech. Music Perception, 28, 247 264.
Jones, M. R. (1987). Dynamic pattern structure in music: recent theory and research.
Perception & Psychophysics, 41, 621 - 634.
Jones, M. R., Moynihan, H., MacKenzie, N., & Puente, J. (2002). Temporal aspects of
- 13, 313 319.
stimulus- driven attending in dynamic arrays. Psychological Science,
Juslin, P. N., y Laukka, P. (2003). Comunicación de emociones en la expresión vocal y la
interpretación musical: ¿diferentes canales, mismo código? Psychological Bulletin, 129,
770- 814.
Kallman, H. (1982). Octave equivalence as measured by similarity ratings. Perception &
Psychophysics, 32, 37 - 49.
Kameoka, W., y Kuriyagawa, M. (1969a). Consonance theory part I: consonance of dyads.
Journal of the Acoustical Society of America, 45, 1452 1459.
-
Kameoka, W., & Kuriyagawa, M. (1969b). Consonance theory part II: Consonance of com-
plex tones and its calculation method. Journal of the Acoustical Society of America, 45,
1460- 1469.
Krumhansl, C. L. (1979). La representación psicológica del tono musical en un contexto tonal.
Psicología cognitiva, 11, 346 374.
-
Krumhansl, C. L. (1985). Perceiving tonal structure in music. American Scientist, 73,
371- 378.
Krumhansl, C. L. (1990). Fundamentos cognitivos del tono musical. Nueva York, NY:
Oxford University Press.
Krumhansl, C. L. (1995a). Efectos del contexto musical sobre la similitud y la expectación.
Systematische Musikwissenschaft [Musicología sistemática], 3, 211-250.
Krumhansl, C. L. (1995b). Psicología musical y teoría de la música: problemas y perspectivas.
Music Theory Spectrum, 17, 53 - 90.
Krumhansl, C. L., y Kessler, E. J. (1982). Tracing the dynamic changes in perceived tonal
organization in a spatial representation of musical keys. Psychological Review, 89,
334- 368.
Lee, K. M., Skoe, E., Kraus, N., & Ashley, R. (2009). Selective subcortical enhancement of
-
musical intervals in musicians. The Journal of Neuroscience, 29, 5832 5840.
Leman, M. (2009). Embodied music cognition and mediation technology. Cambridge, MA:
MIT Press.
158 William Forde Thompson
Liegeois-Chauvel, C., Peretz, I., Babei, M., Laguitton, V., & Chauvel, P. (1998). Contribution
of different cortical areas in the temporal lobes to music processing. Brain, 121, 1853
1867. -
Loosen, F. (1993). Intonation of solo violin performance with reference to equally tempered,
Pythagorean, and just intonations. Journal of the Acoustical Society of America (Revista
de la Sociedad Acústica de América), 93,
525- 539.
Loui, P., Wessel, D. L., & Hudson Kam, C. L. (2010). Humans rapidly learn grammatical
structure in a new musical scale. Music Perception, 27, 377 388. -
Makeig, S. (1982). Percepción afectiva versus analítica de los intervalos musicales. En M.
Clynes (Ed.), Music, mind, and brain: The neuropsychology of music (pp. - 227 250).
Nueva York, NY: Plenum.
Mashinter, K. (2006). Cálculo de la disonancia sensorial: Algunas discrepancias derivadas de
los modelos de Kameoka & Kuriyagawa, y Hutchinson & Knopoff. Empirical
Musicology Review,
- 1, 65 84.
McDermott, J., y Hauser, M. D. (2005). The origins of music: innateness, uniqueness, and
evolution. Music Perception, 23, 29 - 59.
McDermott, A. J., Keebler, M. V., Micheyl, C., & Oxenham, A. J. (2010). Musical intervals
and relative pitch: frequency resolution, not interval resolution, is special. Journal of the
Acoustical Society of America, 128, 1943 1951. -
McDermott, J. H., Lehr, A. J., & Oxenham, A. J. (2008). ¿Es el tono relativo específico del tono?
Psychological Science, 19, 1263 - 1271.
McDermott, J. H., Lehr, A. J., & Oxenham, A. J. (2010). Las diferencias individuales revelan la
base de la consonancia. Current Biology, 20, 1035 - 1041.
McDermott, J. H., y Oxenham, A. J. (2008). Music perception, pitch, and the auditory system.
Current Opinion in Neurobiology, 18, 1 12. -
McLachlan, N. M. (2011). Un modelo neurocognitivo de reconocimiento y segregación de tonos.
Journal of the Acoustical Society of America, 130, 2845 2854.-
McLachlan, N. M., & Wilson, S. W. (2010). El papel central del reconocimiento en la percepción
auditiva: un modelo neurobiológico. Psychological Review, 117, 175 196. -
Melara, R. D., y Marks, L. E. (1990). Interaction among auditory dimensions: timbre, pitch,
and loudness. Perception & Psychophysics, 48, 169 - 178.
Meyer, L. B. (1973). Explicación de la música: Ensayos y exploraciones. Berkeley, CA:
University of California Press.
Miall, D. S., y Dissanayake, E. (2003). The poetics of babytalk. Human Nature, 14, 337 - 364.
Micheyl, C., Carlyon, R. P., Gutschalk, A., Melcher, J. R., Oxenham, A. J., & Rauschecker,
J. P., et al. (2007). The role of auditory cortex in the formation of auditory streams.
Investigación sobre la audición,- 229, 116 131.
Micheyl, C., & Oxenham, A. J. (2010). Pitch, harmonicity and concurrent sound segregation:
psychoacoustical and neurophysiological findings. Hearing Research, 266, 36 - 51.
Moore, B. C. J. (2004). An introduction to the psychology of hearing (5ª ed.). London,
England: Elsevier Academic Press.
Morrongiello, B. A., Trehub, S. E., Thorpe, L. A., & Capodilupo, S. (1985). Children's
perception of melodies: the role of contour, frequency and rate of presentation. Journal
of Experimental Child Psychology, 40, 279 - 292.
Mu¨llensiefen, D., & Pendzich, M. (2009). Decisiones judiciales sobre plagio musical y el
valor predictivo de los algoritmos de similitud. Musicae Scientiae, Foro de debate, 4B,
257- 295.
Narmour, E. (1983). Beyond Schenkerism. Chicago, IL: University of Chicago Press.
4. Intervalos y escalas 159
Shove, P., y Repp, B. (1995). Music motion and performance. Theoretical and empirical
perspectives. En J. Rink (Ed.), The practice of performance: Studies in musical interpre-
tation (pp. 55 -83). Cambridge, Inglaterra: Cambridge University Press.
Siegel, J. A., & Siegel, W. (1977). Categorical perception of tonal intervals: musicians can't
-
tell sharp from flat. Perception & Psychophysics, 21, 399 407.
Southall, B. (2008). Pop goes to court. London, England: Omnibus Press. (ISBN: 978.1.84772.113.6)
Stevens, S. S., & Volkmann, J. (1940). The relation of pitch to frequency: a revised scale.
American Journal of Psychology, 53, 329 - 353.
Stevens, S. S., Volkmann, J., & Newman, E. B. (1937). A scale for the measurement of the
psy- chological magnitude pitch. Journal of the Acoustical Society of America, - 8, 185 190.
Streeter, L. A. (1976). Language perception of 2-month-old infants shows effects of both innate
mechanisms and experience. Nature, 259, 39 41. -
Stumpf, K. (1890). Tonpsychologie (Vol. 2). Leipzig, Alemania: Verlag S. Hirzel.
Stumpf, K. (1898). Konsonanz und dissonanz. Beitra¨ge zur Akustik Musikwissenschaft, 1,
1-108.
Sundberg, J., y Lindquist, J. (1973). Musical octaves and pitch. Journal of the Acoustical
Society of America, 54, 922 - 927.
Taylor, J. A. (1971). Perception of melodic intervals within melodic context (Tesis doctoral
inédita ). Universidad de Washington, Seattle.
Tenney, J. (1988). A history of consonance and dissonance. Nueva York, NY: Excelsior.
Terhardt, E. (1969). Oktavspreizung und Tonhohen der Schieflung bei Sinustonen. Acustica,
22, 348- 351.
Terhardt, E. (1971). Pitch shifts of harmonics, an explanation of the octave enlargement
phenomenon. Actas del 7º Congreso Internacional de Acústica, 3, 621 624. -
Terhardt, E. (1974). Tono, consonancia y armonía. Journal of the Acoustical Society of
America, 55, 1061 - 1069.
Terhardt, E. (1984). The concept of musical consonance: a link between music and psycho-
acoustics. Music Perception, 1, 276 - 295.
Terhardt, E., Stoll, G., & Seewann, M. (1982a). Tono de señales complejas según la teoría del
tono virtual: pruebas, ejemplos y predicciones. Journal of the Acoustical Society of
America, 71(3), 671 678. -
Terhardt, E., Stoll, G., & Seewann, M. (1982b). Algorithm for extraction of pitch and pitch
salience from complex tonal signals. Journal of the Acoustical Society of America, 71(3),
679-688.
Thompson, W. F. (1996). Eugene Narmour: The Analysis and Cognition of Basic Melodic
Structures (1990) y The Analysis and Cognition of Melodic Complexity (1992): A review
and empirical assessment. Journal of the American Musicological Society, 49(1), 127-145.
Thompson, W. F. (2009). Música, pensamiento y sentimiento: Comprender la psicología de
la música. Nueva York, NY: Oxford University Press. (ISBN 978-0-19-537707-1)
Thompson, W. F., Balkwill, L. L., & Vernescu, R. (2000). Expectancies generated by recent
exposure to melodic sequences. Memory & Cognition, 28, 547 555. -
Thompson, W. F., Cuddy, L. L., & Plaus, C. (1997). Expectancies generated by melodic
intervals: evaluation of principles of melodic implication in a melody-completion task.
Perception & Psychophysics, 59, 1069 - 1076.
Thompson, W. F., & Parncutt, R. (1997). Perceptual judgments of triads and dyads: assess-
ment of a psychoacoustic model. Music Perception, 14(3), 263 280. -
Thompson, W. F., Peter, V., Olsen, K. N., & Stevens, C. J. (2012). The effect of intensity on
rel- ative pitch. Quarterly Journal of Experimental Psychology. Advance online
publication. doi:10.1080/17470218.2012.678369
162 William Forde Thompson
I. Introducción
En el verano de 1763, la familia Mozart se embarcó en la famosa gira por Europa
que consolidó la reputación de Wolfgang, de 7 años, como prodigio musical. Justo
antes de partir, apareció una carta anónima en el Augsburgischer Intelligenz-Zettel
en la que se describían las extraordinarias habilidades del joven compositor. La carta
incluía el siguiente pasaje:
II. PA implícito
Siguiendo este razonamiento, no es sorprendente que la mayoría de las personas
posean una forma implícita de PA, aunque sean incapaces de nombrar las notas que
están juzgando. Esto se ha demostrado de varias maneras. Una de ellas es la
paradoja del tritono, una ilusión musical en la que las personas juzgan la altura
relativa de los tonos en función de su posición en el círculo de la clase tonal, aunque
no sean conscientes de ello. Además, las personas que no poseen PA a menudo
pueden juzgar si una pieza musical conocida se está tocando en la tonalidad correcta,
y sus reproducciones de melodías conocidas también pueden reflejar PA implícitos.
C
Figura 1 El círculo de la clase de paso.
B C
A D
A D
G E
G F
F
5. Paso absoluto 143
A de concierto, o el A una octava por encima, o el A una octava por debajo. Cuando
se toca uno de estos pares de tonos (por ejemplo, Do seguido de Fax), algunos
oyentes escuchan un patrón ascendente, mientras que otros escuchan uno
descendente. Sin embargo, cuando se toca un par de tonos diferente (por ejemplo,
Sol seguido de Dox), el primer grupo de oyentes puede oír un patrón descendente y
el segundo grupo uno ascendente. Es importante destacar que, para un oyente
determinado, las clases de tonos suelen ordenarse con respecto a la altura de forma
sistemática: Los tonos de una región del círculo de clases tonales se oyen más altos
y los de la región opuesta, más bajos (Figura 2). Esto ocurre incluso
cuando las envolventes espectrales de los tonos se promedian en diferentes
posiciones a lo largo del continuo de frecuencias, controlando así los efectos
espectrales (Deutsch, 1987, 1992, 1994; Deutsch et al., 1987; Deutsch, Henthorn y
Dolson, 2004b; Giangrande, 1998; Repp y Thompson, 2010). Por tanto, al
experimentar la paradoja del tritono, los oyentes deben referirse a las clases de tono
de los tonos al juzgar sus alturas relativas, invocando así una forma implícita de PA.
La misma conclusión se deriva de las percepciones de los oyentes de ilusiones
relacionadas que implican patrones de dos partes; por ejemplo, la paradoja melódica
(Deutsch, Moore y Dolson, 1986) y la paradoja del semitono (Deutsch, 1988). Estas
paradojas de la percepción del tono se describen en los capítulos 6 y 7.
100 100
Patrón oído descendente (%)
80 80
60 60
40 40
20 20
0 0
CCDDEFFGGAAB CCDDEFFGGAAB
Figura 2 La paradoja del tritono percibida por dos sujetos. Los gráficos muestran los
porcentajes de juicios de que un par de tonos formaba un patrón descendente, en función de la
clase de tono del primer tono del par. Los juicios de ambos sujetos mostraron relaciones
ordenadas con las posiciones de los tonos a lo largo del círculo de la clase de tono, mostrando
144 Diana Deutsch
III. Génesis de AP
Dado que el PA es poco frecuente en el mundo occidental, ha habido muchas
especulaciones sobre su génesis. Se dividen en tres categorías generales: en primer
lugar, que la capacidad puede adquirirse en cualquier momento mediante la práctica
intensiva; en segundo lugar, que se trata de un rasgo inherente que se manifiesta en
cuanto surge la oportunidad; y en tercer lugar, que la mayoría de las personas tienen
el potencial de adquirir PA, pero para que este potencial se materialice, necesitan
estar expuestas a tonos en asociación con sus nombres de nota durante un periodo
crítico al principio de la vida. Los tres puntos de vista han sido defendidos
enérgicamente por varios investigadores.
A. La hipótesis de la práctica
Se han hecho varios intentos de adquirir PA en la edad adulta mediante la práctica
extensiva y, en general, han producido resultados negativos o poco convincentes
(Cuddy, 1968; Gough, 1922; Heller & Auerbach, 1972; Meyer, 1899; Mull, 1925;
Takeuchi & Hulse, 1993; Ward, 1999; Wedell, 1934). Un hallazgo inusualmente
positivo fue descrito por Brady (1970), un músico que había comenzado a estudiar
piano a los 7 años y que se examinó a sí mismo en un estudio de un solo caso.
Practicó con cintas de entrenamiento durante unas 60 horas y consiguió una tasa de
aciertos del 65% (97% teniendo en cuenta los errores de semitono). Aunque
impresionante, el hallazgo único de Brady subestima la extrema dificultad de
adquirir el PA en la edad adulta, en contraste con su adquisición sin esfuerzo, y a
menudo inconsciente, en la primera infancia.
B. La hipótesis genética
La opinión de que el PA es un rasgo hereditario ha tenido encendidos defensores
durante muchas décadas (Athos et al., 2007; Bachem, 1940, 1955; Baharloo,
Johnston, Service, Gitschier, & Freimer, 1998; Baharloo, Service, Risch, Gitschier,
& Freimer, 2000; Gregersen, Kowalsky, Kohn, & Marvin, 1999, 2001; Profita &
Bidder, 1988; Revesz, 1953; Theusch, Basu, & Gitschier, 2009). Un argumento a
favor de este punto de vista es que la capacidad suele aparecer a una edad muy
temprana, incluso cuando el niño ha tenido poca o ninguna formación musical
formal. Los poseedores de la PA suelen comentar que han tenido esta habilidad
desde que tienen uso de razón (Carpenter, 1951; Corliss, 1973; Takeuchi, 1989). A
título personal, aún recuerdo mi asombro al descubrir, a la edad de 4 años, que otras
personas (incluso adultos) eran incapaces de nombrar las notas que se estaban
tocando en el piano sin mirar qué tecla se estaba tocando. Es de suponer que ya
había recibido alguna formación musical, pero era mínima.
Otro argumento a favor de la visión genética es que el PA tiende a darse en
familias (Bachem, 1940, 1955; Baharloo et al., 1998, 2000; Gregersen et al., 1999,
2001; Profita & Bidder, 1988; Theusch et al., 2009). Por ejemplo, en una encuesta
realizada a 600 músicos, Baharloo et al. (1998) descubrieron que los poseedores de
PA autodeclarados tenían cuatro veces más probabilidades que los no poseedores de
5. Paso absoluto 147
100
Puntuaciones AP en idiomas
no hablados Chance
80
Porcentaje de sujetos
60
40
20
10 20 30 40 50 60 70 80 90 100
Porcentaje correcto
genes que contribuyen a este rasgo. Como paso en esta dirección, Theusch et al.
(2009) han aportado pruebas preliminares de un vínculo en todo el genoma en el
cromosoma 8 en familias con ascendencia europea que incluyen poseedores de AP.
posesión de PA (Deutsch, Dooley, et al., 2009; Deutsch et al., 2011; Lee & Lee,
2010), y se discuten en la Sección IV,D.
Otros estudios que señalan la importancia de la exposición temprana a las notas
musicales y sus nombres han implicado la realización de pruebas a niños. Russo,
Windell y Cuddy (2003)
154 Diana Deutsch
entrenaron a niños y adultos para identificar una sola nota de entre un conjunto de
siete notas posibles, y descubrieron que a la tercera semana de entrenamiento, la
precisión de identificación
- de los niños de 5 a 6 años superaba la de un grupo de
adultos. En otro estudio, Miyazaki y Ogawa (2006) examinaron a niños de la
Escuela de Música Yamaha de Japón y descubrieron que sus puntuaciones en la
identificación de tonos aumentaban notablemente de los 4 a los 7 años.
efecto a favor del entrenamiento de moveable-do. En el caso de los sujetos con una
edad de inicio de 9 años o menos, el porcentaje de aciertos en la prueba de AP entre
los sujetos de moveable-do era casi el doble que entre los sujetos de fixed-do. Otro
dato interesante es que un número mucho mayor de sujetos respondieron utilizando
nombres de letras que nombres de solfe`ge en el caso del método fijo, lo que indica
que los métodos de entrenamiento de moveable-do están muy extendidos en China,
donde la prevalencia del PA también es alta.
156 Diana Deutsch
Un punto más convincente con respecto al tipo de formación musical es que los
niños a los que primero se les enseña a tocar en instrumentos transpositores e s t á n
en clara desventaja para la adquisición del PA. Por ejemplo, un Do anotado en un Bw
clarinete se toca como la nota Bw en lugar de C, y un C anotado en una trompa F es
tocada como la nota Fa. Tales discrepancias entre las notas vistas y las sonadas
se esperaría que desalentara la adquisición de PA. Además, en el estudio de Peng et
al. (en prensa) que acabamos de describir, los sujetos que habían sido entrenados
con instrumentos musicales de estilo occidental superaron sustancialmente a los que
habían sido entrenados con música folclórica o vocal.
C. Pruebas neuroanatómicas
Otro argumento a favor de la asociación entre el PA y el lenguaje se refiere a sus
correlatos neuroanatómicos. Una región de especial importancia en este sentido es el
planum temporale (PT) izquierdo, una zona del lóbulo temporal que corresponde al
núcleo del área de Wernicke y que interviene de forma crítica en el procesamiento
del habla. Se ha descubierto que el PT es asimétrico hacia la izquierda en la mayoría
de los cerebros humanos (Geschwind y Levitsky, 1968). Schlaug et al. (1995)
5. Paso absoluto 159
informaron por primera vez de que esta asimetría es mayor entre los poseedores del
PA que entre los no poseedores, y este hallazgo ha sido seguido en varios estudios.
En un experimento que apoya específicamente una asociación
160 Diana Deutsch
entre el PA, el TP izquierdo y el habla, Oechslin et al. (2010) descubrieron que los
poseedores de PA mostraban una activación significativamente mayor en el TP
izquierdo y las áreas circundantes cuando participaban en el procesamiento
segmentario del habla. Además, Loui et al. (2011) observaron que la posesión de PA
estaba asociada con una mayor conectividad de la materia blanca entre las regiones
que sirven a la percepción auditiva y la categorización en el lóbulo temporal
superior izquierdo, regiones que se consideran responsables de la catego- rización de
los sonidos del habla (Hickok y Poeppel, 2007). Los subestratos neuroanatómicos de
la PA se analizan con más detalle en la Sección VI.
D. AP y Tono Lenguaje
El argumento de la relación entre el PA y el lenguaje se ve reforzado por la
consideración de las lenguas tonales, como el mandarín, el cantonés, el vietnamita y
el tailandés. En las lenguas tonales, las palabras adquieren significados
arbitrariamente diferentes según los tonos en que se pronuncian. El tono léxico se
define tanto por la altura del tono ("registro") como por el contorno. Por ejemplo, la
palabra "ma" en mandarín significa "madre" cuando se pronuncia en el primer tono,
"cáñamo" en el segundo, "caballo" en el tercero y un reproche en el cuarto. Por
tanto, cuando un hablante de mandarín oye la palabra "ma" pronunciada en el primer
tono y le atribuye el significado de "madre", está asociando un tono concreto -o una
combinación de tonos- con una etiqueta verbal. Análogamente, cuando un poseedor
de PA oye la nota Fx
y atribuye la etiqueta "Fx", también está asociando un tono concreto con un
etiqueta verbal.
Los sustratos cerebrales que subyacen al procesamiento del tono léxico parecen
solaparse con los del procesamiento de los fonemas en el habla. Aunque la
comunicación de la prosodia y la emoción involucra preferentemente al hemisferio
derecho tanto en hablantes de lenguas tonales como no tonales (Edmondson, Chan,
Siebert y Ross, 1987; Gorelick y Ross, 1987; Hughes, Chan y Su, 1983; Ross, 1981;
Tucker, Watson y Heilman, 1977), el procesamiento del tono léxico es
principalmente una función del hemisferio izquierdo. Por ejemplo, se han observado
deficiencias en la identificación del tono léxico en pacientes afásicos con daño
cerebral en el lado izquierdo (Gandour y Dardarananda, 1983; Gandour et al., 1992;
Moen y Sundet, 1996; Naeser y Chan, 1980; Packard, 1986). Además, los hablantes
normales de lenguas tonales muestran una ventaja del oído derecho en la escucha
dicótica de tonos léxicos (Van Lancker y Fromkin, 1973) y muestran una activación
del hemisferio izquierdo en respuesta a dichos tonos (Gandour, Wong y Hutchins,
1998).
Estas líneas de evidencia implican que cuando los hablantes de lenguaje tonal
perciben y producen tonos y contornos de tono que significan palabras
significativas, están implicados los circuitos del hemisferio izquierdo. A partir de las
pruebas sobre los periodos críticos para la adquisición del habla, podemos suponer
que estos circuitos se desarrollan muy pronto en la vida, durante el periodo en el que
los bebés adquieren otras características del habla (Doupe y Kuhl, 1999; Kuhl,
Williams, Lacerda, Stevens y Lindblom, 1992; Werker y Lalonde, 1988). Por lo tanto,
podemos conjeturar que si los tonos se asocian con palabras significativas en la
5. Paso absoluto 161
100 0
80
Porcentaje correcto
60
40
20
5. Paso absoluto 165
Los hallazgos de Deutsch et al. (2006, 2011) y de Lee y Lee (2010) concuerdan
con la conjetura de que la adquisición del PA está sujeta a un periodo crítico
relacionado con el habla, y que para los hablantes de lenguas tonales, este proceso
implica el mismo circuito neural que interviene en la adquisición de los tonos de una
segunda lengua tonal. Sin embargo, también se puede considerar la hipótesis
alternativa de que las diferencias de prevalencia entre estos grupos sean de origen
genético. Para decidir entre estas dos explicaciones, Deutsch, Dooley, et al. (2009)
llevaron a cabo un estudio de prueba directa en 203 estudiantes de primer y segundo
curso de la Escuela de Música Thornton de la Universidad del Sur de California,
utilizando la misma prueba AP que se había utilizado anteriormente, y de nuevo sin
autoselección entre la población objetivo.
Los sujetos se dividieron en cuatro grupos: Los del grupo no tonal eran
caucásicos y sólo hablaban la lengua no tonal. El resto de los sujetos eran de
ascendencia étnica de Asia Oriental, y ambos progenitores hablaban una lengua
tonal de Asia Oriental. Los del grupo tono muy fluido informaron de que hablaban
una lengua tonal "con mucha fluidez". Los del grupo de los tonos bastante fluidos
decían que hablaban u n a l e n g u a t o n a l " c o n b a s t a n t e
f l u i d e z ". Aquellos en el grupo de tono no fluido reportaron "Puedo entender
el idioma, pero no lo hablo con fluidez."
La figura 5 muestra el porcentaje medio de respuestas correctas en la prueba de
PA para cada grupo lingüístico. Como en el caso anterior, se observa un claro efecto
de la edad de inicio de la formación musical. Sin embargo, también hubo un efecto
abrumadoramente fuerte de la fluidez del lenguaje tonal, manteniendo constante el
origen étnico: los sujetos que hablaban un lenguaje tonal con mucha fluidez
mostraron un rendimiento notablemente alto, muy superior al de los caucásicos que
no hablaban un lenguaje tonal, y también muy superior al de los sujetos de Asia
oriental que no hablaban un lenguaje tonal con fluidez. El efecto de la lengua se
manifestaba incluso de forma muy precisa: El rendimiento del grupo que hablaba el
tono con mucha fluidez era significativamente más alto que el de cada uno de los
otros grupos por separado; el rendimiento del grupo que hablaba el tono con
bastante fluidez era significativamente más alto que el del grupo que no hablaba el
tono, y también más alto que el del grupo que no hablaba el tono. Además, el
rendimiento del grupo no fluente (genéticamente asiático) no difería
significativamente del grupo no fluente (genéticamente caucásico). En un análisis de
regresión en el que sólo se tuvo en cuenta a los sujetos de ascendencia étnica asiática
oriental, la fluidez al hablar una lengua tonal resultó ser un factor predictivo muy
significativo del rendimiento.
Los niveles de rendimiento mejorados de los hablantes de lenguas tonales
encontrados en los estudios de Deutsch et al. (2006, 2011), Deutsch, Dooley, et al.
(2009), y Lee y Lee (2010) son coherentes con los resultados de la encuesta de
Gregersen et al. (1999, 2001) a estudiantes de programas de música de educación
superior en Estados Unidos a los que se ha hecho referencia anteriormente.
Gregersen et al. (2001) también descubrieron que la prevalencia del PA entre los
estudiantes que eran japoneses o coreanos era mayor que entre los estudiantes
caucásicos, aunque no tan alta como entre los estudiantes chinos. Como se describe
en la Sección III,B, Gregersen et al. interpretaron que la alta prevalencia de PA entre
los encuestados de Asia oriental indicaba un origen genético del PA. Sin embargo,
5. Paso absoluto 167
100
tono muy fluido
tono bastante
fluido tono no
80 fluido no tono
casualidad
Porcentaje correcto
60
40
20
0
2-5 6-9 10
Edad de inicio de la formación musical
Figura 5 Porcentaje medio de aciertos en una prueba de tono absoluto entre los alumnos de
un estudio a gran escala realizado en un conservatorio de música estadounidense. Los datos
se representan en función de la edad de inicio de la formación musical y la fluidez al hablar
un lenguaje tonal. Los alumnos de los grupos de tono muy fluido, tono bastante fluido y tono
no fluido pertenecían a etnias de Asia oriental y hablaban un lenguaje tonal con distintos
grados de fluidez. Los del grupo no tonal eran caucásicos y sólo hablaban una lengua no
tonal. La línea marcada como casualidad representa el rendimiento casual en la tarea.
Adaptado de Deutsch, Dooley, et al. (2009).
Otro punto de interés del estudio de Gregersen et al. es que la prevalencia del PA
era mayor entre el grupo chino que entre los grupos japonés o coreano, y esta
prevalencia en los últimos grupos era a su vez mayor que entre el grupo de lenguas
no tonales. El japonés es una lengua de acento tonal, por lo que los significados de
algunas palabras difieren en función de los tonos de las sílabas que las componen.
Por ejemplo, en japonés de Tokio la palabra "hashi" significa "palillos" cuando se
pronuncia alto-bajo, "puente" cuando se pronuncia bajo-alto, y "borde" cuando las
dos sílabas tienen el mismo tono. En japonés, por tanto, el tono también desempeña
un papel importante en la atribución del significado léxico; sin embargo, este papel
no es tan crítico como en las lenguas tonales. En Corea, algunos dialectos se
consideran acentuados o incluso tonales (Jun, Kim, Lee y Jun, 2006). Por ejemplo,
en el dialecto Kyungsang, la palabra "hijo" significa "nieto" o "pérdida" cuando se
pronuncia en tono bajo, "mano" en tono medio y "huésped" en tono alto. En cambio,
en el coreano de Seúl no se utiliza el tono para transmitir el significado léxico. Por
todo ello, cabría esperar que la prevalencia global del PA fuera mayor entre los
hablantes de japonés y coreano que entre los hablantes de lenguas no tonales, pero
no tan alta como entre los hablantes de lenguas tonales. Los resultados de la
encuesta de Gregersen et al. (1999, 2001) son los que se esperaban de esta línea de
razonamiento.
5. Paso absoluto 169
V. Procesamiento AP y Pitch
Se suele suponer que los poseedores de PA tienen "buen oído", es decir, que esta
capacidad está asociada a una mejora de las capacidades auditivas de bajo nivel. Sin
embargo, los estudios experimentales no han confirmado esta opinión. Por ejemplo,
Sergeant (1969) y Siegel (1972) no observaron diferencias entre los poseedores y no
poseedores de PA en su rendimiento en tareas de discriminación de frecuencias.
Fujisaki y Kashino (2002) confirmaron la ausencia de diferencias entre los
poseedores y no poseedores de PA en la discriminación de frecuencias, y tampoco
encontraron diferencias entre estos dos grupos en la detección de tonos en presencia
de ruido de muesca, en la discriminación de brechas temporales ni en la resolución
espacial. Por otro lado, se ha observado que los poseedores de PA difieren de los no
poseedores en el procesamiento de tonos de alto nivel, generalmente de forma
ventajosa. Muestran una percepción categórica al nombrar las notas, al tiempo que
discriminan entre tonos dentro de las categorías; tienen un mejor rendimiento en
ciertas tareas de memoria de tonos, en ciertas tareas que implican el procesamiento
fonológico del habla y (excepto en circunstancias inusuales) al juzgar las relaciones
de tono.
Tanto Miyazaki (1988) como Burns y Campbell (1994) observaron que, en contraste
con
5. Paso absoluto 171
respuestas de denominación de
4 notas por un único poseedor de
3 tono absoluto, indicando la
F G G A A
percepción categórica.
2 Tomado de Miyazaki (1988),
con la amable autorización de
1
Springer Science and Business
0 Media.
Estímulo
percepción categórica de los sonidos del habla, para la que las funciones de
discriminación están relacionadas con las funciones de identificación (Macmillan,
Goldberg y Braida, 1988), los poseedores de PA discriminaban entre tonos dentro de
las categorías y, sin embargo, mostraban una percepción categórica en las tareas de
identificación de tonos.
B. Memoria de tono
La capacidad de los poseedores de PA para categorizar y codificar tonos en forma
verbal confiere una ventaja considerable a la memoria de tonos. En uno de los
primeros experimentos, Bachem (1954) comparó el rendimiento de los poseedores
de PA y los no poseedores entrenados musicalmente en una tarea de memoria de
tonos. Se presentaba un tono estándar, seguido de un tono de comparación, y los
sujetos indicaban si los tonos eran iguales o diferentes. Los dos grupos mostraron
aproximadamente la misma tasa de decaimiento de la memoria del tono durante el
primer minuto. Sin embargo, a intervalos de retención más largos, el rendimiento de
los no poseedores siguió deteriorándose, mientras que el de los poseedores de AP se
mantuvo estable, probablemente porque estaban codificando los tonos en forma de
etiquetas verbales. De hecho, cuando los poseedores AP fueron capaces de etiquetar
los tonos que debían recordar, obtuvieron resultados precisos con intervalos de
retención de hasta 1 semana.
En otro estudio, Rakowski y Rogowski (2007) hicieron que los sujetos
escucharan un tono estándar y luego afinaran un tono variable para que coincidiera
con el tono del estándar. Cuando se interpusieron intervalos de silencio de hasta 1
minuto entre los tonos, dos poseedores de PA y un no poseedor de control mostraron
un rendimiento muy similar. Sin embargo, más allá de este periodo, el rendimiento
del no poseedor se deterioró con el tiempo, mientras que el de los poseedores de PA
se mantuvo más estable.
En un experimento más elaborado, Siegel (1974) utilizó un paradigma similar al
de Deutsch (1970). A los sujetos se les presentaba un tono de prueba seguido por
una secuencia de tonos intermedios y luego por un segundo tono de prueba, y
juzgaban si los tonos de prueba eran iguales o diferentes en tono. Cuando la
diferencia entre los tonos a comparar era de 1/10 de semitono, el rendimiento de los
poseedores y no poseedores de PA disminuía aproximadamente al mismo ritmo
durante un intervalo de reten- ción de 5 segundos. Sin embargo, cuando esta
diferencia era de 1 semitono, el rendimiento de los dos grupos divergía
172 Diana Deutsch
de los dos grupos eran similares, pero como los poseedores de PA adoptaban una
estrategia de codificación verbal, podían recurrir a la memoria a largo plazo para
emitir sus juicios cuando la diferencia de tono entre los tonos a comparar era de
aproximadamente un semitono.
Siguiendo estos hallazgos, Ross y Marks (2009) sugirieron que los niños con una
formación musical mínima que, sin embargo, muestran una excelente memoria a
corto plazo para el tono podrían estar categorizando los tonos de alguna manera, y
por lo tanto podrían desarrollar más tarde el PA tal y como se define
convencionalmente. Los autores aportaron algunas pruebas preliminares a favor de
esta hipótesis, y su intrigante sugerencia espera ser investigada más a fondo.
C. Errores de octava
Aunque todavía no se ha comparado el rendimiento de los poseedores y no
poseedores de PA a la hora de juzgar la colocación en octava de los tonos, varios
estudios han demostrado que los poseedores de PA a veces cometen errores al juzgar
la colocación en octava, aunque identifican correctamente los nombres de las notas
(Bachem, 1955; Lockhead y Byrd, 1981; Miyazaki, 1989). Sin embargo, los errores
de octava son difíciles de interpretar. A diferencia de la terminología estándar para
designar las clases de tono (do, dox, re, etc.), no existe una terminología estándar
para designar las clases de tono (do, dox, re, etc.).
terminología estándar para designar las octavas. Por lo tanto, los sujetos podrían ser
infa-
Esto podría dar lugar a errores artificiales. Por otra parte, los tonos que se basan en
la misma fundamental pero se tocan con instrumentos diferentes (como el piano y el
clavicordio) pueden diferir en la altura percibida y, por tanto, en la octava percibida.
En relación con esto, la altura percibida de un tono también puede diferir
sustancialmente manipulando las amplitudes relativas de sus armónicos pares e
impares (Deutsch, Dooley y Henthorn, 2008; Patterson, 1990; Patterson, Milroy y
Allerhand, 1993). Por lo tanto, la designación de la octava de un tono de timbre
desconocido puede ser problemática en principio.
efecto Stroop en los juicios realizados por sujetos entrenados en el do fijo. Estos
autores
5. Paso absoluto 177
con el fin de proporcionar una referencia. Hubo una fuerte relación positiva entre el
rendimiento en la prueba AP y las tareas de dictado musical, y ni la edad de inicio
de la formación musical ni los años de formación se relacionaron significativamente
con las puntuaciones de dictado. El nivel de rendimiento fue significativamente
mayor para los poseedores de AP que para los no poseedores, para los poseedores de
AP que para los poseedores limítrofes y para los poseedores limítrofes que para los
no poseedores.
En otro estudio, Dooley y Deutsch (2011) evaluaron a sujetos entrenados
musicalmente que consistían en 18 poseedores de PA y 18 no poseedores, con los
dos grupos emparejados por edad y por edad de inicio y duración del entrenamiento
musical. Los sujetos realizaron tareas de denominación de intervalos que sólo
requerían tono relativo. A diferencia de los estudios de Miyazaki (1993, 1995), los
intervalos debían identificarse por sus nombres inter- valares ("segunda mayor",
"tercera menor", etc.) para que no se produjera ningún conflicto entre los nombres
que se utilizaban para designar los intervalos y los de las notas que formaban los
intervalos. En una condición, los intervalos estaban formados por breves ondas
sinusoidales de duración suficiente para proporcionar una sensación clara de tono
(Hsieh y Saberi, 2007). En una segunda condición, se emplearon tonos de piano.
Una tercera condición
- era idéntica a la segunda, salvo que cada intervalo iba
precedido de una cadencia V7 I, de modo que el primer tono del par se interpretaría
como la tónica.
La figura 7 muestra, para cada sujeto, el porcentaje global de aciertos en la tarea
de denominación de intervalos. Como puede observarse, la posesión de PA estaba
fuerte y positivamente correlacionada con el rendimiento en la identificación de
intervalos. Además, la ventaja de la posesión del PA se mantuvo en todas las
condiciones de presentación del intervalo. Resulta especialmente interesante que la
ventaja del PA no desapareciera al proporcionar un contexto tonal al intervalo que se
iba a nombrar. Esto, junto con los hallazgos de Dooley y Deutsch (2010) en tareas de
dictado musical,
100
Intervalo Tarea Porcentaje
75
50
Correcto
25
0
0 20 40 60 80 100
Examen AP Porcentaje de aciertos
fuerte correlación entre la posesión del tono absoluto y un mayor rendimiento en las tareas
de denominación de intervalos.
Adaptado de Dooley y Deutsch (2011).
5. Paso absoluto 181
Teniendo en cuenta otros hallazgos que demuestran que esta región está implicada
en el aprendizaje asociativo condicional (Petrides, 1985, 1990), Zatorre et al.
plantearon la hipótesis de que los poseedores de AP implican a esta región en la
recuperación de asociaciones entre valores de tono y sus etiquetas verbales (véase
también Bermúdez y Zatorre, 2005). En línea con estos hallazgos, Ohnishi et al.
(2001) observaron una mayor activación en el córtex frontal dorsolateral posterior
izquierdo durante una tarea de escucha pasiva de música, y esto se correlacionó con
un alto rendimiento en una prueba de PA.
Schulze et al. (2009) hallaron otras diferencias entre poseedores y no poseedores
de PA empleando una tarea de memoria de tonos a corto plazo similar a la
desarrollada por Deutsch (1970, 1975). En general, estos autores encontraron una
mayor actividad del lóbulo temporal en ambos grupos durante los 3 primeros
segundos tras la presentación del estímulo, lo que presumiblemente refleja la
codificación del estímulo. También observaron una actividad intensa y continuada
en los córtex frontal y parietal durante los 3 segundos siguientes, lo que
presumiblemente refleja la actividad en el sistema de memoria de trabajo. Los
poseedores de PA mostraron una mayor actividad en el surco temporal superior
izquierdo durante la primera fase de codificación, mientras que los no poseedores
mostraron una mayor actividad en las áreas parietales derechas durante ambas fases.
Los autores hipotetizaron que la activación cerebral entre los poseedores de PA
durante la fase de codificación temprana implicaba la categorización de tonos en
clases de tono, con el resultado de que eran capaces de confiar menos en la memoria
de trabajo a la hora de emitir sus juicios. En línea con este razonamiento, Wilson et
al. (2009) descubrieron que los poseedores de PA limítrofes utilizaban una red
neuronal más extensa al realizar una tarea de denominación de tonos que los
poseedores de PA de alto rendimiento, mostrando este último grupo una activación
especialmente en la circunvolución temporal superior posterior izquierda.
La capacidad de los poseedores de PA para confiar menos en la memoria de
trabajo para el tono, debido a su mayor capacidad para codificar los tonos de forma
verbal, también podría explicar que muestren un componente P300 ausente o menor
de los potenciales relacionados con eventos mientras realizan tareas de memoria del
tono (Hantz, Kreilick, Braveman, & Swartz, 1995; Hirose, Kubota, Kimura,
Ohsawa, Yumoto y Sakakihara, 2002; Klein, Coles y Donchin, 1984; Wayman,
Frisina, Walton, Hantz y Crummer, 1992). Esto pone de manifiesto la importancia
para la PA de las regiones cerebrales encargadas de la categorización del tono que se
comentan en la Sección V.A (Rakowski, 1993; Siegel, 1974; Siegel y Siegel, 1977).
Curiosamente, otros estudios también han asociado el surco temporal superior
izquierdo con la identificación y categorización de sonidos (Liebenthal, Binder,
Spitzer, Possing y Medler, 2005; Mo¨tto¨nen et al., 2006).
Un avance reciente e intrigante se refiere al papel de la conectividad entre las
regiones cerebrales que están críticamente implicadas en el PA. Loui et al. (2011),
utilizando imágenes de tensor de difusión y tractografía, descubrieron que la
posesión de PA se asociaba con hiperconectividad en estructuras bilaterales del
lóbulo temporal superior. En concreto, descubrieron que los volúmenes de los
tractos que conectan la circunvolución temporal superior posterior y la
circunvolución temporal medial posterior eran mayores entre los poseedores de AP
que entre los no poseedores. Estas diferencias en los volúmenes de los tractos fueron
184 Diana Deutsch
A. Clase de lanzamiento
Los poseedores de PA varían en la velocidad y precisión con la que identifican las
diferentes clases de tonos. En general, los tonos que corresponden a las teclas
blancas del teclado -C, D, E, F, G, A, B- se identifican con mayor precisión y
rapidez que los que corresponden a las teclas negras -Cx/Dw, Dx/Ew, Fx/Gw, Gx/Aw,
Ax/Bw (Athos et al., 2007; Baird, 1917; Bermudez & Zatorre, 2009a; Carroll, 1975;
Deutsch et al.,
2011; Marvin & Brinkman, 2000; Miyazaki, 1988, 1989, 1990; Sergeant, 1969;
Takeuchi & Hulse, 1991, 1993).
Se han sugerido dos explicaciones principales para el efecto tecla blanca/negra.
Miyazaki (1989, 1990) argumentó que la mayoría de los poseedores de PA
comienzan el entrenamiento musical en el piano durante el período crítico para la
adquisición de PA, y que tal entrenamiento comienza típicamente con patrones
simples de cinco dedos utilizando sólo teclas blancas, con teclas negras que se
introducen gradualmente a medida que avanza el entrenamiento. Por lo tanto,
propuso que la ventaja de las teclas blancas para los juicios de PA es el resultado de
la práctica del piano con estas notas durante la primera infancia. En-apoyo de este
argumento, Miyazaki y Ogawa (2006) realizaron un estudio transversal en niños de
4 a 10 años que recibían clases de teclado y descubrieron que, en general, los niños
adquirían la capacidad de nombrar los tonos de las notas en el orden en que
aparecían en las clases.
La hipótesis de que la ventaja de la tecla blanca se debe a un entrenamiento
temprano en el piano se evaluó en el estudio de Deutsch et al. (2011). Aquí se
compararon dos grupos de instrumentistas que comenzaron su formación musical a
los 9 años o antes. Un grupo había comenzado su formación en el piano, y el piano
era actualmente su instrumento principal; el otro grupo había comenzado su
formación en un instrumento sin teclado, como el violín, y actualmente tocaban un
instrumento sin teclado. Como se muestra en la figura 8, ambos grupos mostraron un
claro efecto de teclas blancas/negras, que fue mayor entre los que no tocaban el
teclado. Estos resultados sostienen que el efecto tecla blanca/negra no puede
atribuirse a una formación temprana en las notas blancas del piano.
Takeuchi y Hulse (1991) propusieron otra explicación para el efecto clave
blanca/negra. Estos autores señalaron que, basándose en la observación general, en
la música tonal occidental los tonos blancos son más frecuentes que los negros, por
lo que deberían procesarse mejor. Esta explicación en términos de frecuencia de
aparición está en consonancia con los hallazgos que muestran que en otras tareas,
como la toma de decisiones léxicas y la denominación de palabras, las respuestas
son más rápidas y precisas a palabras que aparecen con frecuencia que a palabras
186 Diana Deutsch
que aparecen con menos frecuencia (Besner y McCann, 1987). De acuerdo con esta
hipótesis, Simpson y Huron (1994) determinaron el
5. Paso absoluto 187
100
Notas en clave
negra Notas en
90 clave blanca
Porcentaje correcto
80
70
60
Pianista Intérpretes de orquesta
s
Figura 8 Porcentaje medio de aciertos en una prueba de tono absoluto entre los alumnos de
un estudio a gran escala realizado en el Conservatorio de Música de Shanghái,
representado por separado para tonos blancos y tonos negros.
Datos de Deutsch, Le, et al. (2011).
a esta nota. Sin embargo, según su hipótesis, cabría esperar que la nota A fuera
5. Paso absoluto 189
90
85
E A D
B
80
F C
correctamente (%)
C
Nota nombrada
75 G
F
70 D
A
65
R2 = 0,6489
G
60
10,000 15,000 20,000 25,000
Recuento de notas del repertorio clásico
Figura 9 Porcentaje medio de aciertos en una prueba de tono absoluto entre los estudiantes de
un estudio a gran escala realizado en el Conservatorio de Música de Shanghái, trazado para
cada clase de tono por separado, y frente al número de apariciones de cada clase de tono en
el Diccionario Electrónico de Temas Musicales de Barlow y Morgenstern (2008).
De Deutsch, Le, et al. (2011).
B. Colocación de octavas
Varios estudios han demostrado que los poseedores de PA nombran las notas con
mayor precisión cuando se encuentran en registros de tono centrales (Bachem, 1948;
Baird, 1917; Miyazaki, 1989; Rakowski, 1978; Rakowski y Morawska-Bungeler,
1987). Es de esperar que la precisión de la denominación de notas se reduzca en los
extremos alto y bajo de la gama musical, porque aquí se pierde el aspecto musical
del tono (Burns, 1999; Lockhead y Byrd, 1981; Pressnitzer, Patterson y Krumbholz,
2001; Semal y Demany, 1990; Takeuchi y Hulse, 1993). Sin embargo, también se ha
observado que la precisión al nombrar notas varía en función del registro en la parte
media de la gama musical. Miyazaki (1989) presentó notas que abarcaban más de
siete octavas y descubrió que el mejor rendimiento se producía para notas entre Do4
y Do6 , con un descenso del rendimiento a ambos lados de este rango, y un descenso
más pronunciado en el lado inferior, como se muestra en la figura 10. Deutsch et al.
(2011) obtuvieron un resultado similar considerando solo las notas de las tres
octavas centrales (Do3 -B5 ). El rendimiento en la octava inferior fue aquí
significativamente peor que en la octava central o superior, mientras que la
diferencia entre las octavas central y superior no fue significativa. En general, el
efecto del registro podría estar relacionado con la frecuencia de aparición de las
distintas notas en la música occidental, aunque esta conjetura está pendiente de una
investigación formal.
C. Timbre
Aunque algunos poseedores de PA nombran los tonos con precisión
independientemente de cómo los produzcan -por ejemplo, cuando los producen las
bocinas de los coches, las aspiradoras, los aparatos de aire acondicionado, etc.-,
otros sólo son precisos para uno o dos timbres de instrumentos con los que están
familiarizados. Los timbres de piano parecen ser especialmente propicios para un
alto nivel de denominación de notas (Athos et al., 2007; Baharloo et al., 1998;
Lockhead &
40 de la Universidad de California.
20
Tono de piano
Tono complejo
0 Tono puro
1 2 3 4 5 6 7
5. Paso absoluto 191
Posición de octava
192 Diana Deutsch
Athos et al. (2007), en su estudio basado en la Web, descubrieron que los errores
en la denominación del tono tendían a aumentar con la edad, de modo que ningún
sujeto de su estudio mayor de 51 años identificó correctamente todos los tonos de su
prueba. Estos cambios de tono tendían a ser agudos, aunque no de forma
sistemática. Athos et al. plantearon la hipótesis de que estos desplazamientos de
tono podrían deberse a cambios en las propiedades mecánicas de la cóclea, aunque
por el momento se desconoce la base fisiológica de este efecto.
-60
-80
-100
Placebo
-120 Carbamazepina
C1-C2 C2-C3 C3-C4 C4-C5 C5-C6 C6-C7
Octava
El PA es muy frecuente entre los músicos ciegos, tanto los que son
congénitamente ciegos como los que han perdido la visión muy pronto en la vida
(Bachem, 1940; Gaab, Schulze, Ozdemir y Schlaug, 2006; Hamilton, Pascual-Leone
y Schlaug, 2004; Welch, 1988). Por ejemplo, Hamilton et al. (2004) descubrieron
que de los 21 sujetos ciegos tempranos con formación musical, el 57% eran
poseedores de PA, algunos de los cuales incluso habían empezado a tomar clases de
música en la infancia tardía. Los ciegos prematuros, como grupo, también son
superiores a los videntes a la hora de juzgar la dirección del cambio de tono y de
localizar sonidos (Gougoux, Lepore, Lassonde, Voss, Zatorre y Belin, 2004; Roder
et al., 1999; Yabe y Kaga, 2005). Por lo tanto, parece que la alta prevalencia de PA
en este grupo refleja un cambio general en el énfasis de los recursos cerebrales del
dominio visual al auditivo. En cuanto a los fundamentos neurológicos, se ha
observado que los ciegos que poseen PA producen una mayor activación en áreas no
auditivas, como las áreas visuales y parietales, al realizar tareas de memoria del tono
(Ross, Olson y Gore, 2003; Gaab et al., 2006). Además, Hamilton et al. (2004)
observaron una mayor variabilidad en la asimetría del TP en ciegos precoces en
comparación con los poseedores de PA videntes.
También hay pruebas de que el PA es más frecuente entre los autistas. El autismo
es un trastorno raro del neurodesarrollo caracterizado por déficits intelectuales y
comunicativos que se dan en combinación con islas de capacidades específicas
potenciadas. Existen formas extremas de este síndrome en los autistas savants, que
muestran discrepancias extraordinarias entre deficiencias cognitivas generales y
logros espectaculares en ámbitos específicos. Sus talentos prodigiosos suelen ser
musicales. El AP es muy frecuente entre los sabios musicales en asociación con
otras capacidades excepcionales.
196 Diana Deutsch
X. Conclusión
El tono absoluto es un fenómeno intrigante sobre el que se ha especulado durante
mucho tiempo y que recientemente ha suscitado el interés de investigadores de una
amplia variedad de disciplinas, como la música, la psicología, la neurociencia y la
genética. Aunque se había considerado una capacidad encapsulada, su estudio ha
contribuido a la comprensión de muchas cuestiones, como los periodos críticos en el
desarrollo perceptivo y cognitivo, las relaciones entre el lenguaje y la música, la
influencia del lenguaje en la percepción, los correlatos neuroanatómicos de las
capacidades especializadas y el papel de los factores genéticos en la percepción y la
cognición. El estudio de esta capacidad debería reportar considerables dividendos en
los años venideros.
5. Paso absoluto 197
Agradecimientos
Agradezco a Trevor Henthorn su ayuda con las ilustraciones y a Frank Coffaro su ayuda con
el formato de las referencias. La preparación de este capítulo ha contado en parte con el apoyo
de un Premio de Investigación Interdisciplinar de la Universidad de California en San Diego.
Referencias
Athos, E. A., Levinson, B., Kistler, A., Zemansky, J., Bostrom, A., & Freimer, N., et al.
(2007). Dicotomía y distorsiones perceptivas en la capacidad de tono absoluto. Actas de
la Academia Nacional de Ciencias, EE.UU., 104, 14795 - 14800.
Bachem, A. (1940). La génesis del tono absoluto. Journal of the Acoustical Society of
America, 11, 434 - 439.
Bachem, A. (1948). Chroma fixation at the ends of the musical frequency scale. Journal of
the Acoustical Society of America, 20, 704 -705.
Bachem, A. (1954). Factores temporales en la determinación del tono relativo y absoluto.
Journal of the Acoustical Society of America,
- 26, 751 753.
Bachem, A. (1955). Absolute pitch. Journal of the Acoustical Society of America, 27, 1180
1185.-
Baggaley, J. (1974). Medición del tono absoluto: un campo confuso. Psychology of Music, 2,
11 17.-
Baharloo, S., Johnston, P. A., Service, S. K., Gitschier, J., & Freimer, N. B. (1998). Absolute
pitch: an approach for identification of genetic and nongenetic components. American
Journal of Human Genetics, 62, 224 - 231.
Baharloo, S., Service, S. K., Risch, N., Gitschier, J., & Freimer, N. B. (2000). Agregación
familiar del tono absoluto. American Journal of Human Genetics, 67, 755 758.-
Baird, J. W. (1917). Memory for absolute pitch. En E. C. Sanford (Ed.), Studies in psychol-
ogy, Titchener commemorative volume (pp. 43 - 78). Worcester, MA: Wilson.
Balzano, G. J. (1984). Absolute pitch and pure tone identification. Journal of the Acoustical
Society of America, 75, 623 -625.
Barlow, H., & Morgenstern, S. (2008). Diccionario electrónico de temas musicales.
Biblioteca multimedia .
Bates, E. (1992). Desarrollo del lenguaje. Current Opinion in Neurobiology, 2, -180 185.
Benguerel, A., y Westdal, C. (1991). Absolute pitch and the perception of sequential musi-
cal. Music Perception, 9, 105 119. -
Bergeson, T. R., y Trehub, S. E. (2002). Absolute pitch and tempo in mothers' songs to
infants. Psychological Science, 13, 72 -
75.
Bermúdez, P., & Zatorre, R. J. (2005). Conditional associative memory for musical stimuli in
nonmusicians: implications for absolute pitch. Journal of Neuroscience, 25, 7718 7723.
Bermúdez,-P., & Zatorre, R. J. (2009a). La distribución de la capacidad de afinación absoluta
-
revelada por pruebas computarizadas. Percepción Musical, 27, 89 101.
Bermúdez, P., & Zatorre, R. J. (2009b). La mente de tono absoluto sigue revelándose.
Journal of Biology, 8, 75. doi:10.1186/jbiol171
Besner, D., & McCann, R. S. (1987). Frecuencia de palabras y distorsión de patrones en la
identificación y producción visual de palabras: un examen de cuatro clases de modelos.
En M.
198 Diana Deutsch
Doupe, A. J., & Kuhl, P. K. (1999). Birdsong and human speech: common themes and
mechanisms. Annual Review of Neuroscience, 22, 567 - 631.
Drayna, D. T. (2007). El tono absoluto: Un grupo especial de oídos. Proceedings of the
National Academy of Sciences, U.S.A, 104, - 14549 14550.
Duchowny, M., Jayakar, P., Harvey, A. S., Resnick, T., Alvarez, L., & Dean, P., et al. (1996).
Language cortex representation: effects of developmental versus acquired pathology.
Annals of Neurology, 40, 31 38. -
Edmondson, J. A., Chan, J.-L., Seibert, G. B., & Ross, E. D. (1987). The effect of right brain
damage on acoustical measures of affective prosody in Taiwanese patients. Journal of
Phonetics, 15, 219 -233.
Fujimoto, A., Enomoto, T., Takano, S., & Nose, T. (2004). Pitch perception abnormality as a
-
side effect of carbamazepine. Journal of Clinical Neuroscience, 11, 69 70.
Fujisaki, W., y Kashino, M. (2002). Las capacidades auditivas básicas de los poseedores del tono
absoluto.
Acoustical Science and Technology, 23, 77 - 83.
Gaab, N., Schulze, K., Ozdemir, E., & Schlaug, G. (2006). Neural correlates of absolute pitch
differ between blind and sighted musicians. NeuroReport, 17, 1853 1857. -
Gandour, J., y Dardarananda, R. (1983). Identificación de contrastes tonales en pacientes
- 18, 98 114.
afásicos tailandeses. Brain and Language,
Gandour, J., Ponglorpisit, S., Khunadorn, F., Dechongkit, S., Boongird, P., & Boonklam, R.,
et al. (1992). Lexical tones in Thai after unilateral brain damage. Brain and Language,
43, 275- 307.
Gandour, J., Wong, D. y Hutchins, G. (1998). Pitch processing in the human brain is influ-
enced by language experience. Neuroreport, 9, 2115 - 2119.
Geschwind, N., y Fusillo, M. (1966). Defectos de denominación de colores en asociación con la
alexia.
Archivos de Neurología, 15, 137-146.
Geschwind, N., y Levitsky, W. (1968). Human brain: left-right asymmetries in temporal
speech region. Science, 161, 186 -187.
Giangrande, J. (1998). La paradoja del tritono: efectos de la clase de tono y la posición de la
-
envolvente espectral. Percepción musical, 15, 253 264.
Gorelick, P. B., & Ross, E. D. (1987). The aprosodias: further functional-anatomic evidence
for organization of affective language in the right hemisphere. Revista de Neurología,
Neurocirugía y Psiquiatría, 50, 553 560.-
Gough, E. (1922). The effects of practice on judgments of absolute pitch. Archives of
Psychology, 7, 1 -93.
Gougoux, F., Lepore, F., Lassonde, M., Voss, P., Zatorre, R. J., & Belin, P. (2004). Pitch dis-
crimination in the early blind. Nature, 430, 309.
Gregersen, P. K., Kowalsky, E., Kohn, N., & Marvin, E. W. (1999). Absolute pitch: preva-
lence, ethnic variation, and estimation of the genetic component. American Journal of
Human Genetics, 65, 911 - 913.
Gregersen, P. K., Kowalsky, E., Kohn, N., & Marvin, E. W. (2001). Early childhood music
education and predisposition to absolute pitch: teasing apart genes and environment.
American Journal of Medical Genetics, 98, 280 - 282.
Gussmack, M. B., Vitouch, O., & Gula, B. (2006). El tono absoluto latente: ¿Una capacidad
ordinaria? En M. Baroni, A. R. Addessi, R. Caterina, & M. Costa (Eds.), Proceedings of
the 9th International Conference on Music Perception and Cognition (pp. 1408-1412).
Bolonia, Italia: Bononia University Press.
Halpern, A. R. (1989). Memory for the absolute pitch of familiar songs. Memory and
Cognition, 17, 572-581.
5. Paso absoluto 201
Hamilton, R. H., Pascual-Leone, A., & Schlaug, G. (2004). Absolute pitch in blind musi-
cians. NeuroReport, 15, 803 - 806.
Hantz, E. C., Kreilick, K. G., Braveman, A. L., & Swartz, K. P. (1995). Effects of musical
training and absolute pitch on a pitch memory task an event-related-potential study.
Psychomusicology, 14, 53 - 76.
Heaton, P. (2003). Pitch memory, labelling and disembedding in autism. Journal of Child
Psychology and Psychiatry, 44, 1 - 9.
Heaton, P. (2005). Procesamiento de intervalos y contornos en el autismo. Revista de autismo
y trastornos del desarrollo, 8, 1-7.
Heaton, P. (2009). Evaluación de las habilidades musicales en niños autistas que no son
savants.
Philosophical Transactions of the Royal Society B, 364, 1443 1447.
-
Heaton, P., Hermelin, B., & Pring, L. (1998). Autism and pitch processing: a precursor for
savant musical ability? Music Perception, 15, 291 - 305.
Heaton, P., Williams, K., Cummins, O., & Happe, F. (2008). El autismo y el procesamiento de
- 12, 203 219.
tono astillas habilidades. Autismo,
Heller, M. A., y Auerbach, C. (1972). Practice effects in the absolute judgment of fre- quency.
Psychonomic Science, 26, 222 224. -
Henthorn, T., y Deutsch, D. (2007). Etnia versus entorno temprano: Comentario sobre 'Early
Childhood Music Education and Predisposition to Absolute Pitch: Teasing Apart Genes and
Environment' de Peter K. Gregersen, Elena Kowalsky, Nina Kohn y Elizabeth West Marvin
[2000]. American Journal of Medical Genetics, 143A, 102 - 103.
Hess, E. H. (1973). Imprinting: Early experience and the developmental psychobiology of
attachment. Nueva York, NY: Van Nordstrand Reinhold.
Hickok, G., & Poeppel, D. (2007). La organización cortical del procesamiento del habla.
Nature Reviews Neuroscience,-8, 393 402.
Hirose, H., Kubota, M., Kimura, I., Ohsawa, M., Yumoto, M., & Sakakihara, Y. (2002). Las
personas con tono absoluto procesan tonos con producción de P300. Neuroscience
- 247 250.
Letters, 330,
Hsieh, I.-H., & Saberi, K. (2007). Temporal integration in absolute identification of musical
pitch. Hearing Research, 233, 108 - 116.
Hsieh, I.-H., & Saberi, K. (2008). Language-selective interference with long-term memory for
musical pitch. Acta Acustica unida a Acustica, 94, 588 593. -
Hubel, D. H., & Wiesel, T. N. (1970). The period of susceptibility to the physiological effects
of unilateral eye closure in kittens. Journal of Physiology, 206, 419 436. -
Hughes, C. P., Chan, J. L., & Su, M. S. (1983). Aprosodia en pacientes chinos con lesiones
del hemisferio cerebral derecho . Archives of Neurology, 40, - 732 736.
Huron, D. (2006). Sweet anticipation. Cambridge, MA: MIT Press.
Itoh, K., Suwazono, S., Arao, H., Miyazaki, K. y Nakada, T. (2005). Electrophysiological
correlates of absolute pitch and relative pitch. Cerebral Cortex, 15, 760 769.
-
Ja¨rvinen-Pasley, A., Wallace, G. L., Ramus, F., Happe, F., & Heaton, P. (2008). Enhanced
-
perceptual processing of speech in autism. Developmental Science, 11, 109 121.
Johnson, J. S., y Newport, E. L. (1989). Critical periods in second language learning: the
influence of maturational state on the acquisition of English as a second language.
Cognitive Psychology, 21, 60 - 99.
Jun, J., Kim, J., Lee, H., & Jun, S. -A. (2006). The prosodic structure and pitch accent of
Coreano Kyungsang del Norte. Journal of East Asian Linguistics, 15, 289-317.
Kanner, L. (1943). Alteraciones autistas del contacto afectivo. El niño nervioso, 2, 217-250.
202 Diana Deutsch
Keenan, J. P., Thangaraj, V., Halpern, A. R., & Schlaug, G. (2001). Absolute pitch and pla-
num temporale. NeuroImage, 14, 1402 - 1408.
Klein, M., Coles, M. G. H., & Donchin, E. (1984). Las personas con tono absoluto procesan
- 1309.
los tonos sin producir un P300. Science, 223, 1306
Knudsen, E. I. (1988). Sensitive and critical periods in the development of sound localiza-
tion. En S. S. Easter, K. F. Barald, & B. M. Carlson (Eds.), From message to mind:
Directions in developmental neurobiology. Sunderland, MA: Sinauer Associates.
Konno, S., Yamazaki, E., Kudoh, M., Abe, T., & Tohgi, H. (2003). Half pitch lower sound
perception caused by carbamazepine. Internal Medicine, 42, 880 883.-
Kuhl, P. K. (1991). Human adults and human infants show a 'perceptual magnet effect' for the
prototypes of speech categories, monkeys do not. Percepción y Psicofísica, 50,
93-107.
Kuhl, P., Williams, K., Lacerda, F., Stevens, K., & Lindblom, B. (1992). Linguistic experi-
-
ence alters phonetic perception in infants by 6 months of age. Science, 255, 606 608.
Lane, H. L. (1976). The wild boy of Aveyron. Cambridge, MA: Harvard University Press. Lee,
C.-Y., & Lee, Y.-F. (2010). Perception of musical pitch and lexical tones by Mandarin-
músicos hablantes. Journal of the Acoustical Society of America, 127, 481 490.-
Lenhoff, H. M., Perales, O., & Hickok, G. (2001). Tono absoluto en el síndrome de Williams.
Percepción musical, 18, 491 - 503.
Lennenberg, E. H. (1967). Fundamentos biológicos del lenguaje. New York, NY: Wiley.
Levitin, D. J. (1994). Absolute memory for musical pitch: evidence for the production of learned
melodies. Perception & Psychophysics, 56, 414 423. -
Levitin, D. J., y Rogers, S. E. (2005). Absolute pitch: Perception, coding, and controversies.
Trends in Cognitive Science, 9, 26 - 33.
Liebenthal, E., Binder, J. R., Spitzer, S. M., Possing, E. T., & Medler, D. A. (2005). Neural
substrates of phonemic perception. Cerebral Cortex, 15, 1621 - 1631.
Lockhead, G. R., y Byrd, R. (1981). Practically perfect pitch. Journal of the Acoustical
Society of America, 70, 387 - 389.
Loui, P., Li, H., Hohmann, A., & Schlaug, G. (2011). Enhanced cortical connectivity in
absolute pitch musicians: a model for local hyperconnectivity. Journal of Cognitive
Neuroscience, 23, 1015 - 1026.
Macmillan, N. A., Goldberg, R. F., & Braida, L. D. (1988). Resolution for speech sounds:
basic sensitivity and context memory on vowel and consonant continuous. Journal of the
Acoustical Society of America, 84, 1262 - 1280.
Marvin, E. W., & Brinkman, A. R. (2000). The effect of key color and timbre on absolute
pitch recognition in musical contexts. Music Perception, 18, 111 137.
-
Masataka, N. (2011). Enhancement of speech-relevant auditory acuity in absolute pitch
posessors. Fronteras de la Psicología,-2, 14.
Meyer, M. (1899). ¿Puede desarrollarse por entrenamiento la memoria del tono absoluto?
Psychological Review, 6, 514 - 516.
Miller, L. (1989). Musical savants: Exceptional skills in the mentally retarded. Hillsdale, NJ:
Erlbaum.
Miyazaki, K. (1988). Musical pitch identification by absolute pitch possessors. Perception &
Psychophysics, 44, 501 - 512.
Miyazaki, K. (1989). Absolute pitch identification: effects of timbre and pitch region. Music
Perception, 7, 1 -14.
Miyazaki, K. (1990). La velocidad de identificación del tono musical por los poseedores absolutos
del tono.
Percepción musical, 8, 177-188.
5. Paso absoluto 203
Pressnitzer, D., Patterson, R. D., & Krumbholz, K. (2001). El límite inferior del tono melódico.
Journal of the Acoustical Society of America, 109, 2074 2084.
-
Profita, J., y Bidder, T. G. (1988). Perfect pitch. American Journal of Medical Genetics, 29,
763- 771.
Ragozzine, R., y Deutsch, D. (1994). A regional difference in perception of the tritone para-
-
dox within the United States. Music Perception, 12, 213-225.
Rakowski, A. (1978). Investigaciones sobre el tono absoluto. En E. P. Asmus, Jr. (Ed.),
Proceedings of the Research Symposium on the Psychology and Acoustics of Music-(pp.
45 57). Lawrence: Universidad de Kansas.
Rakowski, A. (1993). Percepción categórica en el tono absoluto. Archivos de Acústica, 18,
515- 523.
Rakowski, A., y Miyazaki, K. (2007). Tono absoluto: rasgos comunes en la música y el lenguaje.
Archivos de Acústica, 32, 5 16.
-
Rakowski, A., y Morawska-Bungeler, M. (1987). En busca de los criterios del tono absoluto.
Archivos de Acústica, 12, 75 87.
-
Rakowski, A., y Rogowski, P. (2007). Experiments on long-term and short-term memory for
pitch in musicians. Archives of Acoustics, 32, 815-826.-
Repp, B. H., & Thompson, J. M. (2010). Context sensitivity and invariance in perception of
octave-ambiguous tones. Psychological Research, 74, 437 - 456.
Revesz, G. (1953). Introducción a la psicología de la música. Londres, Inglaterra: Longmans
Green.
Rimland, B., y Hill, A. (1984). Idiot savants. En J. Wortes (Ed.), Mental retardation and
developmental disabilities (pp. 155 - 169). New York, NY: Plenum Press.
Roder, B., Teder-Salejarvi, W., Sterr, A., Rosler, F., Hillyard, S. A., & Neville, H. J. (1999).
Mejora de la sintonización espacial auditiva en humanos ciegos. Nature,- 400, 162 165.
Rojas, D. C., Bawn, S. D., Benkers, T. L., Reite, M. L., & Rogers, S. J. (2002). Smaller left
he'misphe`re planum temporale in adults with autistic disorder. Neuroscience Letters,
328, 237- 240.
Rojas, D. C., Camou, S. L., Reite, M. L., & Rogers, S. J. (2005). Planum temporale volume in
children and adolescents with autism. Journal of Autism and Developmental Disorders,
35, 479 486. -
Ross, D. A., & Marks, L. E. (2009). Absolute pitch in children prior to the beginning of
musical training. Anales de la Academia de Ciencias de Nueva York, 1169,-199 204.
Ross, D. A., Olson, I. R., & Gore, J. C. (2003). Cortical plasticity in an early blind musician:
an fMRl study. Magnetic Resonance Imaging, 21, 821 - 828.
Ross, E. D. (1981). Las aprosodias: organización - anatómica funcional de los com- ponentes
afectivos del lenguaje en el hemisferio derecho. Archives of Neurology, 38, 561 - 569.
Russo, F. A., Windell, D. L., & Cuddy, L. L. (2003). Learning the "special note": evidence for
a critical period for absolute pitch acquisition. Music Perception, 21, 119 127.-
Saffran, J. R., y Griepentrog, G. J. (2001). Absolute pitch in infant auditory learning:
evidence for developmental reorganization. Developmental Psychology, 37, 74 85. -
Sakai, K. L. (2005). Adquisición del lenguaje y desarrollo cerebral. Science, 310, 815 - 819.
Schellenberg, E. G., y Trehub, S. E. (2003). Good pitch memory is widespread.
Psychological Science, 14, 262 - 266.
Schlaug, G., Ja¨ncke, L., Huang, Y., & Steinmetz, H. (1995). In vivo evidence of structural
brain asymmetry in musicians. Science, 267, 699 - 701.
Schulze, K., Gaab, N., & Schlaug, G. (2009). Perceiving pitch absolutely: comparing absolute
and relative pitch possessors in a pitch memory task. BMC Neuroscience, 10, 1471-
2202.
5. Paso absoluto 205
Scovel, T. (1969). Foreign accent, language acquisition, and cerebral dominance. Language
Learning, 19, 245 -253.
Seashore, C. E. (1940). Tono adquirido frente a tono absoluto. Music Education Journal, 26,
18. Semal, C., y Demany, L. (1990). El límite superior del tono "musical". Music Perception,
8,
165- 176.
Sargento, D. (1969). Experimental investigation of absolute pitch. Journal of Research in
Musical Education, 17, 135 - 143.
Siegel, J. A. (1972). La naturaleza del tono absoluto. En E. Gordon (Ed.), Experimental
research in the psychology of music: VIII. Studies in the psychology of music - (pp. 65 89).
Iowa City: Iowa University Press.
Siegel, J. A. (1974). Estrategias de codificación sensorial y verbal en sujetos con tono absoluto.
Revista de Psicología Experimental, 103, 37 44.-
Siegel, J. A., & Siegel, W. (1977). Absolute identification of notes and intervals by musi-
cians. Perception & Psychophysics, 21, 143 - 152.
Simpson, J., y Huron, D. (1994). Absolute pitch as a learned phenomenon: evidence consis-
tent with the Hick -Hyman Law. Music Perception, 12, 267 270. -
Smith, N. A., & Schmuckler, M. A. (2008). Dial A440 for absolute pitch: absolute pitch
memory by non-absolute pitch possessors. Journal of the Acoustical Society of America,
123, EL77 - EL84.
Spender, N. (1980). Absolute pitch. En S. Sadie (Ed.), The new Grove dictionary of music and
musicians (pp. 27 29).- London, England: Macmillan.
Stroop, J. R. (1935). Estudios de interferencia en reacciones verbales seriadas. Journal of
Experimental Psychology,
- 18, 643 662.
Takeuchi, A. H. (1989). Tono absoluto y tiempo de respuesta: The processes of absolute pitch
identification (Tesis de máster inédita). Universidad Johns Hopkins, Baltimore, MD.
Takeuchi, A. H., y Hulse, S. H. (1991). Absolute-pitch judgments of black and white-key
pitches. Music Perception, 9, 27 - 46.
Takeuchi, A. H., y Hulse, S. H. (1993). Absolute pitch. Psychological Bulletin, 113,
345- 361.
Tateno, A., Sawada, K., Takahashi, I., & Hujiwara, Y. (2006). Carbamazepine-induced tran-
-
sient auditory pitch-perception deficit. Pediatric Neurology, 35, 131 134.
Terhardt, E., y Seewann, M. (1983). Aural key identification and its relationship to absolute
pitch. Music Perception, 1, 63 - 83.
Terhardt, E., y Ward, W. D. (1982). Recognition of musical key: exploratory study. Journal
-
of the Acoustical Society of America, 72, 26 33.
Theusch, E., Basu, A., & Gitschier, J. (2009). Genome-wide study of families with absolute
pitch reveals linkage to 8q24.21 and locus heterogeneity. American Journal of Human
Genetics, 85, 112 -119.
Trehub, S. E., Schellenberg, E. G., & Nakata, T. (2008). Cross-cultural perspectives on pitch
memory. Journal of Experimental Child Psychology, 100, 40 52. -
Trout, J. D. (2003). Especializaciones biológicas para el habla: ¿qué pueden decirnos los
animales?
Current Directions in Psychological Science, 12, 155 - 159.
Tucker, D. M., Watson, R. T., & Heilman, K. M. (1977). Discrimination and evocation of
affectively intoned speech in patients with right parietal disease. Neurology, 27, 947 950.
-
van Krevelen, A. (1951). The ability to make absolute judgements of pitch. Journal of
Experimental Psychology, 42, 207 - 215.
Van Lancker, D., y Fromkin, V. (1973). Hemispheric specialization for pitch and "tone":
Evidence from Thai. Journal of Phonetics, 1, 101-109.
206 Diana Deutsch
Varyha-Khadem, F., Carr, L. J., Isaacs, E., Brett, E., Adams, C., & Mishkin, M. (1997). Onset of
speech after left hemispherectomy in a nine year old boy. Brain, 120,
159- 182.
Vernon, E. (1977). El tono absoluto: A case study. British Journal of Psychology, 83,
485- 489.
Vitouch, O. (2003). Los modelos absolutistas del tono absoluto son absolutamente engañosos.
Music Perception, 21,- 111 117.
Vitouch, O., & Gaugusch, A. (2000). Absolute recognition of musical keys in non-absolute-
pitch-possessors. En C. Woods, G. Luck, R. Brochard, F. Seddon, & J. A. Sloboda
(Eds.), Proceedings of the 6th International Conference on Music Perception and
Cognition [CD-ROM]. Keele, Reino Unido: Departamento de Psicología, Universidad
de Keele.
Wada, J. A., Clarke, R., & Harem, A. (1975). Cerebral hemispheric asymmetry in humans:
cortical speech zones in 100 adult and100 infant brains. Archivos de Neurología, 32,
239- 246.
Ward, W. D. (1999). Absolute pitch. En D. Deutsch (Ed.), The psychology of music
(pp. 265- 298). San Diego, CA: Academic Press.
Ward, W. D., y Burns, E. M. (1982). Absolute pitch. En D. Deutsch (Ed.), The psychology of
- San Diego, CA: Academic Press.
music (pp. 431 451).
Wayland, R. P., y Guion, S. G. (2004). Training English and Chinese listeners to perceive
Thai tones: a preliminary report. Language Learning, 54, 681 712.
-
Wayman, J. W., Frisina, R. D., Walton, J. P., Hantz, E. C., & Crummer, G. C. (1992). Effects
of musical training and absolute pitch ability on event-related activity in response to sine
tones. Journal of the Acoustical Society of America, 91, 3527 3531. -
Wedell, C. H. (1934). La naturaleza del juicio absoluto del tono. Journal of Experimental
Psychology, 17, 485 - 503.
Welch, G. F. (1988). Observations on the incidence of absolute pitch (AP) ability in the early
blind. Psychology of Music, 16, 77 -80.
Werker, J., y Lalonde, C. (1988). Cross-language speech perception: initial capabilities and
developmental change. Developmental Psychology, 24, 672 - 683.
Wilson, S. J., Lusher, D., Wan, C. Y., Dudgeon, P. y Reutens, D. C. (2009). The neurocog-
nitive components of pitch processing: insights from absolute pitch. Cerebral Cortex, 19,
724 732.-
Woods, B. T. (1983). ¿Está el hemisferio izquierdo especializado para el lenguaje al nacer?
- 6, 115 117.
Trends in Neuroscience,
Yabe, T., y Kaga, K. (2005). Prueba de lateralización del sonido en adolescentes ciegos.
Neuroreport, 16, 939 - 942.
Yoshikawa, H., & Abe, T. (2003). Carbamazepine-induced abnormal pitch perception. Brain
Development, 25, 127 - 129.
Young, R., y Nettlebeck, T. (1995). Las habilidades de un sabio musical y su familia.
Revista de Autismo y Trastornos del Desarrollo, 25, 229 245.
-
Zakay, D., Roziner, I., & Ben-Arzi, S. (1984). On the nature of absolute pitch. Archive fu¨r
Psychologie, 136, 163 - 166.
Zatorre, R. J. (2003). Absolute pitch: a model for understanding the influence of genes and
development on cognitive function. Nature Neuroscience, 6, 692 - 695.
Zatorre, R. J., Perry, D. W., Beckett, C. A., Westbury, C. F., & Evans, A. C. (1998).
Anatomía funcional del procesamiento musical en oyentes con tono absoluto y tono
relativo. Actas de la Academia Nacional de Ciencias, 95, 3172-3177.
6 Mecanismos de agrupación en la
música
Diana Deutsch
Departamento de Psicología, Universidad de California, San
Diego, La Jolla, California
I. Introducción
La música nos proporciona un espectro acústico complejo y cambiante, a menudo
derivado de la superposición de sonidos de muchas fuentes distintas. Nuestro
sistema auditivo tiene la tarea de analizar este espectro para reconstruir los eventos
sonoros que lo originan, una tarea que suele denominarse análisis de escena auditiva
(Bregman, 1990). Esta tarea es análoga a la que realiza nuestro sistema visual
cuando interpreta el mosaico de luz que incide en la retina en términos de objetos
percibidos visualmente. Helmholtz (1909, 1911/1925) propuso en el siglo pasado
que la percepción era un proceso de "inferencia inconsciente",
- y veremos que
muchos fenómenos de la percepción musical pueden considerarse desde esta
perspectiva. Aquí se plantean varias cuestiones. En primer lugar, dado que a nuestro
sistema auditivo se le presenta un conjunto de elementos de bajo nivel, podemos
explorar las formas en que éstos se combinan para formar agrupaciones separadas.
Si todos los elementos de bajo nivel estuvieran unidos indiscriminadamente, no
podrían realizarse operaciones auditivas de reconocimiento de formas. Por tanto,
debe existir un conjunto de mecanismos que nos permitan formar vínculos entre
algunos elementos de bajo nivel y nos impidan formar
vínculos entre otros.
Al examinar estos vínculos, podemos seguir dos líneas de investigación. La
primera se refiere a las dimensiones en las que operan los principios de agrupación.
Cuando se le presenta un patrón complejo, el sistema auditivo agrupa los elementos
según alguna regla basada en la frecuencia, la amplitud, el tiempo, la ubicación
espacial o algún atributo multidimensional como el timbre. Como veremos,
cualquiera de estos atributos puede servir de base para la agrupación; sin embargo,
las condiciones que determinan qué atributo se sigue son complejas.
En segundo lugar, suponiendo que la organización tenga lugar sobre la base de
alguna dimensión como el tono, podemos indagar en los principios que rigen la
agrupación a lo largo de esta dimensión. Los primeros psicólogos de la Gestalt
propusieron que agrupamos los elementos en configuraciones basándonos en varias
reglas sencillas (Wertheimer, 1923). Una de ellas es la proximidad: los elementos
208 Diana Deutsch
más cercanos se agrupan con preferencia a los más alejados. Un ejemplo es la figura
1a, en la que los puntos más cercanos se agrupan perceptualmente por parejas. Otra
es la similitud: al ver la Figura 1b,
C
B
b c
percibimos un conjunto de filas verticales formado por los círculos rellenos y otro
formado por los círculos sin rellenar. Una tercera, la buena continuación, afirma que
los elementos que se suceden en una dirección determinada están perceptualmente
unidos entre sí: Agrupamos los puntos de la Figura 1c de modo que formen las dos
líneas AB y CD. El cuarto, el destino común, establece que los elementos que
cambian de la misma manera están perceptualmente vinculados entre sí. Como
quinto principio, tendemos a formar agrupaciones para percibir configuraciones que
nos son familiares.
Es razonable suponer que la agrupación conforme a tales principios nos permite
interpretar nuestro entorno de la manera más eficaz. En el caso de la visión, es más
probable que los elementos cercanos pertenezcan al mismo objeto que los más
alejados. El mismo razonamiento se aplica a los elementos similares y no a los
diferentes. En el caso de la audición, es probable que los sonidos similares procedan
de una fuente común y los sonidos diferentes, de fuentes distintas. Una secuencia
que cambia suavemente de frecuencia probablemente procede de una sola fuente,
mientras que una transición brusca de frecuencia puede reflejar la presencia de una
nueva fuente. Es probable que los componentes de un espectro complejo que surgen
de forma sincronizada procedan de la misma fuente, y la adición repentina de un
nuevo componente puede señalar la aparición de una nueva fuente.
Como cuestión relacionada, podemos preguntarnos si la agrupación perceptiva de
elementos como la frecuencia y la localización espacial resulta de la acción de un
mecanismo de decisión único y global o de múltiples mecanismos de decisión, cada
uno con sus propios criterios de agrupación. Como se describirá más adelante, las
pruebas demuestran que las decisiones de agrupación no las toma un sistema único e
internamente coherente, sino más bien varios subsistemas diferentes, que en algún
momento actúan independientemente unos de otros y pueden llegar a conclusiones
incoherentes. Por ejemplo, los elementos sonoros que se asignan a las distintas
fuentes para determinar el tono percibido pueden diferir de los que se asignan para
determinar el timbre, el volumen y la ubicación percibidos. A partir de estos
resultados, debemos concluir que la organización perceptiva en la música implica un
proceso en el que los elementos se agrupan primero de varias formas para asignar
valores a diferentes atributos por separado, y que a esto le sigue un proceso de
síntesis perceptiva en el que se combinan los diferentes valores de los atributos.
Como resultado de este proceso de dos etapas, los diferentes valores de los atributos
a veces se combinan incorrectamente, de modo que se producen conjunciones
ilusorias (cf. Deutsch, 1975a, 1975b, 1981, 2004; Deutsch, Hamaoui, & Henthorn,
2007; Deutsch & Roll, 1976). Por lo tanto, el análisis auditivo de escenas no puede
considerarse el producto de un sistema único e internamente coherente, sino más
6. Mecanismos de agrupación en la 185
música
bien el producto de múltiples sistemas cuya
186 Diana Deutsch
Los resultados son a veces incoherentes entre sí (véase también Hukin y Darwin,
1995a; Darwin y Carlyon, 1995).
Por otra parte, la agrupación de elementos sonoros en la música implica no sólo
la creación de rasgos de bajo nivel, como los tonos, sino también la conjunción de
estos rasgos en niveles superiores para formar intervalos, acordes, relaciones de
duración y patrones rítmicos, así como frases y grupos de frases (véase también el
capítulo 7). Como veremos, la agrupación auditiva es la función de un sistema muy
elaborado y polifacético, cuyas complejidades son cada vez más evidentes.
Ahora bien, hay muchas circunstancias que nos ayudan, en primer lugar, a
separar los tonos musicales que surgen de diferentes fuentes y, en segundo lugar,
a mantener juntos los tonos parciales de cada fuente separada. Así, cuando un
tono musical se escucha durante algún tiempo antes de que se le una el segundo,
y luego el segundo continúa después de que el primero ha cesado, la separación
en el sonido se ve facilitada por la sucesión en el tiempo. Ya hemos oído el primer
tono musical por sí mismo y por lo tanto sabemos inmediatamente lo que
tenemos que deducir del efecto compuesto por el efecto de este primer tono.
Incluso cuando varias partes proceden al mismo ritmo en la música polifónica, el
modo en que los tonos de los diferentes instrumentos y voces comienzan, la
naturaleza de su aumento en fuerza, la certeza con la que se mantienen y la
manera en que se apagan, son generalmente ligeramente diferentes para cada
uno. Cuando un tono compuesto
comienza a sonar, todos sus tonos parciales comienzan con la misma fuerza
comparativa; cuando se hincha, todos ellos generalmente se hinchan de manera
6. Mecanismos de agrupación en la 187
música
uniforme; cuando cesa, todos cesan simultáneamente. De ahí que generalmente
no haya oportunidad de oírlos por separado e independientemente. (pp. 59-60)
188 Diana Deutsch
A. Efectos de la armonicidad
Los tonos de los instrumentos musicales nos proporcionan muchos ejemplos de
agrupación perceptiva por armonicidad. Los instrumentos de cuerda y viento
producen tonos cuyos parciales son armónicos, o casi armónicos, y dan lugar a
impresiones de tono muy fusionadas. En cambio, las campanas y los gongs producen
tonos cuyos parciales no son armónicos y dan lugar a impresiones de tono difusas.
El efecto de la armonicidad se ha explorado en numerosos experimentos con tonos
sintetizados (Carlyon, 2004; Carlyon y Gockel, 2007; Darwin, 2005a; Darwin y
Carlyon, 1995).
¿Hasta qué punto puede un solo componente de un tono complejo desviarse de la
armonicidad y seguir agrupándose con los demás componentes para determinar el
tono percibido? Moore, Glasberg y Peters (1985) hicieron que los sujetos juzgaran
los tonos de tonos complejos armónicos y examinaron los efectos de la desafinación
de uno de los armónicos en distintos grados. Cuando el armónico estaba desajustado
en menos de un 3%, contribuía plenamente al tono del complejo. A medida que el
grado de desajuste aumentaba por encima del 3%, la contribución de este
componente disminuía gradualmente y, con un desajuste del 8%, el componente
prácticamente no contribuía al tono del complejo.
Sin embargo, el efecto de un armónico mal afinado puede variar cambiando su
relación con el resto del complejo (Darwin, 2005a). En un experimento, se presentó
a los sujetos un tono armónico complejo que contenía un armónico desafinado.
Cuando este armónico estaba sincronizado con los demás, el tono percibido del
complejo se desplazaba ligeramente. Sin embargo, cuando el armónico desafinado
entraba suficientemente antes que los demás, ya no contribuía al tono del complejo
(véase también Darwin y Ciocca, 1992; Ciocca y Darwin, 1999). Además, cuando el
complejo iba precedido de una secuencia de cuatro tonos con la misma frecuencia
que el armónico desintonizado, el cambio de tono volvía a desaparecer, lo que
indicaba que el armónico desintonizado había formado una corriente separada con
los tonos precedentes. Además, cuando todos los armónicos del complejo (incluido
el mal afinado) recibían un vibrato común, se necesitaban mayores cantidades de
desafinación para eliminar la contribución del armónico desafinado al tono del
complejo, lo que indicaba que el vibrato común había hecho que los armónicos se
unieran de forma más eficaz (Darwin, Ciocca y Sandell, 1994).
Huron (1991b, 2001) ha relacionado los hallazgos sobre armonicidad y fusión
espectral con la música polifónica. Uno de los objetivos de este tipo de música es
mantener la independencia perceptiva de las voces concurrentes. En un análisis de
una muestra de obras polifónicas para teclado de J. S. Bach, Huron demostró que los
intervalos armónicos se evitaban en proporción a la fuerza con la que promovían la
fusión tonal. Concluyó que Bach había utilizado esta estrategia para optimizar la
prominencia de las voces individuales en estas composiciones.
Los compositores también se han centrado en la creación de fusiones perceptivas
de tonos simúltaneos para dar lugar a timbres únicos. Por ejemplo, en la apertura de
la Sinfonía inacabada de Schubert, el oboe y el clarinete tocan al unísono, con el
resultado (suponiendo que los intérpretes tocan en estricta sincronía) de que los
oyentes escuchan un sonido fusionado con un timbre único que parece emanar de un
solo instrumento. Más recientemente, los compositores han experimentado a
menudo con sonidos producidos por
6. Mecanismos de agrupación en la 189
música
se construye sobre una fundamental de 200 Hz. Supongamos que empezamos con el
componente de 200 Hz sonando solo, 1 s después añadimos el componente de 400
Hz, 1 s después añadimos el componente de 600 Hz, y así sucesivamente, hasta que
todos los componentes suenan juntos. A medida que entra cada componente, su tono
se oye inicialmente como formando una entidad distinta, y luego se desvanece
gradualmente de la percepción, de modo que finalmente sólo se percibe un tono que
corresponde a la fundamental.
Incluso un cambio transitorio en la amplitud de un componente puede aumentar
su prominencia perceptiva. Si un armónico concreto de un tono complejo se omite y
se restablece alternativamente, puede destacarse como un tono puro, audible por
separado del resto del complejo, e incluso puede oírse durante un breve espacio de
tiempo después de volver a activarse (Hartmann y Goupell, 2006; Houtsma, Rossing
y Wagenaars, 1987).
Darwin y Ciocca (1992) han demostrado que la asincronía de inicio puede influir
en la contribución de un armónico mal afinado al tono de un complejo. Descubrieron
que un armónico mal afinado contribuía menos al tono percibido cuando se
adelantaba a los demás en más de 80 ms, y no contribuía cuando se adelantaba a los
demás en 300 ms. Posteriormente, Ciocca y Darwin (1999) observaron que un
armónico mal afinado contribuía en mayor medida al tono de un sonido objetivo
cuando se producía después del inicio del objetivo que cuando precedía a su inicio.
La asincronía de inicio también puede afectar a la contribución de un armónico al
timbre percibido de un complejo. Darwin (1984) descubrió que cuando un solo
armónico de una vocal cuya frecuencia era próxima a la del primer formante
aventajaba a los demás en unos 30 ms, se producía una alteración en la forma en que
se percibía el formante; esta alteración era similar a la que se producía cuando se
eliminaba el armónico del cálculo del formante.
Curiosamente, Darwin y sus colegas descubrieron que la cantidad de asincronía
de inicio necesaria para alterar la contribución de un armónico al tono percibido era
mayor que la necesaria para alterar su contribución a la calidad vocálica percibida.
Hukin y Darwin (1995a) demostraron que esta discrepancia no podía atribuirse a
diferencias en los parámetros de la señal, sino más bien a la naturaleza de la tarea
perceptiva en la que estaba inmerso el sujeto; argumentando de nuevo, como
hicieron Darwin y Carlyon (1995), que tales disparidades reflejan la operación de
múltiples mecanismos de decisión en el proceso de agrupación que pueden actuar
independientemente unos de otros.
También se ha demostrado que la asincronía de inicio tiene efectos de nivel
superior. En un experimento, Bregman y Pinker (1978) presentaron a los sujetos un
complejo de dos tonos en alternancia con un tercer tono, y estudiaron los efectos de
la asincronía de inicio y fin entre los tonos simultáneos. A medida que aumentaba el
grado de asincronía de inicio, se juzgaba que el timbre del tono complejo era más
puro, y aumentaba la probabilidad de que uno de los tonos del complejo formara una
corriente melódica con el tercer tono (véase también Deutsch, 1979, analizado en la
Sección VI,A).
Hasta ahora, hemos considerado los efectos de la asincronía de inicio en la
agrupación de componentes de tonos complejos individuales; sin embargo, las
asincronías también influyen en la agrupación de complejos de tonos enteros.
Específicamente, cuando dos tonos complejos se presentan juntos, son
192 Diana Deutsch
perceptualmente más distintos cuando sus inicios son asíncronos. Rasch (1978)
presentó a los sujetos pares simultáneos de tonos complejos
6. Mecanismos de agrupación en la 193
música
Cada 10 ms de retraso del tono inferior se asociaba con una reducción aproximada
de 10 dB en el umbral de detección, y con un retraso de 30 ms, el umbral de
percepción del tono superior era aproximadamente el mismo que cuando se
presentaba solo. Además, cuando los inicios de los tonos superior e inferior estaban
sincronizados, se oía un único sonido fusionado; sin embargo, cuando se introducían
disparidades en el inicio, los tonos sonaban muy distintos perceptualmente.
Rasch (1988) aplicó posteriormente estos resultados a las actuaciones de
conjuntos en directo. Realizó grabaciones de tres conjuntos de trío diferentes
(cuerda, caña y flauta dulce) y calculó las relaciones de inicio entre tonos que eran
nominalmente simúltaneos. Obtuvo valores de asincronía que oscilaban entre 30 y
50 ms, con una asincronía media de 36 ms. Al relacionar estos resultados con los
que había obtenido anteriormente sobre la percepción, Rasch llegó a la conclusión
de que tales asincronías de inicio permitían al oyente oír los tonos simultáneos como
distintos entre sí. Según esta línea de razonamiento, tales asincronías no deberían
considerarse fallos de rendimiento, sino más bien características útiles para permitir
a los oyentes oír las voces simultáneas de forma distinta.
A partir de estos resultados, cabría esperar que una gran asincronía favoreciera la
separación de las voces en un conjunto. Por lo tanto, se podría hipotetizar que la
práctica compositiva explotaría este efecto, al menos en la música polifónica, donde
se pretende que las voces individuales se oigan claramente. Huron (1993, 2001)
obtuvo pruebas de esta hipótesis en un análisis de las 15 invenciones a dos voces de
Bach. Encontró (controlando la duración, el orden rítmico y la métrica) que para 11
de las invenciones, ninguna otra permutación de los ritmos de las voces habría
producido más asincronía de inicio que la que se produjo en la música real de Bach.
En las 4 invenciones restantes, los valores de asincronía seguían siendo
significativamente superiores a los que cabría esperar del azar. Huron llegó a la
conclusión de que Bach había producido deliberadamente tales asincronías de inicio
para optimizar la prominencia perceptiva de las voces individuales en estas
composiciones.
C. Continuidad auditiva
La continuidad auditiva es un efecto dramático que puede resultar de disparidades
temporales dentro de complejos tonales. Este efecto es importante para la
interpretación de nuestro entorno natural, donde las señales sonoras suelen estar
enmascaradas por otros sonidos. Para mantener una representación estable del
mundo auditivo, nuestro sistema perceptivo necesita restaurar las partes
enmascaradas de cada sonido, estimando sus características basándose en otros
sonidos que se producen antes, durante y después del sonido enmascarante. El efecto
de continuidad está muy extendido y se ha demostrado que se produce en especies
no humanas como los gatos (Sugita, 1997), los monos (Petkov, O'Connor y Sutter,
2003) y las aves (Braaten y Leary, 1999; Seeba y Klump, 2009), así como en
oyentes humanos (Houtgast, 1972; Miller y Licklider, 1950; Vicario, 1960; Warren,
Obusek y Ackroff, 1972).
Consideremos el análogo visual que se muestra en la parte superior de la figura 2.
La línea A podría, en principio, verse en términos de tres componentes: una línea a
la izquierda
194 Diana Deutsch
del rectángulo, una línea a su derecha y una línea que forma parte del propio
rectángulo. Sin embargo, nuestro sistema visual trata los tres componentes como una
sola línea, que es independiente de las demás partes del rectángulo. Vicario (1982)
realizó un equivalente musical de esta demostración. Generó un acorde que constaba
de componentes correspondientes a C4 , Dx4 , Fx4 , A4 , C5 , Dx5 , y Fx5 ; con
A4 tanto precede como sigue a los demás componentes. Al igual que la línea A de la
figura 2
se ve como si continuara a través del rectángulo, por lo que un tono correspondiente
a A4 se oye como si continuara a través del acorde.
El efecto de continuidad es sensible a los parámetros temporales precisos de los
distintos componentes. Volviendo al análogo visual de Vicario, cuando las líneas
que forman el rectángulo se alargan y las líneas situadas a su izquierda y derecha se
acortan, como en la parte inferior de la Figura 2, la impresión de continuidad se
reduce. Del mismo modo, cuando se reduce la duración del componente alargado del
acorde y se aumenta la duración del acorde completo, disminuye la impresión de
continuidad.
Una demostración interesante de la continuidad auditiva la proporcionó
Dannenbring (1976), que generó un deslizamiento de tono puro que subía y bajaba
repetidamente. En algunas condiciones, el deslizamiento era interrumpido
periódicamente por un ruido fuerte de banda ancha; sin embargo, se percibía como si
fuera continuo. En cambio, cuando el deslizamiento se interrumpía periódicamente,
dejando sólo intervalos silenciosos durante las pausas, los oyentes escuchaban una
serie disyunta de deslizamientos ascendentes y descendentes. En la figura 3 se
muestran los análogos visuales de estas dos condiciones y sus consecuencias
perceptivas.
Las caídas repentinas de amplitud entre las señales y las ráfagas de ruido
6. Mecanismos de agrupación en la 195
música
intermedias pueden reducir, o incluso destruir, los efectos de continuidad (Bregman
& Dannenbring 1977; Warren et al., 1972); sin embargo, esto no ocurre
necesariamente. Por ejemplo, los tonos producidos por instrumentos punteados se
caracterizan por rápidos aumentos seguidos de disminuciones de
196 Diana Deutsch
Frecuencia logarítmica
(semitonos)
Tiempo
que cuando los armónicos de una vocal reciben un vibrato, también sufren una
modulación de amplitud (AM) que traza la envolvente espectral de la vocal. De este
modo, se proporciona al oyente más