The-Psychology-Of-Music-1 es-ES

Psicología de la música
Tercera edición
Psicología de la música
Tercera edición
Editado por
Diana Deutsch
Departamento de Psicología
Universidad de California, San
Diego La Jolla, California
AMSTERDAM e BOSTON e HEIDELBERG e LONDRES e NUEVA

YORK OXFORD e PARIS e SAN DIEGO e SAN FRANCISCO e
SINGAPUR SYDNEY e TOKIO
Academic Press es un sello de Elsevier
Academic Press es un sello de Elsevier
32 Jamestown Road, Londres NW1 7BY, Reino
Unido 225 Wyman Street, Waltham, MA 02451,
EE.UU.
525 B Street, Suite 1800, San Diego, CA 92101-4495, EE.UU.
Copyright © 2013, 1999, 1982 Elsevier Inc. Todos los derechos
reservados
Ninguna parte de esta publicación puede ser reproducida, almacenada en un sistema de

recuperación de datos o transmitida de ninguna forma ni por ningún medio electrónico,
mecánico, de fotocopia, de grabación o de otro tipo sin el permiso previo por escrito del
editor.
Los permisos pueden solicitarse directamente al Departamento de Derechos de Ciencia y

Tecnología de Elsevier en Oxford, Reino Unido: teléfono (144) (0) 1865 843830; fax (144)
(0) 1865 853333;correo electrónico: permissions@elsevier.com. Si desea más información,
visite el sitio web de Science and Technology Books: www.elsevierdirect.com/rights.
Aviso
El editor no asume responsabilidad alguna por lesiones o daños a personas o bienes
derivados de la responsabilidad civil por productos defectuosos, negligencia u otros
motivos, ni por el uso o utilización de los productos.
funcionamiento de los métodos, productos, instrucciones o ideas contenidos en este material.
Debido a los rápidos avances de las ciencias médicas, en particular, debe realizarse una
verificación independiente de los diagnósticos y las dosis de los medicamentos.
Datos de catalogación de la Biblioteca Británica

La British Library dispone de una ficha catalográfica de este libro
Biblioteca del Congreso Cataloging-in-Publication Data

La ficha catalográfica de este libro está disponible en la Biblioteca del
Congreso ISBN: 978-0-12-381460-9
Para obtener información sobre todas las

publicaciones de Academic Press, visite nuestro sitio
web elsevierdirect.com
Composición tipográfica: MPS Limited,
Chennai, India www.adi-mps.com
Impreso y encuadernado en Estados Unidos de
América 12 13 14 15 16 10 9 8 7 6 5 4 3 2 1
Lista de colaboradores
Los números entre paréntesis indican las páginas en las que comienzan las
contribuciones de los autores.
Steven M. Demorest (647), Universidad de Washington, Escuela de Música,

Seattle, Washington 98195
Diana Deutsch (141, 183, 249), Departamento de Psicología, Universidad de

California, San Diego, La Jolla, California, 92093-0109
Robert O. Gjerdingen (683), Bienen School of Music, Northwestern University,

Evanston, Illinois 60208
Erin E. Hannon (423), Departamento de Psicología, Universidad de Nevada, Las

Vegas, Nevada 89154-5030
Henkjan Honing (369), Institute for Logic, Language and Computation (ILLC),
Center for Cognitive Science Amsterdam (CSCA), Universiteit van Amsterdam,
1090 GE Amsterdam, Países Bajos
Patrik N. Juslin (583), Departamento de Psicología, Universidad de Uppsala, SE-

75142 Uppsala, Suecia
Stephen McAdams (035), CIRMMT, Escuela de Música Schulich, Universidad

McGill, Montreal, Quebec H3A 1E3, Canadá
Andrew J. Oxenham (001), Departamento de Psicología, Universidad de

Minnesota, Minneapolis, Minnesota 55455-0344
Caroline Palmer (405), Departamento de Psicología, Universidad McGill,

Montreal, Quebec H3A 1B1, Canadá
Aniruddh D. Patel (647), Departamento de Psicología, Universidad de Tufts,

Medford, Massachusetts 02155
Isabelle Peretz (551), BRAMS, Universite' de Montreal, Montreal, Quebec H3C

3J7, Canadá
xiiLista de
colaboradores
E. Glenn Schellenberg (499), Departamento de Psicología, Universidad de Toronto

en Mississauga, Mississauga L5L 1C6, Ontario, Canadá
Gottfried Schlaug (565), Beth Israel Deaconess Medical Center, Boston,

Massachusetts 02215
John A. Sloboda1 (583), Departamento de Psicología, Universidad de Keele, Keele,

Staffordshire ST5 5BG, Reino Unido
Johan Sundberg (069), Departamento de Habla, Música y Audición, KTH (Instituto

Real de Tecnología), SE-100 44 Estocolmo, Suecia
David Temperley (327), Eastman School of Music, Rochester, Nueva York 14604
William Forde Thompson (107), Departamento de Psicología, Universidad

Macquarie, Sydney, NSW 2109, Australia
Laurel J. Trainor (423), Departamento de Psicología, Neurociencia y

Comportamiento, McMaster University, Hamilton, Ontario L8S 4K1, Canadá
Catherine Y. Wan (565), Beth Israel Deaconess Medical Center, Boston,

Massachusetts 02215
Michael W. Weiss (499), Departamento de Psicología, Universidad de Toronto en

Mississauga, Mississauga L5L 1C6, Ontario, Canadá
1 Dirección actual: Guildhall School of Music and Drama, Londres EC2Y 8DT, Reino Unido.
Prefacio
El objetivo de este libro es interpretar los fenómenos musicales en términos de

función mental, es decir, caracterizar las formas en que percibimos,
recordamos, creamos, percibimos y respondemos a la música. El libro pretende
ser una fuente de referencia exhaustiva para psicólogos perceptivos y cognitivos,
neurocientíficos y músicos, así como un libro de texto para cursos avanzados de
psicología de la música.
En 1982, cuando se publicó la primera edición de Psicología de la música,
este campo interdisciplinar estaba en pañales. La música no tenía una posición
establecida dentro de la psicología, y pocos teóricos de la música reconocían la
relevancia de la investigación empírica. El libro, que reunía la diversa y dispersa
bibliografía acumulada durante la década anterior, fue escrito por un grupo de
visionarios procedentes de distintos campos de la erudición -psicólogos,
neurocientíficos, ingenieros, teóricos de la música y compositores- que estaban
comprometidos con el establecimiento de esta nueva disciplina.
Durante los años transcurridos desde la publicación de la primera edición, el
campo se ha ampliado rápidamente y se han producido enormes avances en
nuestra comprensión de la psicología de la música, especialmente desde la
publicación de la segunda edición de este volumen en 1999. Este progreso se ha
debido en parte al desarrollo de la tecnología informática y, más
concretamente, a la disponibilidad de nuevos programas informáticos que han
permitido a los investigadores generar, analizar y transformar sonidos con
facilidad, precisión y flexibilidad. La evolución de las neurociencias, en
particular de las técnicas de neuroimagen, ha dado lugar a un enorme aumento
de los descubrimientos sobre los sustratos neuroanatómicos del procesamiento
musical. Además, las aportaciones de los teóricos de la música y los compositores
siguen desempeñando un papel fundamental a la hora de abordar cuestiones
fundamentales sobre la forma en que procesamos las estructuras musicales.
El desarrollo masivo de la investigación sobre la psicología de la música ha
dado lugar a la publicación reciente de varios libros muy amenos sobre el tema,
escritos para un público general. Entre ellos se encuentran Musicophilia, de
Oliver Sacks, The Music Instinct, de Philip Ball, y This Is Your Brain On Music, de
Daniel Levitin. Music, Thought, and Feeling, de William Thompson, es un
excelente libro de texto para cursos universitarios de psicología de la música.
Otros libros de reciente publicación y gran éxito son The Musical Mind, de John
Sloboda, Music, Language, and the Brain, de Aniruddh Patel, y Sweet Anticipation,
de David Huron. El presente volumen ofrece una cobertura en profundidad de los
resultados de la investigación y las teorías en las diferentes subáreas del campo,
escrita por autoridades de renombre mundial en estas subáreas.
El volumen se abre con un capítulo sobre La percepción de los tonos
musicales, de Andrew Oxenham (Capítulo 1), que prepara el terreno para los que
siguen. Oxenham
xiv Prefaci
o
revisa en primer lugar la metodología psicoacústica. A continuación, basándose en

pruebas conductuales y fisiológicas, junto con modelos teóricos, ofrece una visión
general de los descubrimientos relativos a la percepción del tono, especialmente
en contextos musicales. El autor analiza la sonoridad, el tono y el timbre, así
como las interacciones entre estos atributos. También se analizan la consonancia, la
disonancia y la aspereza, así como las interacciones de alto nivel que se producen
cuando se presentan múltiples tonos.
La comprensión de la percepción del timbre es de vital importancia para los
compositores de música nueva. En su capítulo interdisciplinar Percepción del
timbre musical (capítulo 2), Stephen McAdams ofrece un análisis detallado de la
investigación sobre el timbre, especialmente en lo que se refiere al escalado
multidimensional de los espacios tímbricos. Estos espacios se han utilizado de
forma interesante, por ejemplo, para definir y explotar relaciones precisas entre
timbres. McAdams también analiza la mezcla perceptiva de instrumentos para
crear nuevos timbres, así como el uso del timbre para organizar eventos en
agrupaciones coherentes y lograr separaciones perceptivas entre agrupaciones.
El provocador capítulo de Johan Sundberg sobre la percepción del canto
(capítulo 3) aborda muchas cuestiones desconcertantes. Por ejemplo, ¿cómo
podemos oír la voz de un cantante sobre un fondo orquestal? ¿Cómo somos
capaces de identificar las vocales cantadas, aunque difieran considerablemente
de las del habla? ¿Cómo identificamos el género y el registro de un cantante
concreto aunque el registro de su voz sea común a todos los cantantes y a varios
registros? Estas cuestiones se abordan con maestría en el contexto de una
visión general de la acústica de la voz cantada.
En Intervalos y escalas (capítulo 4), William Thompson examina nuestra
sensibilidad a las relaciones de tono en la música y a las escalas musicales que nos
ayudan a organizar estas relaciones, cuestiones esenciales para comprender la
percepción musical. El capítulo aborda cuestiones como la forma en que el sistema
auditivo procesa los intervalos musicales, si determinados intervalos tienen un
estatus perceptivo especial y por qué la mayor parte de la música se organiza en
torno a escalas. Una discusión de especial importancia se refiere a las
características de las escalas que aparecen como universales transculturales y las
que parecen ser específicas de una cultura.
La génesis del tono absoluto ha intrigado a los músicos durante siglos, y esto
se explora en Absolute Pitch (Deutsch, Capítulo 5). ¿Se trata de un rasgo
hereditario que se manifiesta en cuanto surge la oportunidad? ¿O puede
adquirirse en cualquier momento mediante una práctica exhaustiva? ¿O depende
de la exposición a los tonos en asociación con sus nombres durante un periodo
crítico al principio de la vida? Se exploran estas hipótesis y se discuten las
pruebas de su estrecha relación con el habla y el lenguaje. Se examinan los
sustratos neuroanatómicos del tono absoluto, así como las relaciones entre esta
habilidad y otras capacidades.
Pensemos en lo que ocurre cuando escuchamos la interpretación de una
orquesta. Los sonidos que llegan a nuestros oídos son producidos por muchos
instrumentos que tocan en paralelo. ¿Cómo clasifica nuestro sistema auditivo
esta mezcla de sonidos para que podamos elegir un instrumento concreto o una
línea melódica determinada? Mecanismos de agrupación en la música (Deutsch,
Prefaci xv
o
capítulo 6) examina ésta y otras cuestiones afines, basándose en estudios
perceptivos y fisiológicos, junto con datos de entrada y salida.
xvi Prefaci
o
de los teóricos de la música. También se demuestra que los oyentes pueden

reorganizar perceptivamente lo que oyen, de modo que se producen ilusiones
sorprendentes.
El siguiente capítulo, sobre El procesamiento de las combinaciones de tonos
(Deutsch, Capítulo 7), explora cómo se representa el tono en la mente del oyente
en distintos niveles de abstracción. El capítulo examina cómo los oyentes organizan
los tonos en la música para percibir frases coherentes, y se argumenta que en el
nivel más alto de abstracción la música se representa en forma de patrones
coherentes que están vinculados entre sí como estructuras jerárquicas. El capítulo
también examina la investigación sobre la memoria a corto plazo para diferentes
características del tono, y explora una serie de ilusiones musicales que están
relacionadas con el habla.
Con el desarrollo de los recursos informáticos, la modelización
computacional ha adquirido una importancia creciente en el campo de la
cognición musical, especialmente en combinación con estudios conductuales y
fisiológicos. En Computational Models of Music Cognition (Capítulo 8), David
Temperley ofrece una visión general y una evaluación de la investigación en este
campo. Examina en detalle los modelos de identificación de tonalidad y métrica.
Además, analiza modelos de percepción del tono, agrupación y separación de
voces, y análisis armónico. Se evalúan los modelos de interpretación musical
(incluida la expresividad), así como los modelos de experiencia musical. Por
último, se estudian algoritmos informáticos para la composición musical.
La investigación sobre los aspectos temporales de la percepción y la
cognición musicales se ha ampliado considerablemente en la última década. En
Estructura e interpretación del ritmo en la música (capítulo 9), Henkjan Honing
ofrece una visión general de los descubrimientos relativos a la percepción del
ritmo, la métrica, el tempo y el tiempo, desde una perspectiva tanto teórica como
cognitiva. También analiza cómo los oyentes destilan un patrón rítmico discreto
a partir de una serie continua de intervalos, y subraya que los ritmos percibidos
a menudo se desvían considerablemente de los patrones temporales
presentados. En relación con esto, se analizan los papeles del contexto, las
expectativas y la familiaridad a largo plazo con la música.
La interpretación musical se basa en multitud de funciones complejas, como el
análisis visual de las notaciones musicales, la traducción de éstas en actos motores,
la coordinación de la información procedente de distintas modalidades
sensoriales, el empleo de la motricidad fina y el uso de la retroalimentación
auditiva. En Interpretación musical: Movimiento y coordinación (capítulo 10),
Caroline Palmer aborda estas cuestiones, centrándose especialmente en los
trabajos recientes sobre el uso de nuevas técnicas de captura de movimiento y
análisis de vídeo. También examina la investigación sobre la interpretación en
conjunto, en particular cómo los músicos adaptan los detalles de su interpretación a
los de otros miembros del conjunto.
Laurel Trainor y Erin Hannon, en Desarrollo musical (capítulo 11), abordan
cuestiones fundamentales relativas a la psicología de la música desde una
perspectiva evolutiva. Tras un análisis de las capacidades musicales en las
distintas etapas del desarrollo, las autoras consideran las influencias innatas y
ambientales, incluido el papel que desempeñan los periodos críticos. Examinan
Prefaci xvii
o
los aspectos del procesamiento musical que parecen universales y los que
parecen específicos de determinadas culturas. También examinan los
descubrimientos que indican que la música y el lenguaje se solapan
neurológicamente.
xviii Prefaci
o
sustratos. Como cuestión relacionada, los autores examinan los efectos del
entrenamiento musical sobre las capacidades lingüísticas y otras capacidades
cognitivas.
Continuando con Música y capacidades cognitivas (capítulo 12), Glenn
Schellenberg y Michael Weiss ofrecen una valoración detallada de las
asociaciones entre la música y otras funciones cognitivas. El capítulo analiza la
capacidad cognitiva inmediatamente después de escuchar música (el llamado
"efecto Mozart"), los efectos de la música de fondo en la función cognitiva y las
asociaciones entre el entrenamiento musical y diversas capacidades cognitivas.
Los autores demuestran que el entrenamiento musical está relacionado con la
inteligencia general y, más concretamente, con las capacidades lingüísticas.
Sostienen, por tanto, que el procesamiento musical no es únicamente función de
módulos especializados, sino que también refleja propiedades generales del
sistema cognitivo.
Isabelle Peretz, en The Biological Foundations of Music: Insights from
Congenital Amusia (capítulo 13), subraya la opinión contraria: que la capacidad
musical es distinta del lenguaje y que se nutre principalmente de redes
neuronales especializadas. Aquí se centra en la amusia congénita, una
discapacidad musical que no puede atribuirse a retraso mental, sordera, falta de
exposición o daño cerebral tras el nacimiento. Analiza las pruebas de la
asociación de este trastorno con una organización cerebral inusual y aporta
pruebas de que la amusia congénita tiene una base genética.
Catherine Wan y Gottfried Schlaug profundizan en las relaciones entre la
capacidad musical y otras capacidades en Brain Plasticity Induced by Musical
Training (Capítulo 14). Los autores señalan que las clases de música implican el
entrenamiento de una serie de habilidades complejas, como la coordinación de
la información multisensorial con la actividad motora bimanual, el desarrollo de
la motricidad fina y el uso de la retroalimentación auditiva. Repasan los hallazgos
que demuestran los efectos del entrenamiento musical en la organización
cerebral, y se centran en las investigaciones de su laboratorio que exploran el
potencial terapéutico de las intervenciones basadas en la música para facilitar el
habla en pacientes con apoplejía crónica y afasia, y en niños autistas.
La razón por la que la música invoca emociones ha sido objeto de
considerable debate. En su capítulo sobre Música y emoción (capítulo 15),
Patrik Juslin y John Sloboda ofrecen una visión general de los descubrimientos
y teorías en este campo. Establecen una importante distinción entre la emoción
expresada en la música y la emoción inducida en el oyente, señalando que no existe
una relación simple entre ambas. Plantean la hipótesis de que muchas de las
características de la comunicación musical pueden explicarse mejor, al menos en
parte, en términos de un código de expresión de las categorías emocionales
básicas por la voz humana.
En Comparative Music Cognition: Cross-Species and Cross-Cultural Studies
(Capítulo 16), Aniruddh Patel y Steven Demorest abordan dos cuestiones de
importancia fundamental para la comprensión del procesamiento musical. En
primer lugar, ¿qué capacidades musicales son exclusivamente humanas y cuáles
compartimos con especies no humanas? Al abordar esta cuestión, los autores
arrojan luz sobre la evolución de las capacidades musicales. La segunda cuestión
Prefaci xix
o
se refiere a la enorme diversidad de la música humana en las distintas culturas. Las
teorías y los resultados de la investigación basados en la música de una sola
tradición tienen, en principio, una aplicación limitada. Los autores presentan
pruebas
xx Prefaci
o
que ciertos aspectos de la música trascienden las fronteras culturales, mientras

que otros son específicos de cada cultura, lo que aclara el alcance de la teoría
existente.
El libro concluye con la obra de Robert Gjerdingen Psychologists and
Musicians: Antes y ahora (capítulo 17), que ofrece una visión atractiva e
informativa de las ideas pasadas y presentes sobre la psicología de la música. Al
repasar los enfoques de este tema a lo largo de los siglos, Gjerdingen contrasta los
que hacen hincapié en factores de bajo nivel, como la fisiología del oído interno,
con los que consideran el procesamiento musical en términos de funciones
complejas de alto orden. El capítulo incluye interesante información biográfica
sobre algunos de los más destacados colaboradores en este campo, que se refleja
en sus escritos formales sobre música y procesamiento musical. El capítulo
también ofrece una visión crítica de la psicología de la música en su estado
actual.
Un volumen interdisciplinar como éste sólo puede considerarse un esfuerzo
de grupo, y estoy agradecida a todos los autores, que han dedicado tanto tiempo
y reflexión a sacar adelante el libro. Agradezco a Nikki Levy y Barbara
Makinster su ayuda, y estoy especialmente agradecida a Kirsten Chrisman,
Directora Editorial de Libros de Ciencias de la Vida de Elsevier, por su sabia y
eficaz orientación, y a Katie Spiller por su experiencia y profesionalidad en la
producción del libro.
Diana Deutsch
Prefaci xxi
o
1 La percepción de los tonos
musicales
Andrew J. Oxenham
Departamento de Psicología, Universidad de Minnesota, Minneapolis
I. Introducción
A. ¿Qué son los tonos musicales?
La definición de tono -un sonido periódico que provoca una sensación de tono-
abarca la gran mayoría de los sonidos musicales. Los tonos pueden ser puros -
variaciones sinusoidales de la presión atmosférica en una sola frecuencia- o
complejos. Los tonos complejos pueden dividirse en dos categorías: armónicos e
inarmónicos. Los tonos complejos armónicos son periódicos, con una tasa de
repetición conocida como frecuencia fundamental (F0), y están compuestos por una
suma de sinusoides con frecuencias que son todas múltiplos enteros, o armónicos, de
la F0. Los tonos complejos inarmónicos se componen de múltiples sinusoides que
no son múltiplos enteros simples de ninguna F0 común. La mayoría de los tonos
musicales instrumentales o vocales son más o menos armónicos, pero algunos, como
los de las campanas, pueden ser inarmónicos.
B. Medir la percepción
Los atributos físicos de un sonido, como su intensidad y contenido espectral, pueden
medirse fácilmente con instrumentos técnicos modernos. Medir la percepción del
sonido es harina de otro costal. A Gustav Fechner, un científico alemán del siglo
XIX, se le atribuye la fundación del campo de la psicofísica, el intento de establecer
una relación cuantitativa entre las variables físicas (por ejemplo, la intensidad y la
frecuencia del sonido) y las sensaciones que producen (por ejemplo, el volumen y el
tono; Fechner, 1860). Las técnicas psicofísicas que se han desarrollado desde la
época de Fechner para acceder a nuestras percepciones y sensaciones (auditivas,
visuales, olfativas, táctiles y gustativas) pueden dividirse en dos categorías de
medidas: subjetivas y objetivas. Las medidas subjetivas suelen requerir que los
participantes estimen o produzcan magnitudes o proporciones relacionadas con la
dimensión objeto de estudio. Por ejemplo, para establecer una escala de sonoridad,
se puede presentar a los participantes una serie de tonos con diferentes intensidades
y pedirles que asignen un número a cada tono, correspondiente a su sonoridad. Este
método de estimación de la magnitud produce una función psicofísica que
relaciona directamente el volumen con la intensidad del sonido. La estimación de la
relación sigue el mismo principio, salvo que a los participantes se les pueden
presentar dos
Psicología de la Música. DOI: http://dx.doi.org/10.1016/B978-0-12-381460-9.00001-8
2013 Elsevier Inc. Todos los derechos reservados.
2 Andrew J. Oxenham
sonidos y luego se les pide que juzguen cuánto más fuerte (por ejemplo, dos o tres
veces) es un sonido que el otro. Los métodos complementarios son la producción de
magnitudes y la producción de proporciones. En estas técnicas de producción, se
pide a los participantes que varíen la dimensión física relevante de un sonido hasta
que coincida con una magnitud (número) determinada o hasta que coincida con una
proporción específica con respecto a un sonido de referencia. En este último caso,
las instrucciones pueden ser algo así como "ajuste el nivel del segundo sonido hasta
que sea el doble que el primero". Las cuatro técnicas se han empleado en numerosas
ocasiones en intentos de derivar escalas psicofísicas apropiadas (por ejemplo, Buus,
Muesch y Florentine, 1998; Hellman, 1976; Hellman y Zwislocki, 1964; Stevens,
1957; Warren, 1970). Otras variaciones de estos métodos son el escalamiento
categórico y el emparejamiento entre modalidades. El escalado categórico consiste
en pedir a los participantes que asignen la sensación auditiva a una de una serie de
categorías fijas; siguiendo con nuestro ejemplo del volumen, se les puede pedir que
seleccionen una categoría que vaya desde muy bajo a muy alto (por ejemplo,
Mauermann, Long y Kollmeier, 2004). El emparejamiento entre modalidades evita
el uso de números, por ejemplo, pidiendo a los participantes que ajusten la longitud
de una línea, o de un trozo de cuerda, para que coincida con el volumen percibido de
un tono (por ejemplo, Epstein y Florentine, 2005). Aunque todos estos métodos
tienen la ventaja de proporcionar una estimación más o menos directa de la relación
entre el estímulo físico y la sensación, también presentan una serie de desventajas.
En primer lugar, son subjetivos y dependen de la introspección del sujeto. Quizá por
ello pueden ser poco fiables, variables entre participantes y dentro de un mismo
participante, y propensos a diversos sesgos (por ejemplo, Poulton, 1977).
El otro enfoque consiste en utilizar una medida objetiva, en la que pueda
verificarse externamente una respuesta correcta y una incorrecta. Este enfoque suele
implicar sondear los límites de resolución del sistema sensorial, midiendo el umbral
absoluto (el estímulo detectable más pequeño), el umbral relativo (el cambio
detectable más pequeño en un estímulo) o el umbral enmascarado (el estímulo
detectable más pequeño en presencia de otro estímulo). Hay varias formas de medir
el umbral, pero la mayoría implican un procedimiento de elección forzada, en el que
el sujeto tiene que elegir el intervalo que contiene el sonido objetivo entre una
selección de dos o más. Por ejemplo, en un experimento para medir el umbral
absoluto, se pueden presentar al sujeto dos intervalos de tiempo sucesivos, marcados
con luces; el sonido objetivo se reproduce durante uno de los intervalos, y el sujeto
tiene que decidir cuál es. Es de esperar que el rendimiento varíe con la intensidad del
sonido: a intensidades muy bajas, el sonido será completamente inaudible, por lo
que el rendimiento será casual (50% de aciertos en una tarea de dos intervalos); a
intensidades muy altas, el sonido siempre será claramente audible, por lo que el
rendimiento será cercano al 100%, suponiendo que el sujeto siga prestando atención.
A partir de ahí, puede derivarse una función psicométrica que represente el
rendimiento de un sujeto en función del parámetro del estímulo. En la figura 1 se
muestra un ejemplo de función psicométrica, que representa el porcentaje de aciertos
en función del nivel de presión sonora. Este tipo de paradigma de elección forzada
suele ser preferible (aunque a menudo requiere más tiempo) que las medidas más
subjetivas, como el método de los límites, que suele utilizarse hoy en día para medir
los audiogramas. En el método de los límites, la intensidad de un sonido disminuye
1. La percepción de los tonos 3
musicales
hasta que el sujeto informa de que ya no es capaz de oírlo y, a continuación, la
intensidad del sonido aumenta hasta que el sujeto vuelve a informar de que es capaz
de oírlo.
4 Andrew J. Oxenham
Figura 1 Ejemplo esquemático de

100 una función psicométrica, que
representa el porcentaje de aciertos
90
en una tarea de elección forzada de
Porcentaje de
80 dos alternativas frente al nivel de

presión sonora de un tono de
aciertos
70 prueba.
60
50
-5 0 5 10 15
Nivel de señal (dB
SPL)
El problema de este tipo de medidas es que no sólo dependen de la sensibilidad,

sino también del criterio, es decir, de lo dispuesto que esté el sujeto a decir que ha
oído un sonido si no está seguro. Un procedimiento de elección forzada elimina ese
problema al obligar a los participantes a adivinar, incluso si no están seguros de qué
intervalo contenía el sonido objetivo. Evidentemente, comprobar los límites
perceptivos midiendo los umbrales no lo dice todo sobre la percepción auditiva
humana; una de las principales preocupaciones es que estas medidas suelen ser
indirectas: descubrir que las personas pueden detectar menos de un 1% de cambio en
la frecuencia no nos dice mucho sobre la percepción de intervalos musicales mucho
mayores, como una octava. No obstante, ha demostrado ser extremadamente útil
para ayudarnos a comprender mejor la percepción y su relación con la fisiología
subyacente del oído y el cerebro.
Las medidas del tiempo de reacción, o tiempo de respuesta (TR), también se han
utilizado para sondear el procesamiento sensorial. Las dos formas básicas de tiempo
de respuesta son el tiempo de respuesta simple (TRS), en el que se indica a los
participantes que respondan lo más rápidamente posible pulsando un solo botón una
vez presentado el estímulo, y el tiempo de respuesta de elección (TRC), en el que los
participantes tienen que clasificar el estímulo (normalmente en una de dos
categorías) antes de responder (pulsando el botón 1 o 2).
Aunque las medidas de RT son más comunes en tareas cognitivas, también
dependen de algunos atributos básicos del sonido, como la intensidad del sonido, ya
que los sonidos de mayor intensidad provocan reacciones más rápidas, medidas
tanto con SRT (Kohfeld, 1971; Luce y Green, 1972) como con CRT (Keuss y van
der Molen, 1982).
Por último, las medidas de percepción no se limitan al ámbito cuantitativo o
numérico. También es posible pedir a los participantes que describan sus
percepciones con palabras. Este enfoque tiene claras aplicaciones cuando se trata de
atributos multidimensionales, como el timbre (véase más adelante y el capítulo 2 de
este volumen), pero también presenta algunas dificultades inherentes, ya que
distintas personas pueden utilizar las palabras descriptivas de formas diferentes.
En resumen, medir la percepción es un tema espinoso que tiene muchas
soluciones, todas ellas con sus propias ventajas e inconvenientes. Las medidas
perceptivas siguen siendo una herramienta crucial de análisis "a nivel de sistema"
musicales
que puede combinarse en estudios humanos y animales con diversas técnicas

fisiológicas y de neuroimagen, para ayudarnos a descubrir más sobre cómo los oídos
y el cerebro procesan los sonidos musicales de forma que provoquen los potentes
efectos cognitivos y emocionales de la música.
6 Andrew J. Oxenham
II. Percepción de tonos simples

Aunque un solo tono está muy lejos de las complejas combinaciones de sonidos que
componen la mayor parte de la música, puede ser un punto de partida útil para
comprender cómo se percibe y representa la música en el sistema auditivo. La
sensación producida por un solo tono suele dividirse en tres categorías: sonoridad,
tono y timbre.
A. Sonoridad
El correlato físico más obvio de la sonoridad es la intensidad del sonido (o presión
sonora) medida en el tímpano. Sin embargo, hay muchos otros factores que influyen
en el volumen de un sonido, como su contenido espectral, su duración y el contexto
en el que se presenta.
1. Rango dinámico y decibelios

El sistema auditivo humano tiene un rango dinámico enorme: el sonido de menor
intensidad audible es aproximadamente un factor de 1.000.000.000.000 menos
intenso que el sonido más fuerte que no causa daños auditivos inmediatos. Este
rango tan amplio es una de las razones por las que se utiliza una escala logarítmica -
el decibelio o dB- para describir el nivel sonoro. En estas unidades, el rango
dinámico de audición corresponde a unos 120 dB. La intensidad del sonido es
proporcional al cuadrado de la presión sonora, que a menudo se describe en términos
de nivel de presión sonora (SPL) utilizando una presión, P0 ,
de 2 3 1025 N- m22 o 20 µPa (micropascales) como referencia, que se aproxima al
umbral absoluto medio para tonos puros de frecuencia media en personas jóvenes
con audición normal. El SPL de una presión sonora determinada, P1 , se define
entonces como 20log10 (P1 /P0 ). Existe una relación similar entre la intensidad
sonora y el nivel sonoro, de forma que el nivel viene dado por 10log10 (I1 /I0 ). (El
multiplicador es ahora 10 en lugar de 20 debido a la relación de ley cuadrada entre
intensidad y presión). Así pues, un nivel sonoro en decibelios es siempre un cociente
y no un valor absoluto.
El rango dinámico de la música depende del estilo musical. La música clásica
moderna puede tener un rango dinámico muy amplio, desde pasajes de pianissimo
en un instrumento solista (unos 45 dB SPL) hasta una orquesta completa tocando
fortissimo (unos 95 dB SPL), medido en salas de conciertos (Winckel, 1962). La
música pop, que a menudo se escucha en condiciones poco ideales, como en un
coche o en la calle, suele tener un rango dinámico mucho menor. Las emisoras de
radio suelen reducir aún más el rango dinámico mediante compresión para que su
señal tenga el volumen más alto posible sin superar la amplitud máxima de pico del
canal de emisión, de modo que el rango dinámico final rara vez supera los 10 dB.
Nuestra capacidad para discriminar pequeños cambios de nivel se ha estudiado en
profundidad para una amplia variedad de sonidos y condiciones (por ejemplo,
Durlach y Braida, 1969; Jesteadt, Wier y Green, 1977; Viemeister, 1983). Como
regla general, somos capaces de discernir cambios del orden de 1 dB, lo que
corresponde a un cambio en la presión sonora de aproximadamente el 12%. El hecho
musicales
de que el tamaño de la diferencia apenas perceptible (JND) de
8 Andrew J. Oxenham
sonidos de banda ancha permanece más o menos constante cuando se expresa como
una relación o en decibelios está en consonancia con la conocida ley de Weber, que
establece que la JND entre dos estímulos es proporcional a la magnitud de los
estímulos.
En contraste con nuestra capacidad para juzgar las diferencias de nivel sonoro
entre dos sonidos presentados uno tras otro, nuestra capacidad para categorizar o
etiquetar niveles sonoros es bastante pobre. De acuerdo con el famoso postulado de
Miller (1956) "7 más o menos 2" para el procesamiento de la información y la
categorización, nuestra capacidad para categorizar niveles sonoros con precisión es
bastante limitada y está sujeta a diversas influencias, como el contexto de los
sonidos precedentes. Esto puede explicar por qué la notación musical de la
sonoridad (en contraste con el tono) tiene relativamente pocas categorías entre
pianissimo y fortissimo, normalmente sólo seis (pp, p, mp, mf, f y ff).
2. Contornos de sonoridad iguales y curvas de ponderación de la sonoridad

No existe una relación directa entre el nivel sonoro físico (en dB SPL) y la sensación
de volumen. Hay muchas razones para ello, pero una importante es que la sonoridad
depende en gran medida del contenido de frecuencia del sonido. La figura 2 muestra
lo que se conoce como contornos de igual sonoridad. El concepto básico es que dos
tonos puros con frecuencias diferentes, pero con niveles que caen en el mismo
contorno de sonoridad, tienen la misma sonoridad. Por ejemplo, como se muestra en
la figura 2, un tono puro con una frecuencia de 1 kHz y un nivel de 40 dB SPL tiene
la misma sonoridad que un tono puro con una frecuencia de 100 Hz y un nivel de
aproximadamente 64 dB SPL; en otras palabras, un tono de 100 Hz tiene que tener
un nivel 24 dB superior al de un tono de 1 kHz con un nivel de 40 dB SPL para que
un tono de 1 kHz tenga la misma sonoridad que un tono de 1 dB SPL.
130
120
110
10 0 phons
100
Nivel de presión sonora en
90
90
80
80
70
70
60
60
50
50
40
40
30
30
dB
20
20
10
10
0 Umbral de
audición
-10
16 31,5 63 125 250 500 1000 2000 4000 8000 16000
Frecuencia en Hz
musicales
Figura 2 Los contornos de igual sonoridad, tomados de la norma ISO

226:2003. Figura original cedida amablemente por Brian C. J.
Moore.
10 Andrew J. Oxenham
para que se perciban con el mismo volumen. Los contornos de igual sonoridad están
incorporados en una norma internacional (ISO 226) que se estableció inicialmente
en 1961 y se revisó por última vez en 2003.
Estos contornos de igual sonoridad se han obtenido varias veces a partir de
meticulosas mediciones psicofísicas, no siempre con resultados idénticos (Fletcher y
Munson, 1933; Robinson y Dadson, 1956; Suzuki y Takeshima, 2004). Las
mediciones suelen consistir en la equiparación de sonoridad, en la que un sujeto
ajusta el nivel de un tono hasta que suene tan alto como un segundo tono, o en
comparaciones de sonoridad, en las que un sujeto compara la sonoridad de muchos
pares de tonos y los resultados se recopilan para obtener puntos de igualdad
subjetiva (PSE). Ambos métodos son muy susceptibles a sesgos no sensoriales, por
lo que la tarea de obtener un conjunto definitivo de contornos de sonoridad iguales
es todo un reto (Gabriel, Kollmeier y Mellert, 1997).
Los contornos de igual sonoridad proporcionan la base para la medida del "nivel
de sonoridad", que tiene unidades de "phons". El valor phon de un sonido es el valor
dB SPL de un tono de 1 kHz que se considera que tiene la misma sonoridad que el
sonido. Así, por defi- nición, un tono de 40 dB SPL a 1 kHz tiene un nivel de
sonoridad de 40 phons. Continuando con el ejemplo anterior, el tono de 100 Hz a un
nivel de aproximadamente 64 dB SPL también tiene un nivel de sonoridad de 40
fones, porque cae en el mismo contorno de sonoridad igual que el tono de 40 dB
SPL a 1 kHz. Por lo tanto, los contornos de igual sonoridad también pueden
denominarse contornos de igual phon.
Aunque las mediciones reales son difíciles y los resultados un tanto contenciosos,
los contornos de igual sonoridad tienen muchos usos prácticos. Por ejemplo, en
cuestiones de molestias acústicas a la comunidad por conciertos de rock o
aeropuertos, es más útil conocer la intensidad percibida de los sonidos en cuestión
que sólo su nivel físico. Por este motivo, la mayoría de los sonómetros modernos
incorporan una aproximación del contorno de sonoridad igual a 40 fonones, que se
denomina curva "ponderada A". Un nivel sonoro expresado en dB (A) es un nivel
sonoro global que se ha filtrado con la inversa de la curva aproximada de 40
fonones. Esto significa que las frecuencias muy bajas y muy altas, que se perciben
como menos fuertes, tienen menos peso que la parte media de la gama de
frecuencias.
Como ocurre con todas las herramientas útiles, la curva ponderada A puede
utilizarse mal. Como se basa en la curva de 40 fonones, es la más adecuada para
sonidos de bajo nivel; sin embargo, eso no ha impedido que se utilice en mediciones
de sonidos de nivel mucho más alto, donde sería más apropiado un filtro más plano,
como el que proporciona la curva ponderada C, muy poco utilizada. El uso
omnipresente de la escala dB (A) para todos los niveles sonoros constituye, por
tanto, un ejemplo de un caso en el que la comodidad de una medida de un solo
número (y que minimiza el impacto de las bajas frecuencias difíciles de controlar)
ha pesado más que el deseo de precisión.
3. Escalas de sonoridad
Los contornos de igual sonoridad y los fonones nos hablan de la relación entre
sonoridad y frecuencia. Sin embargo, no nos hablan de la relación entre volumen y
musicales
nivel sonoro. Por ejemplo, el phon, basado en la escala de decibelios a 1 kHz, no
dice nada sobre cuánto más fuerte es un tono de 60 dB SPL que uno de 30 dB SPL.
Tono SPL. La respuesta, según numerosos estudios sobre la sonoridad, no es el

doble. Desde los tiempos de Fechner se han realizado numerosos intentos de
relacionar el nivel sonoro físico con la sonoridad. Fechner (1860), basándose en la
ley de Weber, razonó que si las JND eran constantes en una escala logarítmica, y si
un número igual de JND reflejaba un cambio igual en la sonoridad, entonces la
sonoridad debía estar relacionada logarítmicamente con la intensidad del sonido. El
psicofísico de Harvard S. S. Stevens no estaba de acuerdo y afirmaba que las JND
reflejaban "ruido" en el sistema auditivo, lo que no permitía comprender
directamente la función que relaciona la sonoridad con la intensidad del sonido
(Stevens, 1957). El enfoque de Stevens consistió en utilizar técnicas de estimación y
producción de magnitudes y proporciones, como se describe en la Sección I de este
capítulo, para derivar una relación entre la sonoridad y la intensidad del sonido.
Llegó a la conclusión de que la sonoridad (L) estaba relacionada con la intensidad
del sonido (I) mediante una ley de potencia:
L 5 kIα
(Ecuación 1)
donde el exponente, α, tiene un valor aproximado de 0,3 a frecuencias medias y para

niveles sonoros moderados y altos. Esta ley implica que un aumento de 10 dB en el
nivel produce una duplicación de la sonoridad. A niveles bajos, y a frecuencias más
bajas, el exponente suele ser mayor, lo que da lugar a una función de crecimiento
de la sonoridad más pronunciada. Stevens utilizó esta relación para derivar unidades
de sonoridad, llamadas "sones". Por definición, 1 son es la sonoridad de un tono de 1
kHz presentado a un nivel de 40 dB SPL; 2 sones es el doble de sonoridad, que
corresponde aproximadamente a un tono de 1 kHz presentado a 50 dB SPL, y 4
sones corresponde al mismo tono a unos 60 dB SPL.
Numerosos estudios han respaldado la conclusión básica de que la sonoridad
puede relacionarse con la intensidad sonora mediante una ley de potencia. Sin
embargo, en parte debido a la variabilidad de los juicios de sonoridad y a los efectos
sustanciales de la metodología experimental (Poulton, 1979), distintos
investigadores han encontrado valores diferentes para el exponente que mejor se
ajusta. Por ejemplo, Warren (1970) argumentó que presentar a los participantes
varios sonidos para que los juzgaran invariablemente provocaba un sesgo. Por lo
tanto, presentó a cada sujeto un único ensayo. Basándose en estos juicios de un solo
ensayo, Warren también derivó una ley de potencia, pero encontró un valor de
exponente de 0,5. Este valor de exponente es lo que uno podría esperar de una ley de
potencia. Este valor de exponente es el que cabría esperar si la intensidad del sonido
fuera proporcional a su distancia del receptor, lo que llevaría a una disminución del
nivel de 6 dB por cada duplicación de la distancia. Otro estudio, que intentó evitar
los efectos de sesgo utilizando todo el rango de niveles (100 dB) en cada
experimento, obtuvo un exponente de sólo 0,1, lo que implica una duplicación de la
intensidad por cada aumento de 30 dB en el nivel sonoro (Viemeister y Bacon,
1988).
En general, se acepta que la relación entre el volumen y la intensidad del sonido
puede aproximarse a una ley de potencia, aunque las cuestiones metodológicas y la
variabilidad entre sujetos e intrasujetos han dificultado la obtención de una función
musicales
definitiva e incontrovertible que relacione la sensación con la variable física.
4. Sonoridad parcial y efectos contextuales

La mayoría de los sonidos que escuchamos, sobre todo en la música, van
acompañados de otros sonidos. Por eso es importante entender cómo se determina la
intensidad de un sonido.
se ve afectado por el contexto en el que se presenta. En esta sección, tratamos dos

situaciones de este tipo: la primera, cuando los sonidos se presentan
simultáneamente; la segunda, cuando se presentan secuencialmente.
Cuando dos sonidos se presentan juntos, como en el caso de dos instrumentos
musicales o voces, pueden enmascararse parcialmente el uno al otro, y la sonoridad
de cada uno puede no ser tan alta como si cada sonido se presentara de forma
aislada. La intensidad de un sonido parcialmente enmascarado se denomina
"intensidad parcial" (Moore, Glasberg y Baer, 1997; Scharf, 1964; Zwicker, 1963).
Cuando un sonido está completamente enmascarado por otro, su sonoridad es cero,
o una cantidad muy pequeña. Al aumentar su nivel por encima del umbral de
enmascaramiento, se vuelve audible, pero su intensidad es baja, similar a la del
mismo sonido presentado de forma aislada pero sólo unos decibelios por encima de
su umbral absoluto. A medida que se incrementa el nivel, la intensidad del sonido
aumenta rápidamente, "alcanzando" esencialmente su intensidad no enmascarada
una vez que está unos 20 dB o más por encima de su umbral enmascarado.
La intensidad de un sonido también se ve afectada por los sonidos que lo
preceden. En algunos casos, los sonidos fuertes pueden aumentar la intensidad de los
sonidos inmediatamente posteriores (por ejemplo, Galambos, Bauer, Picton, Squires
y Squires, 1972; Plack, 1996); en otros casos, puede reducirse la intensidad de los
sonidos posteriores (Mapes-Riordan y Yost, 1999; Marks, 1994). Todavía se debate
si se requieren mecanismos separados para explicar estos dos fenómenos (Arieh y
Marks, 2003b; Oberfeld, 2007; Scharf, Buus y Nieder, 2002). En un principio, no
estaba claro si el fenómeno de "recalibración del volumen" -una reducción del
volumen de los sonidos de nivel moderado tras uno más alto- reflejaba un cambio en
la forma en que los participantes asignaban números al volumen percibido o un
verdadero cambio en la sensación de volumen (Marks, 1994). Sin embargo, trabajos
más recientes han demostrado que los tiempos de respuesta de elección a estímulos
"recalibrados" cambian de forma coherente con los cambios físicos en la intensidad,
lo que sugiere un verdadero fenómeno sensorial (Arieh y Marks, 2003a).
5. Modelos de sonoridad
A pesar de las dificultades inherentes a la medición de la sonoridad, un modelo que
pueda predecir la sonoridad de sonidos arbitrarios sigue siendo una herramienta útil.
El desarrollo de modelos de percepción del volumen tiene una larga historia
(Fletcher y Munson, 1937; Moore y Glasberg, 1996, 1997; Moore et al., 1997;
Moore, Glasberg y Vickers, 1999; Zwicker, 1960; Zwicker, Fastl y Dallmayr, 1984).
Básicamente, todos se basan en la idea de que la intensidad de un sonido refleja la
cantidad de excitación que produce en el sistema auditivo. Aunque una prueba
fisiológica directa, en la que se comparó la cantidad total de actividad nerviosa
auditiva en un modelo animal con la sonoridad prevista basada en estudios humanos,
no encontró una buena correspondencia entre ambas (Relkin y Doucet, 1997), los
modelos psicofísicos que relacionan los patrones de excitación previstos, basados en
el filtrado auditivo y la no linealidad coclear, con la sonoridad suelen proporcionar
predicciones precisas de la sonoridad en una amplia variedad de condiciones (por
ejemplo, Chen, Hu, Glasberg y Moore, 2011).
Algunos modelos incorporan predicciones parciales de sonoridad (Chen et al.,
musicales
2011; Moore et al., 1997), otros predicen los efectos de la pérdida auditiva coclear
en la sonoridad
(Moore y Glasberg, 1997), y otros se han ampliado para explicar la sonoridad de los
sonidos que fluctúan con el tiempo (Chalupper y Fastl, 2002; Glasberg y Moore,
2002). Sin embargo, ninguno ha intentado aún incorporar los efectos del contexto,
como la recalibración o el aumento de la sonoridad.
B. Pitch
El tono es sin duda la dimensión más importante de la música. Las secuencias de
tonos forman una melodía y las combinaciones simultáneas de tonos forman la
armonía, dos fundamentos de la música occidental. Existe una amplia bibliografía
dedicada a la investigación del tono, tanto desde el punto de vista perceptivo como
neuronal (Plack, Oxenham, Popper y Fay, 2005). El correlato físico más claro del
tono es la periodicidad, o tasa de repetición, del sonido, aunque otras dimensiones,
como la intensidad del sonido, pueden tener pequeños efectos (por ejemplo,
Verschuure & van Meeteren, 1975). Para los jóvenes con audición normal, los tonos
puros con frecuencias comprendidas entre unos 20 Hz y 20 kHz son audibles. Sin
embargo, sólo los sonidos con frecuencias de repetición comprendidas entre 30 Hz y
5 kHz provocan una percepción del tono que puede calificarse de musical y que es
lo suficientemente fuerte como para transmitir una melodía (por ejemplo, Attneave y
Olson, 1971; Pressnitzer, Patterson y Krumbholz, 2001; Ritsma, 1962). Tal vez no
resulte sorprendente que estos límites, que se determinaron mediante investigación
psicoacústica, se correspondan bastante bien con los límites inferior y superior de
tono que se encuentran en los instrumentos musicales: las notas más graves y más
agudas de un piano de cola moderno, que cubre los rangos de todos los instrumentos
orquestales estándar, corresponden a 27,5 Hz y 4186 Hz, respectivamente.
Tendemos a reconocer patrones de tonos que forman melodías (véase el capítulo
7 de este volumen). Lo hacemos, presumiblemente, reconociendo los intervalos
musicales entre notas sucesivas (véanse los capítulos 4 y 7 de este volumen), y la
mayoría de nosotros parecemos relativamente insensibles a los valores absolutos de
tono de la nota individual, siempre que las relaciones de tono entre las notas sean
correctas. Sin embargo, aún no está claro cómo se extrae exactamente el tono de
cada nota y cómo se representa en el sistema auditivo, a pesar de muchas décadas de
intensa investigación.
1. Tono de los tonos puros

Los tonos puros producen un tono claro e inequívoco, y somos muy sensibles a los
cambios en su frecuencia. Por ejemplo, los oyentes bien entrenados pueden
distinguir entre dos tonos con frecuencias de 1000 y 1002 Hz, una diferencia de sólo
el 0,2% (Moore, 1973). Un semitono, el paso más pequeño en el sistema de escalas
occidental, supone una diferencia de aproximadamente el 6%, o un factor de 30
mayor que la JND de frecuencia para tonos puros. Quizás no resulte sorprendente
que los músicos sean generalmente mejores que los no músicos a la hora de
discriminar pequeños cambios en la frecuencia; lo que es más sorprendente es que
no hace falta mucha práctica para que las personas sin formación musical "alcancen"
a los músicos en cuanto a su rendimiento. En un estudio reciente, se compararon las
capacidades de discriminación de frecuencias de músicos clásicos entrenados con las
musicales
de oyentes no entrenados sin formación musical, utilizando tanto tonos puros como
tonos complejos (Micheyl, Delhommeau, Perrot y Oxenham, 2006). Inicialmente,
los umbrales eran aproximadamente 6 veces peores para los oyentes no entrenados.
Sin embargo, los umbrales de los oyentes no entrenados sólo necesitaron entre 4 y 8
horas de práctica para igualarse a los de los músicos entrenados, mientras que éstos
no mejoraron con la práctica. Esto sugiere que la mayoría de las personas son
capaces de discriminar diferencias muy finas de frecuencia con muy poco
entrenamiento especializado.
En la Figura 3 se muestran dos representaciones de un tono puro a 440 Hz (el A
orquestal). El panel superior muestra la forma de onda -variaciones de la presión
sonora en función del tiempo- que se repite 440 veces por segundo, por lo que tiene
un periodo de 1/440 s, o unos 2,27 ms. El panel inferior ofrece la representación
espectral, que muestra que el sonido sólo tiene energía a 440 Hz. Esta representación
espectral corresponde a un tono puro "ideal", sin principio ni fin. En la práctica, la
energía espectral se extiende por encima y por debajo de la frecuencia del tono puro,
reflejando los efectos del inicio y el fin. Estas dos representaciones (espectral y
temporal) son una buena introducción a las dos formas en que se representan los
tonos puros en el sistema auditivo periférico.
El primer código de potencial, conocido como código de "lugar", refleja el
filtrado mecánico que tiene lugar en la cóclea del oído interno. La membrana basilar,
que recorre la cóclea llena de líquido desde la base hasta el ápex, vibra en
1 Figura 3 Diagrama
0.8 esquemático de la forma de
0.6 onda temporal (panel
0.4 superior) y el espectro de
potencia (panel inferior) de un
Presión (unidades
0.2
tono puro con una frecuencia
0
de 440 Hz.
arbitrarias)
-0.2
-0.4
-0.6
-0.8
-10 2 4 6
8 10 12
Tiempo (ms)
0.8
Magnitud (unidades
0.6
arbitrarias)
0.4
0.2
00
1000 2000 3000 4000 5000
Frecuencia (Hz)
musicales
respuesta al sonido. Las respuestas de la membrana basilar están muy afinadas y son
muy específicas: una determinada frecuencia sólo hará vibrar una región local de la
membrana basilar. Debido a sus propiedades estructurales, el extremo apical de la
membrana basilar responde mejor a las frecuencias bajas, mientras que el extremo
basal responde mejor a las frecuencias altas. Por lo tanto, cada lugar de la membrana
basilar tiene su propia "mejor frecuencia" o "frecuencia característica" (FC), es
decir, la frecuencia a la que ese lugar responde con mayor intensidad. Esta
asignación de frecuencia a lugar, u organización tonotópica, se mantiene a lo largo
de las vías auditivas hasta la corteza auditiva primaria, proporcionando así un código
neural potencial para el tono de los tonos puros.
El segundo código de potencial, conocido como código "temporal", se basa en el
hecho de que los potenciales de acción, o picos, generados en el nervio auditivo
tienden a producirse en una fase determinada dentro del periodo de una sinusoide.
Esta propiedad, conocida como bloqueo de fase, significa que el cerebro podría
representar la frecuencia de un tono puro mediante los intervalos de tiempo entre los
picos, cuando se agrupan a través del nervio auditivo. No se dispone de datos del
nervio auditivo humano, debido a la naturaleza invasiva de las mediciones, pero se
ha descubierto que el bloqueo de fase se extiende a entre 2 y 4 kHz en otros
mamíferos, dependiendo un poco de la especie. A diferencia de la organización
tonotópica, el bloqueo de fase hasta altas frecuencias no se conserva en las
estaciones superiores de las vías auditivas. A nivel de la corteza auditiva, el límite
del bloqueo de fase se reduce como mucho a 100 o 200 Hz (Wallace, Rutkowski,
Shackleton y Palmer, 2000). Por lo tanto, la mayoría de los investigadores creen que
el código de tiempo que se encuentra en el nervio auditivo debe transformarse en
alguna forma de código de lugar o de población en una fase relativamente temprana
del procesamiento auditivo.
Existen pruebas psicoacústicas a favor de los códigos de lugar y temporales. Una
prueba a favor de un código temporal es que la capacidad de discriminación del tono
se deteriora a frecuencias altas: la JND entre dos frecuencias aumenta
considerablemente a frecuencias superiores a unos 4 o 5 kHz, el mismo rango de
frecuencias por encima del cual se degrada la capacidad de los oyentes para
reconocer melodías familiares (Attneave y Olson, 1971) o para notar cambios sutiles
en melodías desconocidas (Oxenham, Micheyl, Keebler, Loper y Santurette, 2011).
Esta frecuencia es similar a la que se acaba de describir en la que el bloqueo de fase
en el nervio auditivo se degrada fuertemente (por ejemplo, Palmer y Russell, 1986;
Rose, Brugge, Anderson y Hind, 1967), lo que sugiere que el código temporal es
necesario para la discriminación precisa del tono y para la percepción de melodías.
Incluso podría considerarse una prueba de que los límites superiores del tono de los
instrumentos musicales están determinados por los límites fisiológicos básicos del
nervio auditivo.
Las pruebas de la importancia de la información de lugar proceden, en primer
lugar, del hecho de que sigue siendo posible algún tipo de percepción del tono
incluso con tonos puros de muy alta frecuencia (Henning, 1966; Moore, 1973), en
los que es poco probable que la información de bloqueo de fase sea útil (por
ejemplo, Palmer y Russell, 1986). Otra línea de evidencia que indica que la
información de lugar puede ser importante procede de un estudio en el que se
utilizaron los llamados "tonos transpuestos" (van de Par y Kohlrausch, 1997) para
presentar la información temporal que normalmente sólo estaría disponible en una
región de baja frecuencia de la cóclea a una región de alta frecuencia, disociando así
las señales temporales de las de lugar (Oxenham, Bernstein y Penagos, 2004). En
ese estudio, la discriminación del tono se
musicales
considerablemente peor cuando la información temporal de baja frecuencia se

presentaba en el lugar "equivocado" de la cóclea, lo que sugiere que la información
sobre el lugar es importante.
A la luz de estas pruebas contradictorias, lo más seguro es suponer que el sistema
auditivo utiliza tanto la información de lugar como de tiempo del nervio auditivo
para extraer el tono de los tonos puros. De hecho, algunas teorías del tono requieren
explícitamente información precisa tanto de lugar como de tiempo (Loeb, White y
Merzenich, 1983). Comprender mejor cómo se extrae la información sigue siendo
un importante objetivo de investigación. La cuestión es de especial relevancia
clínica, ya que los déficits en la percepción del tono son una queja común de las
personas con pérdida auditiva y las personas con implantes cocleares. Comprender
mejor cómo utiliza el cerebro la información de la cóclea ayudará a los
investigadores a mejorar la forma en que las prótesis auditivas, como los audífonos
y los implantes cocleares, presentan el sonido a sus usuarios.
2. Tono de los tonos complejos

La gran mayoría de los sonidos musicales son tonos complejos de una forma u otra,
y la mayoría tienen un tono asociado. Los más comunes son l o s t o n o s
complejos armónicos, que se componen de la F0 (correspondiente a la frecuencia de
repetición de toda la forma de onda) y los parciales superiores, armónicos o
sobretonos, espaciados en múltiplos enteros de la F0. El tono de un tono armónico
complejo suele corresponder a la F0. En otras palabras, si se pide a un sujeto que
compare el tono de un tono complejo con el tono de un tono puro, la mejor
correspondencia suele producirse cuando la frecuencia del tono puro es la misma
que la F0 del tono complejo. Curiosamente, esto es cierto incluso cuando el tono
complejo no tiene energía en la F0 o la F0 está enmascarada (de Boer, 1956;
Licklider, 1951; Schouten, 1940; Seebeck, 1841). A este fenómeno se le han dado
varios términos, como tono de la fundamental ausente, tono de periodicidad, tono
de residuo y tono virtual. La capacidad del sistema auditivo para extraer la F0 de un
sonido es importante desde el punto de vista de la constancia perceptiva: imagine
que se toca una nota de violín en una habitación silenciosa y luego otra vez en una
habitación con un sistema de aire acondicionado ruidoso. El ruido de baja frecuencia
del sistema de aire acondicionado podría enmascarar parte de la energía de baja
frecuencia del violín, incluida la F0, pero no esperaríamos que el tono (o la
identidad) del violín cambiara por ello.
Aunque la capacidad de extraer el tono de periodicidad es claramente importante
y la comparten muchas especies diferentes (Shofner, 2005), en su mayor parte se
desconoce exactamente cómo extrae la F0 el sistema auditivo. En la figura 4 se
muestran las etapas iniciales del procesamiento de un tono armónico complejo. Los
dos paneles superiores muestran la forma de onda temporal y la representación
espectral de un tono armónico complejo. El tercer panel muestra el filtrado que se
produce en la cóclea: cada punto a lo largo de la membrana basilar puede
representarse como un filtro pasa banda que sólo responde a las frecuencias cercanas
a su frecuencia central. El cuarto panel muestra el "patrón de excitación" producido
por el sonido. Se trata de la respuesta media del banco de filtros pasa banda, trazada
en función de la frecuencia central de los filtros (Glasberg y Moore, 1990). El quinto
panel muestra un extracto de la forma de onda temporal a la salida de algunos de los
filtros de la matriz. Se trata de una aproximación de la
Forma de onda
temporal
2
Presión (unidades
1
arbitrarias)
-1
-2
0 2 4 6 8 10 12
Tiempo
Espectro (ms)
0
-10
Nivel (dB)
-20
-30
-400 1000 2000 3000 4000

5000 6000 7000 8000
Frecuencia (Hz)
Banco de filtros
auditivos
0
-10
Respuesta (dB)
-20
-30
-400 1000 2000 3000 4000

5000 6000 7000 8000
Frecuencia (Hz)
Patrón de
excitación
0
-10
Excitación (dB)
-20
-30
-400 1000 2000 3000 4000

5000 6000 7000 8000
Frecuencia central (Hz)
0 2 4 6 8 10 12
Vibración BM
Tiempo (ms)
Figura 4 Representaciones de un tono armónico complejo con una frecuencia fundamental

(F0) de 440 Hz. El panel superior muestra la forma de onda temporal. El segundo panel
muestra el espectro de potencia de la misma forma de onda. El tercer panel muestra el banco
de filtros auditivos, que representa el filtrado que se produce en la cóclea. El cuarto panel
muestra el patrón de excitación, o la salida promediada en el tiempo del banco de filtros. El
quinto panel muestra algunas formas de onda temporales en la salida del banco de filtros,
incluidos los filtros centrados en la F0 y el cuarto armónico, que ilustran los armónicos
resueltos, y los filtros centrados en el octavo y el duodécimo armónicos del complejo, que
ilustran los armónicos que están menos resueltos y muestran modulaciones de amplitud a una
velocidad correspondiente a la F0.
forma de onda que impulsa las células ciliadas internas de la cóclea, que a su vez
hacen sinapsis con las fibras nerviosas auditivas para producir los trenes de espigas
que el cerebro debe interpretar.
Si se observan los dos paneles inferiores de la Figura 4, es posible ver una
transición a medida que se pasa de los armónicos con números bajos de la izquierda
a los armónicos con números altos de la derecha: Los primeros armónicos generan
picos distintos en el patrón de excitación, porque los filtros en esa región de
frecuencias son más estrechos que el espacio entre armónicos sucesivos. Observe
también que las formas de onda temporales en las salidas de los filtros centrados en
los armónicos de número bajo se asemejan a tonos puros. A mayor número de
armónicos, el ancho de banda de los filtros auditivos es mayor que el espacio entre
armónicos sucesivos, por lo que se pierden los picos individuales en el patrón de
excitación. Del mismo modo, la forma de onda temporal a la salida de los filtros de
frecuencia más alta ya no se asemeja a un tono puro, sino que refleja la interacción
de múltiples armónicos, produciendo una forma de onda compleja que se repite a
una velocidad correspondiente a la F0.
Los armónicos que producen picos distintos en el patrón de excitación y/o
producen vibraciones casi sinusoidales en la membrana basilar se denominan
"resueltos". Fenomenológicamente, los armónicos resueltos son aquellos que pueden
"oírse" como tonos separados en determinadas circunstancias. Normalmente, no
oímos los armónicos individuales cuando escuchamos un tono musical, pero nuestra
atención puede dirigirse a ellos de varias formas, por ejemplo, amplificándolos o
activándolos y desactivándolos mientras los demás armónicos permanecen
continuos (por ejemplo, Bernstein y Oxenham, 2003; Hartmann y Goupell, 2006).
Hermann von Helmholtz ya observó la capacidad de resolver o escuchar armónicos
individuales de bajo número como tonos puros en su obra clásica, On the Sensations
of Tone Perception (Helmholtz, 1885/1954).
Los armónicos numerados más altos, que no producen picos individuales de
excitación y normalmente no pueden oírse, suelen denominarse "no resueltos". Se
cree que la transición entre armónicos resueltos y no resueltos se encuentra en algún
punto entre el 5º y el 10º armónico, dependiendo de varios factores, como la F0 y las
amplitudes relativas de los componentes, así como de cómo se defina la
resolubilidad (por ejemplo, Bernstein y Oxenham, 2003; Houtsma y Smurzynski,
1990; Moore y Gockel, 2011; Shackleton y Carlyon, 1994).
Se han elaborado numerosas teorías y modelos para explicar cómo se extrae el
tono de la información presente en la periferia auditiva (de Cheveigne', 2005). Al
igual que en el caso de los tonos puros, las teorías pueden dividirse en dos categorías
básicas: teorías de lugar y teorías temporales. Las teorías de lugar suelen proponer
que el sistema auditivo utiliza los armónicos resueltos de orden inferior para calcular
el tono (por ejemplo, Cohen, Grossberg y Wyse, 1995; Goldstein, 1973; Terhardt,
1974b; Wightman, 1973). Esto podría lograrse mediante un proceso de ajuste de
plantillas, con plantillas armónicas "programadas" o plantillas que se desarrollan a
través de la exposición repetida a series armónicas, que finalmente se asocian con la
F0. Las teorías temporales suelen implicar la evaluación de los intervalos de tiempo
entre los picos de los nervios auditivos, utilizando una forma de autocorrelación o
histograma de picos de todos los intervalos (Cariani y Delgutte, 1996; Licklider,
1951; Meddis y Hewitt, 1991; Meddis y O'Mard, 1997; Schouten, Ritsma y
musicales
Cardozo, 1962). Esta información puede obtenerse tanto de los armónicos resueltos
como de los no resueltos.
La agrupación de estos picos procedentes de toda la red nerviosa da lugar a la

aparición de un intervalo dominante que corresponde al periodo de la forma de onda
(es decir, el recíproco de la F0). Una tercera alternativa consiste en utilizar tanto la
información de lugar como la temporal. En una versión, la coincidencia temporal
entre neuronas con FCs armónicamente relacionadas se postula para dar lugar a una
red espacial de detectores de coincidencia, una plantilla basada en el lugar que
emerge a través de la información temporal coincidente (Shamma y Klein, 2000). En
otra versión, se postula que el tiempo de impulso-respuesta de los filtros auditivos,
que depende de la FC, determina el rango de periodicidades que una determinada
localización tonotópica puede codificar (de Cheveigne' & Pressnitzer, 2006).
Estudios fisiológicos recientes han apoyado al menos la plausibilidad de los
mecanismos de lugar-tiempo para codificar el tono (Cedolin & Delgutte, 2010).
Distinguir entre los modelos de lugar y tiempo (o lugar-tiempo) del tono ha
resultado muy difícil. En parte, esto se debe a que las representaciones espectral y
temporal de una señal son matemáticamente equivalentes: cualquier cambio en la
representación espectral conducirá automáticamente a un cambio en la
representación temporal, y viceversa. Los intentos psicoacústicos de distinguir entre
mecanismos de lugar y temporales se han centrado en los límites impuestos por la
fisiología periférica en la cóclea y el nervio auditivo. Por ejemplo, los límites de la
selectividad de frecuencia pueden utilizarse para probar la teoría del lugar: si todos
los armónicos están claramente sin resolver (y, por tanto, no proporcionan
información de lugar) y se sigue oyendo un tono, entonces el tono no puede
depender únicamente de la información de lugar. Del mismo modo, se pueden
utilizar los supuestos límites del bloqueo de fase: si la periodicidad de la forma de
onda y las frecuencias de todos los armónicos resueltos están por encima del límite
de bloqueo de fase en el nervio auditivo y se sigue oyendo un tono, es poco probable
que la información temporal sea necesaria para la percepción del tono.
Varios estudios han demostrado que la percepción del tono es posible incluso
cuando los complejos de tonos armónicos se filtran para eliminar todos los
armónicos resueltos de bajo número (Bernstein y Oxenham, 2003; Houtsma y
Smurzynski, 1990; Kaernbach y Bering, 2001; Shackleton y Carlyon, 1994). A una
conclusión similar llegaron los estudios que utilizaron ruido de banda ancha
modulado en amplitud, que no tiene picos espectrales en su espectro a largo plazo
(Burns y Viemeister, 1976, 1981). Estos resultados sugieren que el tono puede
extraerse únicamente a partir de la información temporal, descartando así las teorías
que sólo consideran la codificación de lugar. Sin embargo, la sen- sación del tono
producida por armónicos no resueltos o ruido modulado es relativamente débil en
comparación con el tono de los instrumentos musicales, que producen tonos
complejos armónicos completos.
El tono más destacado que normalmente asociamos con la música lo
proporcionan los armónicos resueltos de menor número. Los estudios que han
investigado las contribuciones relativas de los armónicos individuales han
descubierto que los armónicos 3 a 5 (Moore, Glasberg y Peters, 1985), o las
frecuencias en torno a 600 Hz (Dai, 2000), parecen tener la mayor influencia en el
tono del complejo global. Aquí es donde los modelos temporales actuales también
encuentran alguna dificultad: son capaces de extraer la F0 de un tono complejo tanto
de los armónicos no resueltos como de los resueltos, y por lo tanto no predicen la
musicales
gran diferencia en la saliencia y precisión del tono entre los armónicos de bajo y alto
número que se observa en los estudios psicofísicos (Carlyon, 1998). En otras
palabras, los modelos de lugar no predicen una buena
un rendimiento suficiente con armónicos no resueltos, mientras que los modelos

temporales predicen un rendimiento demasiado bueno. La diferencia aparentemente
cualitativa y cuantitativa en el tono producido por los armónicos de bajo número y
alto número ha llevado a sugerir que puede haber dos mecanismos de tono en
funcionamiento, uno para codificar la tasa de repetición de la envolvente temporal
de los armónicos de alto número y otro para codificar la F0 de los armónicos
individuales de bajo número (Carlyon y Shackleton, 1994), aunque trabajos
posteriores han cuestionado algunas de las pruebas propuestas para los dos
mecanismos (Gockel, Carlyton y Shackleton, 1994). Shackleton, 1994), aunque
trabajos posteriores han cuestionado algunas de las pruebas propuestas para los dos
mecanismos (Gockel, Carlyon y Plack, 2004; Micheyl y Oxenham, 2003).
El hecho de que los armónicos resueltos de bajo número sean importantes sugiere
que la codificación de lugar puede desempeñar un papel en el tono cotidiano. Otras
pruebas proceden de diversos estudios. El estudio mencionado anteriormente que
utilizaba tonos con información temporal de baja frecuencia transpuesta a un rango
de alta frecuencia (Oxenham et al., 2004) estudió la percepción del tono de tonos
complejos transponiendo la información de los armónicos 3, 4 y 5 de una F0 de 100
Hz a regiones de alta frecuencia de la cóclea, aproximadamente 4 kHz, 6 kHz y 10
kHz. Si la información temporal fuera suficiente para provocar un tono de
periodicidad, los oyentes deberían haber sido capaces de oír un tono correspondiente
a 100 Hz. De hecho, ninguno de los oyentes dijo oír un tono bajo o fue capaz de
hacer coincidir el tono de los tonos transpuestos con el de la fundamental que
faltaba. Esto sugiere que, si se utiliza información temporal, puede ser necesario
presentarla en el lugar "correcto" de la cóclea.
Otra línea de evidencia procede de la revisión de las primeras conclusiones de
que no se oye ningún tono cuando todos los armónicos están por encima de unos 5
kHz (Ritsma, 1962). El hallazgo inicial llevó a los investigadores a sugerir que la
información temporal era crucial y que, a frecuencias por encima de los límites del
bloqueo de fase, no se percibía el tono de periodicidad. Un estudio reciente revisó
esta conclusión y descubrió que, de hecho, los oyentes eran capaces de oír tonos
entre 1 y 2 kHz, incluso cuando todos los armónicos se filtraban para que estuvieran
por encima de 6 kHz, y se resolvían lo suficiente como para garantizar que no
hubiera pistas de envolvente temporal disponibles (Oxenham et al., 2011). Este
resultado conduce a una disociación interesante: los tonos por encima de 6 kHz por
sí solos no producen un tono musicalmente útil; sin embargo, esos mismos tonos
cuando se combinan con otros en una serie armónica pueden producir un tono
musical suficiente para transmitir una melodía. Los resultados sugieren que el límite
superior del tono musical puede no explicarse por el límite superior del bloqueo de
fase: el hecho de que el tono pueda oírse incluso cuando todos los tonos están por
encima de 5 kHz sugiere que la información temporal no es necesaria para el tono
musical o que el bloqueo de fase utilizable en el nervio auditivo humano se extiende
a frecuencias mucho más altas de lo que se cree actualmente (Heinz, Colburn y
Carney, 2001; Moore y Se˛k, 2009).
Otra línea de evidencia de la importancia de la información de lugar procede de
estudios que han investigado la relación entre la precisión del tono y los anchos de
banda del filtro auditivo. Moore y Peters (1992) investigaron la relación entre los
anchos de banda del filtro auditivo, medidos mediante técnicas de enmascaramiento
musicales
espectral (Glasberg y Moore, 1990), la discriminación de frecuencias de tonos puros
y la discriminación F0 de tonos complejos en personas jóvenes y mayores con
audición normal y deficiente. Se evaluó a personas con deficiencias auditivas porque
suelen tener anchos de banda de filtro auditivo más amplios de lo normal. Se
obtuvieron resultados muy diversos: algunos
Los participantes con anchos de banda de filtro normales mostraron umbrales de

discriminación de tonos puros y tonos complejos deteriorados; otros con filtros
anormalmente anchos seguían teniendo umbrales de discriminación de tonos puros
relativamente normales. Sin embargo, ninguno de los participantes con filtros
auditivos ensanchados tenía umbrales de discriminación de F0 normales, lo que
sugiere que quizás los filtros más amplios daban lugar a menos armónicos resueltos
o a ninguno y que los armónicos resueltos son necesarios para una discriminación de
F0 precisa. Bernstein y Oxenham (2006a, 2006b) estudiaron esta cuestión más
adelante, aumentando sistemáticamente el armónico más bajo presente en un tono
armónico complejo y midiendo el punto en el que los umbrales de discriminación de
F0 empeoraban. En los oyentes con audición normal, se produce una transición
bastante abrupta de una buena a una mala discriminación del tono a medida que el
armónico más bajo presente aumenta del 9º al 12º (Houtsma y Smurzynski, 1990).
Bernstein y Oxenham razonaron que si el punto de transición está relacionado con la
selectividad de frecuencia y la resolubilidad de los armónicos, entonces el punto de
transición debería disminuir a números armónicos más bajos a medida que los filtros
auditivos se hacen más amplios. Probaron esto en oyentes con deficiencias auditivas
y descubrieron una correlación significativa entre el punto de transición y el ancho
de banda estimado de los filtros auditivos (Bernstein y Oxenham, 2006b), lo que
sugiere que puede ser necesario resolver los armónicos para obtener un tono musical
fuerte. Curiosamente, aunque los armónicos resueltos pueden ser necesarios para
una percepción precisa del tono, puede que no sean suficientes. Bernstein y
Oxenham (2003) aumentaron el número de armónicos resueltos disponibles para los
oyentes presentando armónicos alternos a oídos opuestos. De este modo, se duplicó
el espacio entre los componentes sucesivos en cada oído, duplicando así el número
de armónicos resueltos periféricamente. Los oyentes fueron capaces de escuchar el
doble de armónicos en esta nueva condición, pero eso no mejoró sus umbrales de
discriminación de tonos para el tono complejo. En otras palabras, proporcionar
acceso a armónicos que normalmente no se resuelven no mejora la capacidad de
percepción del tono. Estos resultados son coherentes con las teorías que se basan en
plantillas de tonos. Si el sistema auditivo no dispone normalmente de armónicos, es
poco probable que se incorporen a las plantillas y, por tanto, no se espera que
contribuyan a la percepción del tono cuando se presentan por medios artificiales,
como presentarlos a oídos alternativos.
La mayoría de los sonidos de nuestro mundo, incluidos los producidos por
instrumentos musicales, tienden a tener más energía en las frecuencias bajas que en
las altas; por término medio, la amplitud espectral disminuye a un ritmo aproximado
de 1/f, o -6 dB/octava. Por lo tanto, tiene sentido que el sistema auditivo se base en
los armónicos más bajos para determinar el tono, ya que son los que tienen más
probabilidades de ser audibles. Además, los armónicos resueltos -los que producen
un pico en el patrón de excitación y provocan una respuesta temporal sinusoidal- son
mucho menos susceptibles a los efectos de la reverberación de la sala que los
armónicos no resueltos. Los umbrales de discriminación de tonos para armónicos no
resueltos son relativamente buenos (B2%) cuando todos los componentes tienen la
misma fase inicial (como en un flujo de pulsos). Sin embargo, los umbrales son
mucho peores cuando las relaciones de fase están entremezcladas, como ocurriría en
una sala reverberante o en una iglesia, y los umbrales de discriminación de los
musicales
oyentes pueden ser tan pobres como un 10%, más de un semitono musical. En
cambio, la reverberación no afecta significativamente a la respuesta a los armónicos
resueltos: el cambio de la fase inicial de una sinusoide no afecta a su respuesta.
sigue siendo una sinusoide, con umbrales de discriminación de frecuencias muy

inferiores al 1%.
Varios estudios fisiológicos y de neuroimagen han buscado representaciones del
tono más allá de la cóclea (Winter, 2005). Se han encontrado correlaciones
potenciales de la periodicidad en estudios de unidades individuales y múltiples del
núcleo coclear (Winter, Wiegrebe y Patterson, 2001), en el colículo inferior
(Langner y Schreiner, 1988) y en el córtex auditivo (Bendor y Wang, 2005). Los
estudios de neuroimagen en humanos también han encontrado correlatos de
periodicidad en el tronco encefálico (Griffiths, Uppenkamp, Johnsrude, Josephs y
Patterson, 2001), así como en estructuras corticales auditivas (Griffiths, Buchel,
Frackowiak y Patterson, 1998). Más recientemente, Penagos, Melcher y Oxenham
(2004) identificaron una región en la corteza auditiva humana que parecía sensible al
grado de prominencia del tono, en contraposición a parámetros físicos como la F0 o
la región espectral. Sin embargo, estos estudios no están exentos de controversia.
Por ejemplo, Hall y Plack (2009) no encontraron ninguna región en la corteza
auditiva humana que respondiera al tono, independientemente de otros parámetros
del estímulo. Del mismo modo, en un estudio fisiológico de la corteza auditiva del
hurón, Bizley, Walker, Silverman, King y Schnupp (2009) hallaron una codificación
interdependiente del tono, el timbre y la ubicación espacial y no encontraron
ninguna región específica del tono.
En resumen, el tono de los tonos complejos de un solo armónico viene
determinado principalmente por los primeros 5 a 8 armónicos, que son también los
que se cree que se resuelven en el sistema auditivo periférico. Para extraer el tono, el
sistema auditivo debe combinar y sintetizar de algún modo la información de estos
armónicos. La forma exacta en que esto ocurre en el sistema auditivo sigue siendo
objeto de investigación.
C. Timbre
La definición oficial ANSI de timbre es: "Aquel atributo de la sensación auditiva
que permite a un oyente juzgar que dos sonidos no idénticos, presentados de forma
similar y con la misma intensidad y tono, son diferentes" (ANSI, 1994). La norma
continúa señalando que el timbre depende principalmente del espectro de
frecuencias del sonido, pero también puede depender de la presión sonora y de las
características temporales. En otras palabras, todo lo que no sea tono o sonoridad es
timbre. Como el timbre tiene su propio capítulo en este volumen (Capítulo 2), no se
tratará más aquí. Sin embargo, el timbre aparece en la siguiente sección, donde se
aborda su influencia en los juicios sobre el tono y la sonoridad.
D. Interacciones sensoriales e influencias intermodales

Las sensaciones auditivas de volumen, tono y timbre se estudian en su mayor parte
de forma independiente. Sin embargo, existen numerosas pruebas de que estas
dimensiones sensoriales no son estrictamente independientes. Además, otras
modalidades sensoriales, en particular la visión, pueden tener efectos considerables
musicales
en los juicios auditivos de los sonidos musicales.
Aumento de la luminosidad
F0 alta, pico espectral bajo F0 alto, pico espectral alto

Aumento del
Nivel (dB)
F0 bajo, pico espectral bajo F0 bajo, pico espectral alto

tono
Frecuencia
Figura 5 Representaciones de F0 y pico espectral, que afectan principalmente a las

sensaciones de tono y timbre, respectivamente.
1. Interacciones entre tono y timbre

El tono y el timbre son las dos dimensiones que más se confunden, sobre todo entre
las personas sin formación musical. Aumentar la F0 del tono complejo produce un
aumento del tono, mientras que cambiar el centro de gravedad espectral del tono
aumenta su brillo, un aspecto del timbre (Figura 5). En ambos casos, cuando se les
pedía que describieran el cambio, muchos oyentes se limitaban a decir que el sonido
era "más agudo".
En general, a los oyentes les resulta difícil ignorar los cambios en el timbre
cuando emiten juicios sobre el tono. Numerosos estudios han demostrado que la
JND para F0 aumenta cuando los dos sonidos a comparar también varían en
contenido espectral (por ejemplo, Borchert, Micheyl y Oxenham, 2011; Faulkner,
1985; Moore y Glasberg, 1990). En principio, esto podría deberse a que el cambio
en la forma espectral afecta realmente al tono o a que los oyentes tienen dificultades
para ignorar los cambios tímbricos y concentrarse únicamente en el tono. Los
estudios que utilizan la correspondencia de tonos han descubierto generalmente que
los tonos complejos armónicos se corresponden mejor con una frecuencia de tono
puro correspondiente a la F0, independientemente del contenido espectral del tono
complejo (por ejemplo, Patterson, 1973), lo que significa que los efectos
perjudiciales de la diferencia de timbre pueden estar relacionados más con un efecto
de "distracción" que con un cambio genuino en el tono (Moore y Glasberg, 1990).
2. Efectos de los cambios de tono o timbre en la precisión de los

juicios de sonoridad
Al igual que los oyentes tienen más dificultades para juzgar el tono cuando varía el
timbre, las comparaciones de sonoridad entre dos sonidos son mucho más difíciles
cuando el tono o el timbre de los dos sonidos difieren. Por ejemplo, es difícil
musicales
comparar la sonoridad de dos tonos puros de frecuencias diferentes.
(Gabriel et al., 1997; Oxenham & Buus, 2000), y la dificultad de comparar la

sonoridad de tonos de distinta duración, aunque tengan la misma frecuencia
(Florentine, Buus, & Robinson, 1998).
3. Influencias visuales en los atributos auditivos

Como sabrá cualquiera que haya visto a un músico virtuoso, la información visual
afecta a la experiencia estética del público. En los últimos años también se han
observado influencias más directas de la visión en las sensaciones auditivas, y
viceversa. Por ejemplo, el ruido que se presenta simultáneamente con una luz tiende
a calificarse como más fuerte que el ruido presentado sin luz (Odgaard, Arieh y
Marks, 2004). Curiosamente, este efecto parece ser de naturaleza sensorial, más que
un efecto de decisión "tardío" o un cambio de criterio; por el contrario, efectos
similares del ruido sobre el brillo aparente de la luz (Stein, London, Wilkinson y
Price, 1996) parecen derivarse de mecanismos de decisión y fijación de criterios de
nivel superior (Odgaard, Arieh y Marks, 2003). Por otro lado, combinaciones
recientes de técnicas conductuales y de neuroimagen han sugerido que la
combinación de sonido con luz puede provocar un aumento de la sensibilidad a la
luz de bajo nivel, que se refleja en cambios en la activación de los órganos
sensoriales (Noesselt et al., 2010).
Las señales visuales también pueden afectar a otros atributos del sonido. Por
ejemplo, Schutz y sus colegas (Schutz y Kubovy, 2009; Schutz y Lipscomb, 2007)
han demostrado que los gestos realizados en la interpretación musical pueden afectar
a la duración percibida de un sonido musical: un gesto corto o "staccato" de un
marimbista dio lugar a juicios de duración del tono más cortos que un gesto largo
del músico, aunque el tono en sí fuera idéntico. Curiosamente, esto no ocurre con los
sonidos sostenidos, como el clarinete, en los que la información visual tiene un
impacto mucho menor en la valoración de la duración. La diferencia puede estar
relacionada con la caída exponencial de los sonidos de percusión, que no tienen un
final claramente definido, lo que permite a los oyentes cambiar su criterio sobre el
punto final para ajustarse mejor a la información visual.
III. Percepción de combinaciones de sonidos

A. Percepción y agrupación de objetos
Cuando se presenta un tono musical, como una nota de violín o una vocal cantada,
normalmente oímos un único sonido con un único tono, aunque en realidad la nota
esté formada por muchos tonos puros diferentes, cada uno con su propia frecuencia
y tono. Esta "fusión perceptiva" se debe en parte a que todos los tonos puros
empiezan y terminan aproximadamente al mismo tiempo, y en parte a que forman
una única serie armónica (Darwin, 2005). La importancia de la sincronía de inicio y
fin puede demostrarse retrasando uno de los componentes con respecto a todos los
demás. Un retraso de sólo unas decenas de milisegundos es suficiente para que el
componente retrasado "salte" y se oiga como un objeto separado. Del mismo modo,
si un componente está mal sintonizado en comparación con el resto del complejo, se
oirá como un objeto separado, siempre que la desintonización sea lo suficientemente
musicales
grande. Para los armónicos de bajo número, una desintonización de un armónico de
entre el 1 y el 3% es suficiente.
suficiente para que "salte" (Moore, Glasberg y Peters, 1986). Curiosamente, un

armónico mal afinado puede oírse por separado, pero puede seguir contribuyendo al
tono global del complejo; de hecho, un solo armónico mal afinado sigue
contribuyendo al tono global del complejo, incluso cuando está mal afinado hasta en
un 8%, muy por encima del umbral para oírlo como un objeto separado (Darwin y
Ciocca, 1992; Darwin, Hukin y al-Khatib, 1995; Moore et al., 1985). Este es un
ejemplo de fallo de la "asignación disjunta": un único componente no se asigna de
forma disjunta a un único objeto auditivo (Liberman, Isenberg y Rakerd, 1981;
Shinn-Cunningham, Lee y Oxenham, 2007).
B. Percepción de lanzamientos múltiples

¿Cuántos tonos podemos oír a la vez? Teniendo en cuenta todos los instrumentos de
una orquesta, cabría esperar que el número fuera bastante alto, y un director bien
entrenado será capaz en muchos casos de oír una nota incorrecta tocada por un solo
instrumento de la orquesta. Pero, ¿somos conscientes de todos los tonos que se
presentan a la vez y podemos contarlos? Huron (1989) sugirió que el número de
"voces" independientes que podemos percibir y contar es bastante bajo. Huron
(1989) utilizó sonidos de timbre homogéneo (notas de órgano) y reprodujo a los
participantes secciones de una pieza de música polifónica para órgano de J. S. Bach
con entre una y cinco voces sonando simultáneamente. A pesar de que la mayoría de
los participantes tenían formación musical, su capacidad para juzgar con precisión
el número de voces presentes disminuía drásticamente cuando el número de voces
realmente presentes superaba las tres. Utilizando estímulos mucho más sencillos,
consistentes en varios tonos puros simultáneos, Demany y Ramos (2005) hicieron el
interesante descubrimiento de que los participantes no podían decir si un
determinado tono estaba presente o ausente del acorde, pero se daban cuenta si su
frecuencia cambiaba en la siguiente presentación. En otras palabras, los listeners
detectaban un cambio en la frecuencia de un tono que en sí mismo pasaba
desapercibido. Tomados en conjunto con los resultados de Huron (1989), los datos
sugieren que los tonos de muchos tonos pueden procesarse simultáneamente, pero
que los oyentes sólo pueden con-
cientemente consciente de un subconjunto de entre tres y cuatro en un momento dado.
C. El papel de la selectividad frecuencial en la percepción de tonos múltiples

1. Rugosidad
Cuando se suman dos tonos puros de distinta frecuencia, la forma de onda resultante
fluctúa en amplitud a un ritmo correspondiente a la diferencia de las dos frecuencias.
Estas fluctuaciones de amplitud, o "latidos", se ilustran en la Figura 6, que muestra
cómo los dos tonos están a veces en fase, y se suman constructivamente (A), y a
veces fuera de fase, y se cancelan (B). A frecuencias de batido inferiores a unos 10
Hz, oímos las fluctuaciones individuales, pero una vez que la frecuencia aumenta
por encima de unos 12 Hz, ya no somos capaces de seguir las fluctuaciones
individuales y en su lugar percibimos un sonido "áspero" (Daniel y Weber, 1997;
musicales
Terhardt, 1974a).
B A Figura 6 Ilustración de los latidos

creados por la suma de dos sinusoides
con frecuencias ligeramente diferentes.
En algunos momentos, las dos formas de
onda están en fase y se suman
constructivamente (A); en otros
momentos, las dos formas de onda están
en antifase y sus formas de onda se
suman constructivamente (B).
+ cancelar (B). La forma de onda resultante
fluctúa a un ritmo correspondiente al
diferencia de las dos frecuencias.
Tiempo
Según los estudios sobre la rugosidad, la percepción es máxima a frecuencias de

alrededor de 70 Hz y luego disminuye. La disminución de la aspereza percibida al
aumentar la frecuencia se debe en parte a que el sistema auditivo se vuelve menos
sensible a la modulación por encima de unos 100 a 150 Hz, y en parte a los efectos
del filtrado auditivo (Kohlrausch, Fassel y Dau, 2000): Si los dos tonos no caen
dentro del mismo filtro auditivo, el efecto de batido se reduce porque los tonos no
interactúan para formar la forma de onda compleja; en su lugar (como ocurre con los
armónicos resueltos) cada tono se representa por separado en la periferia auditiva.
Por lo tanto, la percepción de los latidos depende en gran medida de las
interacciones periféricas en el oído. (Los batimentos binaurales también se producen
entre sonidos presentados en oídos opuestos, pero son mucho menos salientes y se
escuchan en un rango mucho menor de diferencias de frecuencia; véase Licklider,
Webster y Hedlun, 1950).
La percepción de aspereza resultante de los golpes se ha utilizado para explicar
una serie de fenómenos musicales. En primer lugar, los acordes que se tocan en los
registros graves suelen sonar "turbios", y la teoría musical exige que las notas de un
acorde estén más separadas que en los registros agudos. Esto puede deberse, en
parte, a que los filtros auditivos son relativamente más anchos a bajas frecuencias
(por debajo de 500 Hz), lo que provoca interacciones periféricas más fuertes y, por
tanto, una mayor aspereza para los tonos que están separados por un intervalo
musical constante. En segundo lugar, se ha planteado la hipótesis de que la
rugosidad subyace en parte al atributo de disonancia que se utiliza para describir
musicales
combinaciones desagradables de notas. La relación entre disonancia y batido se
analiza con más detalle en la Sección III,D.
2. Percepción tonal de múltiples sonidos

A pesar del importante papel que desempeñan las combinaciones de tonos o acordes
en la música, son relativamente pocos los estudios psicoacústicos que han
examinado su percepción. Beerends y Houtsma (1989) utilizaron tonos complejos
formados por sólo dos armónicos consecutivos cada uno. Aunque el tono de estos
complejos de dos componentes es relativamente débil, con la práctica, los oyentes
pueden aprender a identificar con precisión la F0 de dichos complejos. Beerends y
Houtsma descubrieron que los oyentes eran capaces de identificar los tonos de los
dos complejos, incluso si los armónicos de un sonido se presentaban a oídos
diferentes. La única excepción era cuando todos los componentes se presentaban a
un oído y ninguno de los cuatro componentes se consideraba "resuelto". En ese caso,
los oyentes no fueron capaces de identificar ninguno de los tonos con precisión.
Carlyon (1996) utilizó complejos de tonos armónicos con más armónicos y los
filtró para que tuvieran envolventes espectrales completamente superpuestas.
Comprobó que cuando ambos complejos estaban compuestos por armónicos
resueltos, los oyentes eran capaces de oír el tono de un complejo en presencia del
otro. Sin embargo, el hallazgo sorprendente fue que cuando ambos complejos se
componían sólo de armónicos no resueltos, los oyentes no oían ningún tono, sino
que describían la percepción como un "crujido" no musical. Para evitar la
ambigüedad, Carlyon (1996) utilizó armónicos altamente resueltos o altamente no
resueltos. Por ello, no estaba claro si era la capacidad de resolución de los armónicos
antes o después de mezclar los dos sonidos lo que determinaba si cada tono producía
un tono claro. Micheyl y sus colegas abordaron esta cuestión utilizando diversas
combinaciones de región espectral y F0 para variar la resolubilidad relativa de los
componentes (Micheyl, Bernstein y Oxenham, 2006; Micheyl, Keebler y Oxenham,
2010). Al comparar los resultados con simulaciones de filtrado auditivo,
descubrieron que sólo era posible una buena dis- criminación del tono cuando al
menos dos de los armónicos del sonido objetivo se consideraban resueltos tras
mezclarse con el otro sonido (Micheyl et al., 2010). Los resultados son coherentes
con las teorías de lugar del tono que se basan en armónicos resueltos; sin embargo,
puede ser posible adaptar los modelos de tono basados en el tiempo para explicar el
fenómeno de forma similar (por ejemplo, Bernstein y Oxenham, 2005).
D. Consonancia y disonancia
La cuestión de cómo suenan determinadas combinaciones de tonos cuando se tocan
juntos es fundamental en muchos aspectos de la teoría musical. Las combinaciones
de dos tonos que forman ciertos intervalos musicales, como la octava y la quinta,
suelen considerarse agradables o consonantes, mientras que otras, como la cuarta
aumentada (tri-tono), suelen considerarse desagradables o disonantes. Estos tipos de
percepciones que implican tonos presentados aislados de un contexto musical se han
denominado consonancia o disonancia sensorial. El término consonancia musical
(Terhardt, 1976, 1984) engloba factores sensoriales, pero también incluye muchos
otros factores que contribuyen a que una combinación de sonidos se considere
consonante o disonante, como el contexto (qué sonidos la preceden), el estilo de
música (por ejemplo, jazz o clásica) y, presumiblemente, también el gusto personal
musicales
y la historia musical del oyente.
Hace tiempo que se buscan los correlatos acústicos y fisiológicos de la

consonancia y la disonancia, remontándose a las observaciones de Pitágoras de que
las cuerdas cuyas longitudes guardaban una relación de proporción numérica
pequeña (por ejemplo, 2:1 o 3:2) sonaban agradablemente juntas. Helmholtz
(1885/1954) sugirió que la consonancia podría estar relacionada con la ausencia de
batimentos (percibidos como asperezas) en los sonidos musicales. Plomp y Levelt
(1965) desarrollaron la idea demostrando que la clasificación por consonancia de los
intervalos musicales dentro de una octava se predecía bien por el número de pares de
componentes dentro de los dos tonos complejos que caían dentro de los mismos
filtros auditivos y, por tanto, causaban batimentos audibles (véase también Kameoka
y Kuriyagawa, 1969a, 1969b). Cuando dos tonos complejos forman un intervalo
consonante, como una octava o una quinta, los armónicos coinciden exactamente,
por lo que no producen batimentos, o están tan separados que no producen
batimentos fuertes. Por el contrario, cuando los tonos forman un intervalo disonante,
como una segunda menor, ninguno de los componentes coincide, pero muchos están
lo suficientemente cerca como para producir pulsaciones.
Otra teoría alternativa de la consonancia se basa en la "armonicidad" de la
combinación de sonidos, o en lo mucho que se parece a una serie armónica única.
Consideremos, por ejemplo, dos tonos complejos que forman el intervalo de una
quinta perfecta, con F0s de 440 y 660 Hz. Todos los componentes de ambos tonos
son múltiplos de un único F0-220 Hz-y, por tanto, según la explicación de la
armonicidad de la consonancia, deberían sonar consonantes. Por el contrario, los
armónicos de dos tonos que forman una cuarta aumentada, con F0s de 440 Hz y 622
Hz, no se aproximan a ninguna serie armónica única dentro del rango de tonos
audibles, por lo que deberían sonar disonantes, como se ha descubierto
empíricamente. La teoría de la armonicidad de la consonancia puede aplicarse
utilizando un modelo de plantilla espectral (Terhardt, 1974b) o utilizando
información temporal, derivada, por ejemplo, de los picos del nervio auditivo
(Tramo, Cariani, Delgutte y Braida, 2001).
Dado que las teorías de la pulsación y la armonicidad de la consonancia y la
disonancia producen predicciones muy similares, ha sido difícil distinguirlas
experimentalmente. Un estudio reciente ha dado un paso hacia este objetivo
examinando las diferencias individuales en un grupo grande (.200) de participantes
(McDermott, Lehr, & Oxenham, 2010). En primer lugar, se pidió a los oyentes que
puntuaran los estímulos "diag- nósticos" que variaban en ritmo pero no en
armonicidad, o viceversa. A continuación, se pidió a los oyentes que indicaran sus
preferencias por diversas combinaciones de sonidos musicales, incluidas díadas
(acordes de dos notas) y tríadas (acordes de tres notas), utilizando instrumentos
musicales y voces naturales y artificiales. Cuando se compararon las puntuaciones
en los dos tipos de tareas, las correlaciones entre las puntuaciones de las pruebas de
diagnóstico de har- monicidad y los sonidos musicales fueron significativas, pero las
correlaciones entre las puntuaciones de las pruebas de diagnóstico de latido y los
sonidos musicales no lo fueron. Curiosamente, el número de años de formación
musical formal también se correlacionó con las puntuaciones de armonicidad y
preferencia musical, pero no con las puntuaciones de batido. En general, los
resultados sugieren que la armonicidad, más que la ausencia de batido, subyace a las
preferencias de consonancia de los oyentes y que la formación musical puede
musicales
amplificar la preferencia por las relaciones armónicas.
Los estudios sobre el desarrollo han demostrado que los bebés de tan sólo 3 o 4 meses
muestran
una preferencia por los intervalos musicales consonantes frente a los disonantes
(Trainor & Heinmiller,
1998; Zentner y Kagan, 1996, 1998). Sin embargo, aún no se sabe si los bebés
responden más a los ritmos o a la inarmonicidad, o a ambos. Sería interesante
descubrir si las preferencias de los adultos por la armonicidad reveladas por
McDermott et al. (2010) son compartidas por los bebés, o si los bebés basan
inicialmente sus preferencias en los batimentos acústicos.
IV. Conclusiones y perspectivas

Aunque la percepción de los tonos musicales debe considerarse principalmente en
contextos musicales, se puede aprender mucho sobre las interacciones entre la
acústica, la fisiología auditiva y la percepción mediante experimentos psicoacústicos
que utilizan estímulos y procedimientos relativamente sencillos. Los
descubrimientos recientes sobre psicoacústica, solos o en combinación con
neurofisiología y neuroimagen, han ampliado nuestros conocimientos sobre cómo se
perciben y representan neuralmente el tono, el timbre y la sonoridad, tanto para
tonos aislados como combinados. Sin embargo, aún queda mucho por descubrir.
Entre las tendencias importantes se incluye el uso de estímulos más naturalistas en
los experimentos y para probar modelos computacionales de percepción, así como la
combinación simultánea de medidas perceptivas y neuronales cuando se intenta
dilucidar los mecanismos neuronales subyacentes de la percepción auditiva.
Utilizando los bloques de construcción proporcionados por la psicoacústica de tonos
musicales individuales y simultáneos, es posible proceder a responder preguntas
mucho más sofisticadas sobre la percepción de la música a medida que se desarrolla
en el tiempo. Estas y otras cuestiones se abordan en los restantes capítulos de este
volumen.
Agradecimientos
Emily Allen, Christophe Micheyl y John Oxenham aportaron comentarios útiles sobre una
versión anterior de este capítulo. El trabajo del laboratorio del autor está financiado por los
Institutos Nacionales de la Salud (subvenciones R01 DC 05216 y R01 DC 07657).
Referencias
Instituto Nacional Estadounidense de Normalización. (1994). Terminología acústica. ANSI
S1.1-1994.
Nueva York, NY: Autor.
Arieh, Y., y Marks, L. E. (2003a). Recalibrando el sistema auditivo: A speed-accuracy
analysis of intensity perception. Journal of Experimental Psychology: Human
Perception and Performance, 29, 523-536.
Arieh, Y., y Marks, L. E. (2003b). Time course of loudness recalibration: Implications for
loudness enhancement. Journal of the Acoustical Society of America, 114, 1550 -
1556.
Attneave, F., y Olson, R. K. (1971). El tono como medio: A new approach to psychophysical
musicales
scaling. American Journal of Psychology, 84, 147-166.
Beerends, J. G., & Houtsma, A. J. M. (1989). Pitch identification of simultaneous diotic and
dichotic two-tone complexes. Journal of the Acoustical Society of America, 85, 813 819.
Bendor, - D., & Wang, X. (2005). The neuronal representation of pitch in primate auditory
cortex. Nature, 436, 1161-1165.
Bernstein, J. G., y Oxenham, A. J. (2003). Pitch discrimination of diotic and dichotic tone
complexes: ¿Resolubilidad armónica o número armónico? Journal of the Acoustical
Society of America, 113, 3323-3334.
Bernstein, J. G., y Oxenham, A. J. (2005). An autocorrelation model with place dependence
to account for the effect of harmonic number on fundamental frequency discrimination.
Journal of the Acoustical Society of America, 117, 3816 - 3831.
Bernstein, J. G., & Oxenham, A. J. (2006a). La relación entre la selectividad de frecuencia y
la discriminación de tono: Efectos del nivel de estímulo. Journal of the Acoustical
Society of America,- 120, 3916 3928.
Bernstein, J. G., & Oxenham, A. J. (2006b). La relación entre la selectividad de frecuencia y
la discriminación de tono: Pérdida auditiva neurosensorial. Journal of the Acoustical
Society of America, 120,- 3929 3945.
Bizley, J. K., Walker, K. M., Silverman, B. W., King, A. J., & Schnupp, J. W. (2009).
Codificación interdependiente de tono, timbre y ubicación espacial en la corteza
auditiva. Journal of Neuroscience, - 29, 2064 2075.
Borchert, E. M., Micheyl, C., & Oxenham, A. J. (2011). Perceptual grouping affects pitch
judgments across time and frequency. Journal of Experimental Psychology: Human
Burns, E. M., y Viemeister, N. F. (1976). Nonspectral pitch. Journal of the Acoustical Society
of America, 60, 863 869. -
Burns, E. M., y Viemeister, N. F. (1981). Reproducido de nuevo SAM: Observaciones
adicionales sobre el tono del ruido modulado en amplitud. Journal of the Acoustical
Society
- of America, 70, 1655 1660.
Buus, S., Muesch, H. y Florentine, M. (1998). On loudness at threshold. Journal of the
Acoustical Society of America, 104, 399-410.
Cariani, P. A., y Delgutte, B. (1996). Neural correlates of the pitch of complex tones.
I. Pitch and pitch salience. Journal of Neurophysiology, 76, 1698 - 1716.
Carlyon, R. P. (1996). Encoding the fundamental frequency of a complex tone in the pres-
ence of a spectrally overlapping masker. Journal of the Acoustical Society of America,
99, 517-524.
Carlyon, R. P. (1998). Comments on "A unitary model of pitch perception" [Journal of the
Acoustical Society of America, 102, 1811 1820 - (1997)]. Journal of the Acoustical
Carlyon, R. P., y Shackleton, T. M. (1994). Comparación de las frecuencias fundamentales de
armónicos resueltos y no resueltos: ¿Evidencia de dos mecanismos de tono? Journal of
the Acoustical Society of America, 95, 3541
- 3554.
Cedolin, L., & Delgutte, B. (2010). Representación espaciotemporal del tono de los tonos
complejos armónicos en el nervio auditivo. Journal of Neuroscience, 30, 12712
- 12724.
Chalupper, J., & Fastl, H. (2002). Dynamic loudness model (DLM) for normal and hearing-
impaired listeners. Acta Acustica unida a Acustica, 88, 378 386. -
Chen, Z., Hu, G., Glasberg, B. R., & Moore, B. C. (2011). A new method of calculating
auditory excitation patterns and loudness for steady sounds. Hearing Research, 282 (1-
2), 204-215.
musicales
Cohen, M. A., Grossberg, S. y Wyse, L. L. (1995). A spectral network model of pitch per-
ception. Journal of the Acoustical Society of America, 98, 862 - 879.
Dai, H. (2000). On the relative influence of individual harmonics on pitch judgment. Journal
of the Acoustical Society of America, 107, 953-959.
Daniel, P., y Weber, R. (1997). Rugosidad psicoacústica: Implementación de un modelo opti-
mizado. Acustica, 83, 113 123. -
Darwin, C. J. (2005). Tono y agrupación auditiva. En C. J. Plack, A. J. Oxenham, R. Fay, &
A. N. Popper (Eds.), Pitch: Neural coding and perception (pp. 278 305). - Nueva York,
NY: Springer Verlag.
Darwin, C. J., y Ciocca, V. (1992). Grouping in pitch perception: Effects of onset asyn-
chrony and ear of presentation of a mistuned component. Journal of the Acoustical
Darwin, C. J., Hukin, R. W., & al-Khatib, B. Y. (1995). Agrupación en la percepción del
tono: Evidence for sequential constraints. Journal of the Acoustical Society of America,
98, -
880 885.
de Boer, E. (1956). On the "residue" in hearing (Tesis doctoral inédita). Países Bajos:
Universidad de Amsterdam.
de Cheveigne', A. (2005). Modelos de percepción del tono. En C. J. Plack, A. J. Oxenham,
A. N. Popper, & R . Fay (Eds.), Pitch: Codificación neuronal y percepción
(pp. 169 -233). Nueva York, NY: Springer Verlag.
de Cheveigne', A., & Pressnitzer, D. (2006). El caso de las líneas de retardo perdidas:
Retardos sintéticos obtenidos por interacción de fase entre canales. Journal of the
Acoustical Society of-America, 119, 3908 3918.
Demany, L., y Ramos, C. (2005). On the binding of successive sounds: perceiving shifts in
nonperceived pitches. Journal of the Acoustical Society of America, 117, 833 841.
Durlach, -N. I., y Braida, L. D. (1969). Intensity perception. I. Preliminary theory of intensity
resolution. Journal of the Acoustical Society of America, 46, 372-383.
Epstein, M., y Florentine, M. (2005). A test of the equal-loudness-ratio hypothesis using
cross-modality matching functions. Journal of the Acoustical Society of America, 118,
907- 913.
Faulkner, A. (1985). Discriminación del tono de señales armónicas complejas:
Discriminación del tono residual o de componentes múltiples. Journal of the Acoustical
Society
- of America, 78, 1993 2004.
Fechner, G. T. (1860). Elemente der psychophysik (Vol. 1). Leipzig, Alemania: Breitkopf
und Haertl.
Fletcher, H., y Munson, W. A. (1933). Loudness, its definition, measurement and calculation.
Journal of the Acoustical Society of America, 5, 82-108.
Fletcher, H., y Munson, W. A. (1937). Relation between loudness and masking. Journal of
the Acoustical Society of America, 9, 1-10.
Florentine, M., Buus, S., & Robinson, M. (1998). Temporal integration of loudness under
partial masking. Journal of the Acoustical Society of America, 104, 999 - 1007.
Gabriel, B., Kollmeier, B. y Mellert, V. (1997). Influence of individual listener, measure-
ment room and choice of test-tone levels on the shape of equal-loudness level contours.
Acustica, 83, 670-683.
Galambos, R., Bauer, J., Picton, T., Squires, K., & Squires, N. (1972). Loudness enhance-
ment following contralateral stimulation. Journal of the Acoustical Society of America,
52(4), 1127-1130.
Glasberg, B. R., y Moore, B. C. J. (1990). Derivation of auditory filter shapes from notched-
noise data. Hearing Research, 47, 103 138. -
Glasberg, B. R., y Moore, B. C. J. (2002). A model of loudness applicable to time-varying
sounds. Journal of the Audio Engineering Society, 50, 331- 341.
Gockel, H., Carlyon, R. P., & Plack, C. J. (2004). Efectos de interferencia entre frecuencias en
la discriminación de frecuencias fundamentales: Questioning evidence for two pitch
mechanisms. Journal of the Acoustical Society of America, - 116, 1092 1104.
Goldstein, J. L. (1973). Una teoría de procesador óptimo para la formación central del tono de
tonos complejos. Journal of the Acoustical Society of America, 54, 1496 1516.
Griffiths, -
T. D., Buchel, C., Frackowiak, R. S. y Patterson, R. D. (1998). Analysis of tem-
poral structure in sound by the human brain. Nature Neuroscience, 1, 422-427.
-
Griffiths, T. D., Uppenkamp, S., Johnsrude, I., Josephs, O. y Patterson, R. D. (2001).
Codificación de la regularidad temporal del sonido en el tronco encefálico humano.
Nature Neuroscience,-4, 633 637.
Hall, D. A., & Plack, C. J. (2009). Lugares de procesamiento del tono en el cerebro auditivo
humano.
Corteza cerebral, 19, 576-585.
Hartmann, W. M., y Goupell, M. J. (2006). Enhancing and unmasking the harmonics of a
complex tone. Journal of the Acoustical Society of America, 120, 2142 - 2157.
Heinz, M. G., Colburn, H. S., & Carney, L. H. (2001). Evaluación de los límites del
rendimiento auditivo: I. One-parameter discrimination using a computational model for
the auditory nerve. Neural Computation,- 13, 2273 2316.
Hellman, R. P. (1976). Growth of loudness at 1000 and 3000 Hz. Journal of the Acoustical
Hellman, R. P., y Zwislocki, J. (1964). Loudness function of a 1000-cps tone in the presence
of a masking noise. Journal of the Acoustical Society of America, 36, 1618 - 1627.
Helmholtz, H. L. F. (1885/1954). On the sensations of tone (A. J. Ellis, Trans.). Nueva York,
NY: Dover.
Henning, G. B. (1966). Discriminación en frecuencia de tonos de amplitud aleatoria. Journal of
the Acoustical Society of America, 39, -336 339.
Houtsma, A. J. M., & Smurzynski, J. (1990). Pitch identification and discrimination for complex
tones with many harmonics. Journal of the Acoustical Society of America, 87, 304 - 310.
Huron, D. (1989). Voice denumerability in polyphonic music of homogenous timbres. Music
Perception, 6, 361-382.
Jesteadt, W., Wier, C. C., & Green, D. M. (1977). Intensity discrimination as a function of
frequency and sensation level. Revista de la Sociedad Acústica de América, 61,
169- 177.
Kaernbach, C., y Bering, C. (2001). Exploración del mecanismo temporal implicado en el
tono de armónicos no resueltos. Journal of the Acoustical Society of America, 110, 1039
1048.-
Kameoka, A., y Kuriyagawa, M. (1969a). Consonance theory part I: Consonance of dyads.
Kameoka, A., & Kuriyagawa, M. (1969b). Consonance theory part II: Consonance of com-
plex tones and its calculation method. Journal of the Acoustical Society of America, 45,
1460- 1469.
Keuss, P. J., & van der Molen, M. W. (1982). Efectos positivos y negativos de la intensidad
del estímulo en tareas de reacción auditiva: Further studies on immediate arousal. Acta
Psychologica, 52, 61-72.
musicales
Kohfeld, D. L. (1971). Simple reaction time as a function of stimulus intensity in decibels of
light and sound. Journal of Experimental Psychology, 88, 251 - 257.
Kohlrausch, A., Fassel, R., & Dau, T. (2000). The influence of carrier level and frequency on
modulation and beat-detection thresholds for sinusoidal carriers. Journal of the
Langner, G., y Schreiner, C. E. (1988). Periodicity coding in the inferior colliculus of the cat.
I. Neuronal mechanisms. Journal of Neurophysiology, 60, 1799 1822. -
Liberman, A. M., Isenberg, D. y Rakerd, B. (1981). Duplex perception of cues for stop con-
sonants: Evidence for a phonetic mode. Perception & Psychophysics, 30, 133 143. -
Licklider, J. C., Webster, J. C., y Hedlun, J. M. (1950). On the frequency limits of binaural
beats. Journal of the Acoustical Society of America, 22, 468 - 473.
Licklider, J. C. R. (1951). A duplex theory of pitch perception. Experientia, 7, 128 133.
- Loeb,
G. E., White, M. W. y Merzenich, M. M. (1983). Spatial cross correlation: A pro-
de la percepción del tono acústico. Biological Cybernetics, 47, 149 163. Luce, R. - D., &
Green, D. M. (1972). A neural timing theory for response times and the psy-
chos de intensidad. Psychological Review, 79, 14 57. -
Mapes-Riordan, D., y Yost, W. A. (1999). Recalibración de la sonoridad en función del nivel.
Marks, L. E. (1994). "Recalibrando" el sistema auditivo: La percepción del volumen.
Revista de Psicología Experimental: Percepción y Rendimiento Humanos, 20,
382- 396.
Mauermann, M., Long, G. R., & Kollmeier, B. (2004). Fine structure of hearing threshold and
loudness perception. Journal of the Acoustical Society of America, 116, 1066 -1080.
McDermott, J. H., Lehr, A. J., & Oxenham, A. J. (2010). Las diferencias individuales revelan
la base de la consonancia. Current Biology, 20, - 1035 1041.
Meddis, R., & Hewitt, M. (1991). Sensibilidad virtual de tono y fase estudiada de un modelo
informático de la periferia auditiva. I: Identificación del tono. Journal of the Acoustical
Meddis, R., y O'Mard, L. (1997). A unitary model of pitch perception. Journal of the
Micheyl, C., Bernstein, J. G., & Oxenham, A. J. (2006). Detection and F0 discrimination of
harmonic complex tones in the presence of competing tones or noise. Journal of the
Micheyl, C., Delhommeau, K., Perrot, X., & Oxenham, A. J. (2006). Influence of musical and
psychoacoustical training on pitch discrimination. Hearing Research, 219,
36 -47.
Micheyl, C., Keebler, M. V., & Oxenham, A. J. (2010). Pitch perception for mixtures of
spectrally overlapping harmonic complex tones. Journal of the Acoustical Society of
America, 128, 257-269.
Micheyl, C., & Oxenham, A. J. (2003). Further tests of the "two pitch mechanisms" hypothe-
sis. Journal of the Acoustical Society of America, 113, 2225.
Miller, G. A. (1956). El número mágico siete, más o menos dos: Algunos límites de nuestra
capacidad para procesar información. Psychology Review, 63, 81-96.
Moore, B. C. J. (1973). Frequency difference limens for short-duration tones. Journal of the
Moore, B. C. J., y Glasberg, B. R. (1990). Frequency discrimination of complex tones with
overlapping and non-overlapping harmonics. Journal of the Acoustical Society of
America, 87, 2163-2177.
Moore, B. C. J., y Glasberg, B. R. (1996). Una revisión del modelo de sonoridad de Zwicker.
Acustica, 82, 335-345.
Moore, B. C. J., y Glasberg, B. R. (1997). A model of loudness perception applied to cochlear
hearing loss. Auditory Neuroscience, 3, 289 311. -
Moore, B. C. J., Glasberg, B. R. y Baer, T. (1997). A model for the prediction of thresholds,
loudness, and partial loudness. Journal of the Audio Engineering Society, 45, 224-240.
-
Moore, B. C. J., Glasberg, B. R. y Peters, R. W. (1985). Relative dominance of individual
partials in determining the pitch of complex tones. Journal of the Acoustical Society of
America, 77, 1853-1860.
Moore, B. C. J., Glasberg, B. R., & Peters, R. W. (1986). Thresholds for hearing mistuned
partials as separate tones in harmonic complexes. Journal of the Acoustical Society of
America, 80, 479-483.
Moore, B. C. J., Glasberg, B. R., & Vickers, D. A. (1999). Further evaluation of a model of
loudness perception applied to cochlear hearing loss. Journal of the Acoustical Society of
America, 106, 898 907. -
Moore, B. C. J., & Gockel, H. E. (2011). Resolvability of components in complex tones and
implications for theories of pitch perception. Hearing Research, 276, 88 - 97.
Moore, B. C. J., y Peters, R. W. (1992). Pitch discrimination and phase sensitivity in young
and elderly subjects and its relationship to frequency selectivity. Journal of the
Moore, B. C. J., & Se˛k, A. (2009). Sensitivity of the human auditory system to temporal fine
structure at high frequencies. Journal of the Acoustical Society of America, 125, 3186
3193.-
Noesselt, T., Tyll, S., Boehler, C. N., Budinger, E., Heinze, H. J., & Driver, J. (2010). Mejora
de la visión de baja intensidad inducida por el sonido: Multisensory influences on human
sensory-specific cortices and thalamic bodies relate to perceptual enhancement of visual
detection sensitivity. Journal of Neuroscience, 30, 13609 - 13623.
Oberfeld, D. (2007). Loudness changes induced by a proximal sound: ¿Aumento de la
sonoridad, recalibración de la sonoridad o ambos? Journal of the Acoustical Society of
America, 121,
- 2137 2148.
Odgaard, E. C., Arieh, Y., & Marks, L. E. (2003). Cross-modal enhancement of perceived
brightness: Sensory interaction versus response bias. Perception & Psychophysics, 65,
123- 132.
Odgaard, E. C., Arieh, Y., & Marks, L. E. (2004). Brighter noise: Sensory enhancement of
perceived loudness by concurrent visual stimulation. Cognitive, Affective, & Behavioral
Neuroscience, 4, 127-132.
Oxenham, A. J., Bernstein, J. G. W., & Penagos, H. (2004). La representación tonotópica
correcta es necesaria para la percepción compleja del tono. Proceedings of the National
Academy of Sciences USA, -101, 1421 1425.
Oxenham, A. J., & Buus, S. (2000). Level discrimination of sinusoids as a function of dura-
tion and level for fixed-level, roving-level, and across-frequency conditions. Journal of
Oxenham, A. J., Micheyl, C., Keebler, M. V., Loper, A. y Santurette, S. (2011). Pitch per-
ception beyond the traditional existence region of pitch. Proceedings of the National
Academy of Sciences USA, 108, 7629 - 7634.
Palmer, A. R., y Russell, I. J. (1986). Phase-locking in the cochlear nerve of the guinea-pig
and its relation to the receptor potential of inner hair-cells. Hearing Research, 24, 1-15.
musicales
Patterson, R. D. (1973). The effects of relative phase and the number of components on
residue pitch. Journal of the Acoustical Society of America, 53, 1565 - 1572.
Penagos, H., Melcher, J. R. y Oxenham, A. J. (2004). A neural representation of pitch
salience in non-primary human auditory cortex revealed with fMRI. Journal of
Plack, C. J. (1996). Loudness enhancement and intensity discrimination under forward and
backward masking. Journal of the Acoustical Society of America, 100, 1024 - 1030.
Plack, C. J., Oxenham, A. J., Popper, A. N., & Fay, R. (Eds.), (2005). Pitch: Neural coding
and perception. New York, NY: Springer Verlag.
Plomp, R., & Levelt, W. J. M. (1965). Consonancia tonal y ancho de banda crítico. Journal of
Poulton, E. C. (1977). Quantitative subjective assessments are almost always biased, some-
times completely misleading. British Journal of Psychology, 68, 409 - 425.
Poulton, E. C. (1979). Models for the biases in judging sensory magnitude. Boletín de
Psicología, 86, 777
- 803.
Pressnitzer, D., Patterson, R. D., & Krumbholz, K. (2001). El límite inferior del tono melódico.
Relkin, E. M., y Doucet, J. R. (1997). ¿Es el volumen simplemente proporcional al número de
espigas del nervio auditivo ? Journal of the Acoustical Society of America,
- 101, 2735
2741.
Ritsma, R. J. (1962). Región de existencia del residuo tonal. I. Journal of the Acoustical
Robinson, D. W., y Dadson, R. S. (1956). A re-determination of the equal-loudness relations
for pure tones. British Journal of Applied Physics, 7, 166 181.
-
Rose, J. E., Brugge, J. F., Anderson, D. J., & Hind, J. E. (1967). Phase-locked response to
low-frequency tones in single auditory nerve fibers of the squirrel monkey. Journal of
Neurophysiology, 30, 769-793.
Scharf, B. (1964). Enmascaramiento parcial. Acustica, - 14, 16 23.
Scharf, B., Buus, S. y Nieder, B. (2002). Aumento del volumen: ¿Reducción de sonoridad
inducida disfrazada? (L). Journal of the Acoustical Society of America, 112, 807- 810.
Schouten, J. F. (1940). El residuo y el mecanismo de la audición. Actas del
Koninklijke Nederlandse Academie van Wetenschappen, 43, 991 - 999.
Schouten, J. F., Ritsma, R. J., & Cardozo, B. L. (1962). Tono del residuo. Journal of the
Schutz, M., y Kubovy, M. (2009). Causalidad e integración intermodal. Journal of
Experimental Psychology: Human Perception and Performance, 35, 1791-1810.
Schutz, M., y Lipscomb, S. (2007). Oír gestos, ver música: La visión influye en la duración del
tono percibido. Perception, 36, 888 897. -
Seebeck, A. (1841). Beobachtungen u¨ber einige Bedingungen der Entstehung von To¨nen.
Anales de Química Física, 53, 417 436.-
Shackleton, T. M., y Carlyon, R. P. (1994). The role of resolved and unresolved harmonics in
pitch perception and frequency modulation discrimination. Journal of the Acoustical
Shamma, S., y Klein, D. (2000). The case of the missing pitch templates: How harmonic
templates emerge in the early auditory system. Journal of the Acoustical Society of
America, 107, 2631-2644.
Shinn-Cunningham, B. G., Lee, A. K., & Oxenham, A. J. (2007). Un elemento sonoro se
pierde en la competición perceptiva. Actas de la Academia Nacional de Ciencias de
EE.UU., 104, 12223-12227.
Shofner, W. P. (2005). Aspectos comparativos de la percepción del tono. En C. J. Plack, A. J.

Oxenham,
R. Fay, & A. N. Popper (Eds.), Pitch: Neural coding and perception (pp. 56 - 98). Nueva
York, NY: Springer Verlag.
Stein, B. E., London, N., Wilkinson, L. K., & Price, D. D. (1996). Enhancement of perceived
visual intensity by auditory stimuli: A psychophysical analysis. Journal of Cognitive
Stevens, S. S. (1957). Sobre la ley psicofísica. Psychology Review, 64, 153 181.-
Suzuki, Y., y Takeshima, H. (2004). Equal-loudness-level contours for pure tones. Journal
of the Acoustical Society of America, 116, 918-933.
Terhardt, E. (1974a). Sobre la percepción de las fluctuaciones periódicas del sonido
- Acustica, 30, 201 213.
(rugosidad).
Terhardt, E. (1974b). Tono, consonancia y armonía. Journal of the Acoustical Society of America,
55, 1061 1069. -
Terhardt, E. (1976). Psychoakustich begru¨ndetes Konzept der musikalischen Konsonanz.
Acustica, 36, 121-137.
Terhardt, E. (1984). El concepto de consonancia musical, un vínculo entre la música y la
psico- acústica. Percepción musical,-1, 276 295.
Trainor, L. J., & Heinmiller, B. M. (1998). The development of evaluative responses to
music: Infants prefer to listen to consonance over dissonance. Infant Behavior and
Development, 21, 77-88.
Tramo, M. J., Cariani, P. A., Delgutte, B. y Braida, L. D. (2001). Neurobiological founda-
tions for the theory of harmony in western tonal music. Anales de la Academia de
Ciencias de Nueva York , 930,-92 116.
van de Par, S., & Kohlrausch, A. (1997). A new approach to comparing binaural masking
level differences at low and high frequencies. Journal of the Acoustical Society of
America, 101, 1671-1680.
Verschuure, J., y van Meeteren, A. A. (1975). El efecto de la intensidad sobre el tono. Acustica,
32,
33- 44.
Viemeister, N. F. (1983). Auditory intensity discrimination at high frequencies in the pres-
ence of noise. Science, 221, 1206 -1208.
Viemeister, N. F., y Bacon, S. P. (1988). Intensity discrimination, increment detection, and
magnitude estimation for 1-kHz tones. Revista de la Sociedad Acústica de América, 84,
172- 178.
Wallace, M. N., Rutkowski, R. G., Shackleton, T. M., & Palmer, A. R. (2000). Phase-locked
responses to pure tones in guinea pig auditory cortex. Neuroreport, 11, 3989 -3993.
Warren, R. M. (1970). Elimination of biases in loudness judgements for tones. Journal of the
Wightman, F. L. (1973). The pattern-transformation model of pitch. Journal of the Acoustical
Society of America, 54, 407 416. -
Winckel, F. W. (1962). Optimum acoustic criteria of concert halls for the performance of
classical music. Journal of the Acoustical Society of America, 34, 81 -
86.
Winter, I. M. (2005). La neurofisiología del tono. En C. J. Plack, A. J. Oxenham, R. Fay, &
A. N. Popper (Eds.), Pitch: Neural coding and perception (pp. 99 - 146). Nueva York,
NY: Springer Verlag.
Winter, I. M., Wiegrebe, L., & Patterson, R. D. (2001). La representación temporal del
retardo del ruido ondulado iterado en el núcleo coclear ventral del conejillo de Indias.
Journal of Physiology, 537,
- 553 566.
Zentner, M. R., y Kagan, J. (1996). Perception of music by infants. Nature, 383, 29.
musicales
Zentner, M. R., y Kagan, J. (1998). Infants' perception of consonance and dissonance in music.
Infant Behavior and Development, 21, 483 492. -
Zwicker, E. (1960). Ein Verfahren zur Berechnung der Lautsta¨rke. Acustica, 10, 304-308.
Zwicker, E . (1963). U¨ ber die Lautheit von ungedrosselten und gedrosselten Schallen.
Acustica, 13, 194-211.
Zwicker, E., Fastl, H., & Dallmayr, C. (1984). BASIC-Program for calculating the loudness
of sounds from their 1/3-oct. band spectra according to ISO 522B. Acustica, 55, 63-
67.
2 Percepción del timbre musical
Stephen McAdams
Universidad McGill, Montreal, Quebec, Canadá
Timbre es una palabra engañosamente simple y extremadamente vaga que abarca un

conjunto muy complejo de atributos auditivos, así como una plétora de intrincadas
cuestiones psicológicas y musicales. Abarca muchos parámetros de percepción que
no se explican por el tono, el volumen, la posición espacial, la duración o incluso
por diversas características ambientales como la reverberación de la sala. Esto deja
un sinfín de posibilidades, algunas de las cuales se han explorado en los últimos 40
años aproximadamente.
Ahora entendemos que el timbre tiene dos características generales que
contribuyen a la percepción de la música: (1) es un conjunto multitudinario de
atributos perceptivos, algunos de los cuales varían continuamente (por ejemplo, la
nitidez del ataque, el brillo, la nasalidad, la riqueza), otros son discretos o
categóricos (por ejemplo, el "blatt" al principio de un sonido de trombón sforzando o
el desplazamiento pellizcado de un sonido de clavicordio), y (2) es un conjunto de
atributos perceptivos que varían continuamente (por ejemplo, la nitidez del ataque,
el brillo, la nasalidad, la riqueza).
(2) es uno de los principales vehículos perceptivos para el reconocimiento, la
identificación y el seguimiento en el tiempo de una fuente sonora (la voz de un
cantante, un clarinete, un conjunto de campanas de carillón) y, por lo tanto, participa
en la categorización absoluta de un objeto sonoro (Hajda, Kendall, Carterette y
Harshberger, 1997; Handel, 1995; McAdams, 1993; Risset, 2004).
Por lo tanto, la comprensión de la percepción del timbre abarca una amplia gama
de cuestiones, desde la determinación de las propiedades de los objetos vibrantes y
de las ondas acústicas que emanan de ellos, el desarrollo de técnicas para analizar y
caracterizar cuantitativamente las ondas sonoras, la formalización de modelos sobre
cómo el sistema auditivo analiza y codifica neuronalmente la señal acústica, la
caracterización de la representación perceptiva de los sonidos utilizada por los
oyentes para comparar sonidos de forma abstracta o para categorizar o identificar su
fuente física, hasta la comprensión del papel que el timbre puede desempeñar en la
percepción de patrones y formas musicales y en la configuración expresiva de la
interpretación musical. Los enfoques más teóricos sobre el timbre también han
incluido consideraciones sobre las implicaciones musicales del timbre como
conjunto de dimensiones portadoras de forma en la música (cf. McAdams, 1989).
Este capítulo se centrará en algunas de estas cuestiones en detalle: la psicofísica del
timbre, el timbre como vehículo de la identidad de la fuente, el papel del timbre en
la agrupación musical y el timbre como fuerza estructuradora en la percepción
musical, incluyendo el efecto de la mezcla de sonidos en la percepción del timbre, el
musicales
papel del timbre en la agrupación de eventos en secuencias y patrones musicales, la

percepción de intervalos tímbricos, el papel del timbre en la construcción y
liberación de la tensión musical y el aprendizaje implícito de gramáticas tímbricas.
En una sección final se examinarán una serie de cuestiones que aún no se han
estudiado a fondo en relación con el papel del timbre
Psicología de la Música. DOI: http://dx.doi.org/10.1016/B978-0-12-381460-9.00002-X
36 Stephen McAdams
la caracterización en los sistemas de recuperación de información musical, el control

de la variación tímbrica por los instrumentistas y los dispositivos de control de la
síntesis sonora para lograr expresividad musical, el vínculo entre la percepción y la
cognición tímbricas y la orquestación y la composición musical electroacústica y,
por último, la consideración del estatus del timbre como parámetro primario o
secundario en la estructura musical.1
I. Psicofísica del timbre

Uno de los principales enfoques de la percepción del timbre intenta caracterizar
cuantitativamente las diferencias que se perciben entre los sonidos. Las primeras
investigaciones sobre la naturaleza perceptiva del timbre se centraron en aspectos
preconcebidos como el peso relativo de las distintas frecuencias presentes en un
sonido determinado, o su "color sonoro" (Slawson, 1985). Por ejemplo, tanto una
voz que canta un do central constante mientras varía la vocal que se canta como un
instrumentista de metal que mantiene una nota determinada mientras varía la
embocadura y la forma de la cavidad bucal variarían la forma del espectro sonoro
(cf. McAdams, Depalle y Clarke, 2004). Helmholtz (1885/1954) inventó algunos
dispositivos de resonancia bastante ingeniosos para controlar la forma espectral y
explorar estos aspectos del timbre. Sin embargo, los verdaderos avances en la
comprensión de la representación perceptiva del timbre tuvieron que esperar al
desarrollo de las técnicas de generación y procesamiento de señales y de análisis de
datos multidimensionales en las décadas de 1950 y 1960. Plomp (1970) y Wessel
(1973) fueron los primeros en aplicarlas a la percepción del timbre.
A. Espacio tímbrico
El escalado multidimensional (MDS) no tiene en cuenta la estructura física o
perceptiva del timbre. Los oyentes simplemente valoran en una escala que varía de
muy similar a muy diferente todos los pares de un conjunto determinado de sonidos.
Los sonidos suelen estar igualados en cuanto a tono, volumen y duración, y se
presentan desde la misma ubicación en el espacio, de modo que sólo varía el timbre,
para centrar la atención de los oyentes en este conjunto de atributos. A continuación,
las puntuaciones de disimilitud se ajustan a un modelo de distancia en el que los
sonidos con timbres similares están más próximos entre sí y los que tienen timbres
disimilares están más alejados. El método de análisis se presenta en la figura 1. La
representación gráfica del modelo de distancia se denomina "espacio tímbrico".
Estas técnicas se han aplicado a sonidos sintéticos (Miller & Carterette, 1975;
Plomp, 1970; Caclin, McAdams, Smith & Winsberg, 2005), sonidos resintetizados o
simu- lados de instrumentos (Grey, 1977; Kendall, Carterette y Hajda, 1999;
Krumhansl, 1989; McAdams, Winsberg, Donnadieu, De Soete y Krimphoff, 1995;
Wessel, 1979), sonidos de instrumentos grabados (Iverson y Krumhansl, 1993;
Lakatos,
1
A diferencia del capítulo sobre timbre de las ediciones anteriores de este libro, se hará menos hincapié
2. Percepción del timbre 37
musical
en el análisis y la síntesis del sonido y más en la percepción y la cognición. Risset y Wessel (1999)
sigue siendo un excelente resumen de estas cuestiones anteriores.
38 Stephen McAdams
Figura 1 Etapas del análisis multidimensional de las puntuaciones de disimilitud de sonidos

que difieren en el timbre.
2000; Wessel, 1973), e incluso díadas de sonidos de instrumentos grabados (Kendall

y Carterette, 1991; Tardieu y McAdams, en prensa).
El modelo MDS básico, como el modelo no métrico de Kruskal (1964a, 1964b),
se expresa en términos de dimensiones continuas que comparten los timbres,
partiendo del supuesto de que todos los oyentes utilizan las mismas dimensiones
perceptivas para comparar los timbres. Las distancias del modelo se ajustan a los
datos de proximidad obtenidos empíricamente (normalmente puntuaciones de
disimilitud o de confusión entre sonidos). Los modelos más complejos también
incluyen dimensiones o características específicas de cada timbre, denominadas
"especificidades" (EXSCAL, Winsberg & Carroll, 1989), y diferentes pesos
perceptivos otorgados a las dimensiones y especificidades por cada oyente o clase
latente de oyentes (INDSCAL, Carroll & Chang, 1970; CLASCAL, Winsberg & De
Soete, 1993; McAdams et al., 1995). La ecuación que define la distancia en el
modelo CLASCAL más general es la siguiente:
" #12
X
R
dijt 5 wtr ðxir 2xjr Þ2 1vt ðsi 1sj Þ ;
r51 (Ecuaci
ón 1)
donde dijt es la distancia entre los sonidos i y j para la clase latente t, xir es el coordi-
nado del sonido i en la dimensión r, R es el número total de dimensiones, wtr es el
peso en la dimensión r para la clase t, si es la especificidad en el sonido i, y vt es el
peso en todo el conjunto de especificidades para la clase t. El modelo básico no tiene
musical
pesos o especificidades y sólo tiene una clase de oyentes. EXCAL tiene

especificidades, pero no ponderaciones. Para INDSCAL, el número de clases
latentes es igual al número de oyentes. Por último, el modelo CONSCAL permite
modelar funciones de mapeo continuo entre descriptores de audio y la posición de
los sonidos a lo largo de una dimensión perceptiva para cada oyente utilizando
funciones spline, con el pro- viso de que la posición a lo largo de la dimensión
perceptiva respete la ordenación a lo largo de la dimensión física (Winsberg & De
Soete, 1997). Esta técnica permite determinar la transformación auditiva de cada
parámetro físico para cada oyente. Ejemplos del uso de estos diferentes modelos de
análisis incluyen la técnica de Kruskal de Plomp (1970), INDSCAL de Wessel
(1973) y Grey (1977), EXSCAL de Krumhansl (1989), CLASCAL de McAdams et
al. (1995) y CONSCAL de Caclin et al. (2005). Las descripciones de cómo utilizar
los modelos CLASCAL y CONSCAL en el contexto de la investigación tímbrica se
ofrecen en McAdams et al. (1995) y Caclin et al. (2005), respectivamente.
Las especificidades suelen darse en sonidos acústicos y sintetizados complejos.
Se considera que representan la presencia de una característica única que distingue
un sonido de todos los demás en un contexto determinado. Por ejemplo, en un
conjunto de sonidos de viento-metal, viento-madera y cuerda, un clavicordio tiene
una característica que no comparte con ningún otro sonido: el retorno de la tolva,
que crea un ligero "golpe" y amortigua rápidamente el sonido al final. O en un
conjunto de sonidos con envolventes espectrales bastante suaves, como los
instrumentos de metal, la envolvente espectral irregular del clarinete debida a la
atenuación de los armónicos pares en los rangos armónicos inferiores sería una
característica específica de ese instrumento. Estas características podrían aparecer
como especificidades en los modelos de distancia EXSCAL y CLASCAL
(Krumhansl, 1989; McAdams et al., 1995), y la fuerza de cada característica se
representa mediante la raíz cuadrada del valor de especificidad en la ecuación 1.
Algunos modelos incluyen diferencias individuales y de clase como factores de
ponderación de las distintas dimensiones y del conjunto de especificidades. Por
ejemplo, algunos oyentes pueden prestar más atención a las propiedades espectrales
que a los aspectos temporales, mientras que otros pueden seguir el patrón inverso.
Esta variabilidad podría reflejar diferencias en el procesamiento sensorial o en las
estrategias de escucha y valoración. Curiosamente, ningún estudio ha demostrado
hasta la fecha que estas diferencias individuales tengan algo que ver con la
experiencia o la formación musical. Por ejemplo, McAdams et al. (1995)
descubrieron que proporciones similares de no músicos, estudiantes de música y
músicos profesionales se encontraban en las diferentes clases latentes, lo que sugiere
que mientras que los oyentes difieren en términos del peso perceptivo concedido a
las diferentes dimensiones, estas diferencias interindividuales no están relacionadas
con la formación musical. Es posible que, dado que la percepción del timbre está tan
estrechamente relacionada con la capacidad de reconocer fuentes de sonido en la
vida cotidiana, todo el mundo sea un experto en cierta medida, aunque cada persona
sea sensible a características diferentes.
En la Figura 2 se muestra un ejemplo de espacio tímbrico, extraído de McAdams
et al. (1995). Se ha obtenido a partir de las puntuaciones de disimilitud de 84
oyentes, entre los que había no músicos, estudiantes de música y músicos
profesionales. A los oyentes se les presentaron simulaciones digitales de sonidos de
40 Stephen McAdams
instrumentos y sonidos quiméricos que combinaban características de diferentes
instrumentos (como el vibrone, con sonidos de vibráfono y de timbre).
musical
vbs
corto 4
hrp
ols
3
vbn hcd obc
2 gtr
pno
1
Dimensión 1
logarítmico)
(tiempo de
0
ataque
-1
tbn
-2 cnt tpr
gtn ehn
fhn
-3 sno bsn
largo
stg tpt
3
bajo
2
1 -3
0 -2
-1 más
-1 0
-2 1
2
alta -3 3
menos
Figura 2 El espacio tímbrico hallado por McAdams et al. (1995) para un conjunto de
sonidos sintetizados. La solución CLASCAL tiene tres dimensiones con especificidades
(la fuerza de la especificidad se muestra por el tamaño del cuadrado). También se indican
los correlatos acústicos de cada dimensión. (vbs 5 vibráfono, hrp 5 arpa, ols 5 obolesta
(híbrido oboe/celesta), gtr 5 guitarra, pno 5 piano, vbn 5 vibrone (híbrido
vibráfono/trombón), hcd 5 clavicordio, obc 5 obochord (híbrido oboe/clavicordio), gtn
5 guitarnet (híbrido guitarra/clarinete), cnt 5 clarinete, sno 5 striano (híbrido cuerda
arqueada/piano), tbn 5 trombón, fhn 5 corno francés, stg 5 cuerda arqueada, tpr 5
trompar (híbrido trompeta/guitarra), ehn 5 corno inglés, bsn 5 fagot, tpt 5 trompeta).
Modificado de la Figura 1, McAdams et al. (1995). ©1995 por Springer-Verlag. Adaptado con
permiso.
características similares a las del trombón). Wessel, Bristow y Settel (1987) crearon
estos sonidos en un sintetizador Yamaha DX7 FM. Un análisis CLASCAL reveló
tres dimensiones compartidas, la existencia de especificidades en los sonidos y cinco
clases latentes de oyentes, para los que diferían los pesos relativos en las
dimensiones compartidas y el conjunto de especificidades.
En la figura 3 se muestran los pesos relativos de las tres dimensiones y el
conjunto de especificidades de las cinco clases latentes. La mayoría de los oyentes
pertenecían a las clases 1 y 2 y tenían pesos bastante iguales en las dimensiones y las
especificidades. Lo que distinguía a estas dos clases era simplemente el uso de la
escala de valoración: Los oyentes de la clase 1 utilizaron
42 Stephen McAdams
1.6
Clase 1
Clase 2
Clase 3
Clase 4
1.4 Clase 5
1.2
Peso normalizado
1.0
0.8
0.6
0.4
Dim 1Dim 2Dim 3 Especifique
Figura 3 Pesos normalizados en las tres dimensiones compartidas y el conjunto de

especificidades para cinco clases latentes de oyentes en el estudio de McAdams et al.
(1995).
más de la escala que los oyentes de la clase 2. En las otras tres clases, sin embargo,
algunas dimensiones eran prominentes (pesos altos) y otras estaban perceptualmente
atenuadas (pesos bajos). Por ejemplo, los oyentes de la clase 3 otorgaron un peso
elevado a la dimensión 2, que parece estar relacionada con las características
espectrales de los sonidos, y un peso bajo a las especificidades. Por el contrario, los
oyentes de la clase 4 favorecieron la dimensión 1 (relacionada con la dimensión
temporal del tiempo de ataque) y las especificidades, y atenuaron las dimensiones
espectral (Dim 2) y espectrotemporal (Dim 3).
Los modelos de espacio tímbrico han resultado útiles para predecir las
percepciones de los oyentes en situaciones que van más allá de las medidas
específicamente en los experimentos, lo que sugiere que, de hecho, captan aspectos
importantes de la representación tímbrica. En consonancia con las predicciones de
un modelo tímbrico, Grey y Gordon (1978) descubrieron que al intercambiar las
envolventes espectrales en pares de sonidos que diferían principalmente a lo largo de
una de las dimensiones de su espacio que se creía relacionado con las propiedades
espectrales, estos sonidos cambiaban de posición a lo largo de esta dimensión. El
espacio tímbrico también ha resultado útil para predecir la percepción de intervalos
musical
entre timbres, así como la segregación de corrientes basada en claves acústicas

relacionadas con el timbre (véase más adelante).
44 Stephen McAdams
6
obochord trumpar
oboe
4
oboe
fagot
Amplitud
corno inglés clavicordio
de cuerda trompeta
2 arqueada
striano
Dimensión 2 guitarra
0
piano
0246 8 10 12 14 16
piano
muestreado
trombón guitarnet
arpa SC = 4,3Rango armónico
-2 piano de
arco
Amplitud
clarinete
vibráfono obolesta
Trombón trompa
-4 vibrone
-6
2.5 3.0 3.5 4.0 4.5 5.0 5.5
024 6 8 10 12 14 16 Centroide espectral (SC, rango armónico)
SC = 2,6Rango armónico
Figura 4 Centroide espectral en relación con la segunda dimensión del espacio de Krumhansl
(1989) utilizando los sonidos sintetizados de Wessel et al. (1987). Los gráficos de la
izquierda y la derecha representan los espectros de frecuencia de dos de los sonidos (trombón
y oboe, respectivamente). La punta de flecha en el eje x indica la ubicación del centroide
espectral. El gráfico del centro muestra la regresión del centroide espectral (eje x) sobre la
posición a lo largo de la dimensión perceptiva (eje y). Obsérvese que todos los puntos están
muy próximos a la línea de regresión, lo que indica una estrecha asociación entre los
parámetros físicos y perceptivos.
B.Descriptores de audio de las dimensiones tímbricas

En muchos estudios, se han determinado correlatos acústicos independientes para las
dimensiones continuas correlacionando la posición a lo largo de la dimensión
perceptiva con un parámetro acústico unidimensional extraído de los sonidos (por
ejemplo, Grey y Gordon, 1978; Kendall et al., 1999; Krimphoff, McAdams y
Winsberg, 1994; McAdams et al., 1995). Denominaremos a estos parámetros
"descriptores de audio", aunque también se les conoce como características de audio
en el campo de la recuperación de información musical. Las correlaciones más
comunes derivadas de los sonidos de instrumentos musicales incluyen el centroide
espectral (que representa el peso relativo de las frecuencias altas y bajas y
corresponde al brillo tímbrico o la nasalidad: un oboe tiene un centroide espectral
más alto que una trompa; véase la figura 4), el logaritmo del tiempo de ataque (que
distingue los instrumentos continuos que se soplan o se arquean de los impulsivos
que se golpean o puntean; véase la figura 5), el flujo espectral (el grado de evolución
de la forma espectral a lo largo de la duración de un tono, que es alto para los
metales y bajo para las lengüetas simples; véase la figura 6) y la desviación espectral
(el grado de irregularidad de la forma espectral, que es alto para el clarinete y el
vibráfono y bajo para la trompeta; véase la figura 7). Caclin et al. (2005) llevaron a
cabo un estudio de confirmación en el que utilizaron puntuaciones de disimilitud en
sonidos puramente sintéticos en los que se podía controlar la naturaleza exacta de las
musical
dimensiones del estímulo. Estos autores confirmaron la

46 Stephen McAdams
vibráfono
vibráfono
Amplitud
guitarra
tiempo de ataque obolesta
= 4 ms
6
clavicordio
arpa
piano piano de
4 muestreado arco
piano
obochord
trompeta
0.00 0.19 0.38 0.57 0.75 vibrone
2
Tiempo ataqu tiempo = 330 ms
(seg) e
Amplitud
Dimensión 1
striano
-2
guitarra
trompeta 0.16 0.33 0.49 0.65 0.82
Tiempo (seg)
-4 cuerda
Corno inglés
arque
trombón piano de arco
ada
oboe
clarinete
-6
fagot
Trompa
-8
-3 -2 -2 -1 -1 0
log (tiempo de ataque)
Figura 5 Tiempo de ataque logarítmico en relación con la primera dimensión del espacio
de Krumhansl (1989). Los gráficos de la izquierda y la derecha muestran las envolventes
de amplitud de los sonidos de vibráfono y piano de arco. Las flechas indican el tiempo de
ataque.
percepción de las dimensiones del estímulo relacionadas con el centroide espectral,

el tiempo de ataque logarítmico y la desviación espectral, pero no confirmaron el
flujo espectral.
De los estudios que intentan desarrollar descriptores de audio correlacionados
con las dimensiones perceptivas de sus espacios tímbricos, la mayoría se han
centrado en un pequeño conjunto de sonidos y un pequeño conjunto de descriptores.
A lo largo de los años, en el IRCAM (Institut de Recherche et Coordination
Acoustique/ Musique) se ha desarrollado un amplio conjunto de descriptores,
empezando por el trabajo de Jochen Krimphoff (Krimphoff et al., 1994). El objetivo
era representar una amplia gama de propiedades temporales, espectrales y
espectrotemporales de las señales acústicas que pudieran utilizarse como metadatos
en búsquedas basadas en el contenido en bases de datos de sonido muy grandes. La
culminación de este trabajo se ha publicado recientemente (Peeters, Giordano,
Susini, Misdariis, & McAdams, 2011) y la Timbre Toolbox se ha puesto a
disposición en forma de caja de herramientas de Matlab2 que contiene un conjunto
de 54 descriptores basados en la envolvente de energía, la trans- forma de Fourier a
corto plazo, los componentes sinusoidales armónicos o el modelo de banco de filtros
de tonos gamma del procesamiento auditivo periférico (Patterson, Allerhand y
Gigue`re, 1995). Estos descriptores de audio capturan las propiedades temporales,
espectrales, espectrotemporales y energéticas de los eventos acústicos. Los
descriptores temporales incluyen propiedades como el ataque, el decaimiento, la
musical
liberación, el centroide temporal, la duración efectiva y la frecuencia y amplitud de

la modulación en la envolvente energética. Los descriptores de forma espectral
incluyen
2
http://recherche.ircam.fr/pub/timbretoolbox o http://www.cirmmt.mcgill.ca/research/tools/timbretoolbox
48 Stephen McAdams
3
trombón piano muestreado
1300 guitarra piano 1300
1250 2 guitarnet muestr 1250
cuerda eado
1200 vibráfono 1200
arque
1150 1 ada 1150
Centroide espectral
Centroide espectral
clavicordio clarinete
Dimensión 3
1100 1100
trompet
obolesta
a
1050 0 arpa piano 1050
1000 1000
(Hz)
(Hz)
trompeta
950 -1 950
trombón
900 Fagot 900
vibrone
850 -2 trompa 850
Corno
800 inglés 800
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 obochord 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
3
Tiempo (seg) Tiempo (seg)
.94 .95 .96 .97 .98 .99 1
Flujo espectral
Figura 6 Flujo espectral en relación con la tercera dimensión del espacio encontrado por McAdams et al. (1995). Los gráficos de la izquierda y la
derecha muestran la variación en el tiempo del centroide espectral para el trombón y el piano muestreado. Obsérvese que los puntos están más
dispersos alrededor de la línea de regresión en el gráfico central, lo que indica que este parámetro físico explica mucho menos de la varianza en las
posiciones de los sonidos a lo largo de la dimensión perceptiva.
44 Stephen McAdams
trompeta
Amplitud
8
DE = -5,7
trompeta
trumpar
4 trombón
striano cuerda arqueada

piano muestreado
0 4 8 10 14 18 22 26 2 vibrone
Rango armónico harpsiohord
Tromp guitarra
Dimensión 3
a piano
0
fagot clarinete
guitanet
Amplitud
piano de arco
arpa vibráfono
-2
DE = 41,4
obolesta
clarinet
Corno inglés e
-4
oboe obocordio
048 10 14 18 22 26
Rango
armónico
-10 0 10 20 30 40 50
Desviación espectral (SD en dB)
Figura 7 Desviación espectral en relación con la tercera dimensión del espacio encontrado
por Krumhansl (1989). Los gráficos de la izquierda y la derecha muestran los espectros de
frecuencia y las envolventes espectrales globales de los sonidos de trompeta y clarinete.
Obsérvese que las amplitudes de los componentes de frecuencia están próximas a la
envolvente global en el caso de la trompeta, pero se desvían por encima y por debajo de esta
envolvente en el caso del clarinete.
medidas del centroide, la dispersión, la asimetría, la curtosis, la pendiente, la

atenuación, el factor de cresta y la irregularidad de la envolvente espectral. Los
descriptores espectrotemporales incluyen el flujo espectral. Los descriptores
energéticos incluyen la energía armónica, la energía del ruido y las propiedades
estadísticas de la envolvente energética. Además, se incluyeron descriptores
relacionados con la periodicidad/armonicidad y el ruido. Algunos de estos
descriptores tienen un valor único para un evento sonoro, como el tiempo de ataque,
mientras que otros representan cantidades variables en el tiempo, como la variación
del centroide espectral a lo largo de la duración de un evento sonoro. Pueden
utilizarse propiedades estadísticas de estas cantidades variables en el tiempo, como
medidas de tendencia central o variabilidad (Peeters et al., 2011, utilizaron
estadísticas robustas de mediana y rango intercuartílico).
Uno de los problemas que plantea un gran número de descriptores es que pueden
estar correlacionados entre sí para un determinado conjunto de sonidos, sobre todo si
se aplican a un conjunto de sonidos limitado. Peeters et al. (2011) examinaron la
redundancia de información entre los descriptores de audio realizando análisis
correlacionales entre descriptores calculados sobre un conjunto muy amplio de
sonidos musicales muy heterogéneos (más de 6000 sonidos de las Muestras
Maestras de la Universidad McGill, MUMS; Opolko y Wapnick, 2006). A
continuación, sometieron la matriz de correlación resultante a una agrupación
jerárquica. El análisis también pretendía evaluar si la Caja de herramientas de
timbres podía dar cuenta de la riqueza dimensional de los sonidos musicales reales y
proporcionar al usuario de la Caja de herramientas un conjunto de directrices para
musical
seleccionar entre los numerosos descriptores implementados en ella. Los análisis

arrojaron unas 10 clases de descriptores relativamente independientes. Dos grupos
representaban la forma espectral
46 Stephen McAdams
una basada principalmente en los valores medios (11 descriptores) y la otra en los
rangos intercuartílicos de las medidas variables en el tiempo de estas propiedades
espectrales (7 descriptores). Así pues, las tendencias centrales y la variabilidad de la
forma espectral se comportan de forma independiente en toda la base de datos
MUMS. Un tercer gran grupo de 16 descriptores incluía la mayoría de los
descriptores temporales, como el tiempo de ataque logarítmico, y descriptores
energéticos, como la variabilidad de la energía del ruido y la energía total a lo largo
del tiempo. Un cuarto gran grupo incluía 10 descriptores relacionados con la
periodicidad, el ruido y la irregularidad de la envolvente espectral. El resto de
grupos más pequeños tenían uno o dos descriptores cada uno e incluían descriptores
de la forma espectral, la variación espectral y la amplitud y frecuencia de las
modulaciones en la envolvente temporal.
La combinación de un modelo cuantitativo de relaciones perceptivas entre
timbres y la explicación psicofísica de los parámetros del modelo es un paso
importante para obtener un control predictivo del timbre en varios ámbitos, como el
análisis y la síntesis de sonidos y la búsqueda inteligente basada en el contenido en
bases de datos de sonidos (McAdams y Misdariis, 1999; Peeters, McAdams y
Herrera, 2000). Estas representaciones sólo son útiles en la medida en que sean (a)
generalizables más allá del conjunto de sonidos realmente estudiados, (b) robustas
con respecto a los cambios en el contexto musical, y (c) generalizables a otros tipos
de tareas de escucha distintos de los utilizados para estructurar el modelo. En la
medida en que una representación posea estas propiedades, podrá considerarse como
un relato preciso del timbre musical, caracterizado por una característica importante
de un modelo científico, la capacidad de predecir nuevos fenómenos empíricos.
C. Interacción del timbre con el tono y la dinámica

La mayoría de los estudios sobre el espacio tímbrico han restringido el tono y la
sonoridad a valores únicos para todos los sonidos de instrumentos comparados, con
el fin de centrar la atención de los oyentes únicamente en el timbre. Sin embargo, se
plantea una cuestión importante: si las relaciones tímbricas reveladas para un único
tono y/o un único nivel dinámico se mantienen en diferentes tonos y niveles
dinámicos y, lo que es más importante para extender este trabajo a contextos
musicales reales, si se mantienen para los timbres que se comparan a través de tonos
y niveles dinámicos.
Está claro que para muchos instrumentos el timbre varía en función del tono
porque las propiedades espectrales, temporales y espectrotemporales de los sonidos
covarían con el tono. Marozeau, de Cheveigne', McAdams y Winsberg (2003) han
demostrado que los espacios tímbricos de los tonos de instrumentos musicales
grabados son similares en diferentes
tonos (B3 , Cx4 , Bw4 ). Los oyentes también son capaces de ignorar las diferencias de
tono dentro de una octava cuando se les pide que comparen únicamente los timbres
de los tonos. Cuando la variación de tono es superior a una octava, se producen
interacciones entre los dos atributos. Marozeau y de Cheveigne' (2007) variaron el
brillo de un conjunto de sintetizados
variando el tono en un intervalo de 18 semitonos. Comprobaron que las diferencias
de tono afectaban a las relaciones tímbricas de dos formas: (1) el tono aparece en la
musical
representación del espacio tímbrico como una dimensión ortogonal a las
dimensiones tímbricas (lo que indica simplemente que los oyentes ya no ignoraban
la diferencia de tono), y
(2) las diferencias de tono afectan sistemáticamente a la dimensión tímbrica
relacionada con el centroide espectral. Handel y Erickson (2004) también
observaron que los oyentes tenían dificultades para
48 Stephen McAdams
extrapolar el timbre de una fuente sonora a través de grandes diferencias de tono. A

la inversa, Vurma, Raju y Kuuda (2011) informaron de que las diferencias de timbre
en dos tonos para los que se iba a juzgar la afinación de los tonos afectaban a los
juicios de tono hasta un punto que podría dar lugar a conflictos entre las
evaluaciones subjetivas y las basadas en la frecuencia fundamental de la afinación.
Krumhansl e Iverson (1992) descubrieron que las clasificaciones aceleradas de tonos
y timbres se veían afectadas simétricamente por la variación no correlacionada del
otro parámetro. Estos resultados sugieren una estrecha relación entre el brillo
tímbrico y la altura del tono, y quizás incluso características temporales más finas
relacionadas con la codificación de la periodicidad en el sistema auditivo o
propiedades tímbricas a mayor escala relacionadas con la envolvente de energía.
Este vínculo sería coherente con las representaciones neuronales subyacentes que
comparten atributos comunes, como las organizaciones tonotópicas y de
periodicidad en el cerebro.
Al igual que ocurre con el tono, los cambios en la dinámica también producen
cambios en el timbre de un instrumento determinado, sobre todo, aunque no
exclusivamente, en lo que respecta a las propiedades espectrales. Los sonidos
producidos con un mayor esfuerzo de ejecución (por ejemplo, fortissimo frente a
pianissimo) no sólo tienen una mayor energía en las frecuencias presentes en el
sonido más suave, sino que el espectro se extiende hacia frecuencias más altas,
creando un centroide espectral más alto, una mayor dispersión espectral y una
pendiente espectral más baja. Hasta la fecha, ningún estudio del que tengamos
constancia ha examinado el efecto del cambio en el nivel dinámico sobre la
percepción del timbre, pero algunos trabajos han analizado el papel del timbre en la
percepción del nivel dinámico independientemente del nivel físico de la señal.
Fabiani y Friberg (2011) estudiaron el efecto de las variaciones en el tono, el nivel
sonoro y el timbre instrumental (clarinete, flauta, piano, trompeta y violín) sobre la
percepción de la dinámica de tonos instrumentales aislados producidos a diferentes
tonos y dinámicas. Posteriormente, presentaron estos sonidos a los oyentes a
diferentes niveles físicos. Se pidió a los oyentes que indicaran la dinámica percibida
de cada estímulo en una escala de pianissimo a fortissimo. Los resultados mostraron
que los efectos tímbricos producidos a diferentes dinámicas, así como el nivel físico,
tenían efectos igualmente grandes para los cinco instrumentos, mientras que el tono
era relevante sobre todo para el clarinete, la flauta y el piano. Así pues, las
estimaciones de la dinámica de los tonos musicales se basan tanto en la sonoridad
como en el timbre y, en menor medida, también en el tono.
II. El timbre como vehículo de la identidad de la fuente

El segundo enfoque del timbre se refiere a su papel en el reconocimiento de la
identidad de un instrumento musical o, en general, de un evento generador de
sonido, es decir, la interacción entre objetos, o un medio en movimiento (aire) y un
objeto, que establece vibraciones en el objeto o en una cavidad encerrada por el
objeto. Una hipótesis razonable es que las dimensiones sensoriales que componen el
timbre sirven como indicadores utilizados en la categorización, el reconocimiento y
la identificación de eventos sonoros y fuentes de sonido (Handel, 1995; McAdams,
musical
1993).
La investigación sobre la identificación de instrumentos musicales es relevante
para esta cuestión. Saldanha y Corso (1964) estudiaron la identificación de sonidos
aislados de instrumentos musicales de
50 Stephen McAdams
la orquesta occidental tocada con y sin vibrato. Se interesaron por la importancia

relativa de los transitorios de inicio y fin, la envolvente espectral de la parte
sostenida del sonido y el vibrato. La identificación de sonidos aislados es
sorprendentemente pobre para algunos instrumentos. Cuando se eliminaron los
ataques y las decaídas, la identificación disminuyó notablemente para algunos
instrumentos, en particular para la parte de ataque en sonidos sin vibrato. Sin
embargo, cuando había vibrato, el efecto de cortar el ataque era menor y la
identificación era mejor. Estos resultados sugieren que la información importante
para la identificación del instrumento está presente en la porción de ataque, pero que
en ausencia del ataque normal, la información adicional sigue estando disponible en
la porción de sus- tain, particularmente cuando el vibrato está presente (aunque es
más importante para algunos instrumentos que para otros). El vibrato puede
aumentar nuestra capacidad de extraer información relativa a la estructura de
resonancia del instrumento (McAdams y Rodet, 1988).
Giordano y McAdams (2010) realizaron un metaanálisis de los datos publicados
anteriormente sobre las tasas de identificación y los índices de disimilitud de los
tonos de instrumentos musicales. El objetivo de este estudio era determinar hasta
qué punto los tonos generados con grandes diferencias en los mecanismos de
producción del sonido se recuperaban en los datos perceptivos. En todos los estudios
de identificación, los oyentes confundieron con frecuencia los tonos generados por
instrumentos musicales con una estructura física similar (por ejemplo, clarinetes y
saxofones, ambos instrumentos de una sola lengüeta) y rara vez confundieron los
tonos generados por sistemas físicos muy diferentes (por ejemplo, la trompeta, un
instrumento de válvula labial, y el fagot, un instrumento de doble lengüeta). De
forma coherente, la gran mayoría de los espacios tímbricos publicados anteriormente
revelaron que los tonos generados con estructuras de resonancia similares (por
ejemplo, instrumentos de cuerda frente a instrumentos de viento) o con mecanismos
de excitación similares (por ejemplo, excitación impulsiva como en los tonos de
piano frente a excitación sostenida como en los tonos de flauta) ocupaban la misma
región en el espacio. Estos resultados sugieren que los oyentes pueden identificar de
forma fiable grandes diferencias en los mecanismos de producción de tonos,
centrándose en los atributos tímbricos utilizados para evaluar las dis- similitudes
entre los sonidos musicales.
Varias investigaciones sobre la percepción de sonidos cotidianos amplían el
concepto de timbre más allá del contexto musical (véanse las reseñas de McAdams,
1993; Handel, 1995; Lutfi, 2008). Entre ellos, los estudios sobre sonidos de impacto
aportan información sobre los atributos tímbricos útiles para la percepción de las
propiedades de los instrumentos de percusión: geometría de la barra (Lakatos,
McAdams y Causse', 1997), material de la barra (McAdams, Chaigne y Roussarie,
2004), material del plato (Giordano y McAdams, 2006; McAdams, Roussarie,
Chaigne y Giordano, 2010) y dureza del mazo (Freed, 1990; Giordano, Rocchesso y
McAdams, 2010). Los factores tímbricos relevantes para los juicios perceptivos
varían en función de la tarea. Los factores espectrales son primordiales para la
percepción de la geometría (Lakatos et al., 1997). Los factores espectrotemporales
(por ejemplo, la velocidad de cambio del centroide espectral y la sonoridad)
dominan la percepción del material de los objetos golpeados (McAdams et al., 2004;
Giordano y McAdams, 2006) y de los mazos (Freed, 1990). Pero los factores
musical
espectrales y temporales también pueden influir en la percepción de distintos tipos
de gestos utilizados para hacer vibrar un instrumento, como el ángulo y la posición
del dedo que puntea una cuerda de guitarra (Traube, Depalle y Wanderley, 2003).
52 Stephen McAdams
La percepción de la identidad de un instrumento a pesar de las variaciones de

tono puede estar relacionada con la invariabilidad tímbrica, es decir, los aspectos del
timbre que permanecen constantes con los cambios de tono y volumen. Handel y
Erickson (2001) descubrieron que los oyentes sin formación musical son capaces de
reconocer dos sonidos producidos a diferentes tonos como procedentes del mismo
instrumento o voz sólo dentro de un rango de tono de aproximadamente una octava.
Steele y Williams (2006) descubrieron que los oyentes entrenados musicalmente
podían realizar esta tarea con un 80% de aciertos incluso con diferencias de tono del
orden de 2,5 octavas. En conjunto, estos resultados sugieren que existen límites a la
invariabilidad tímbrica a través del tono, pero que dependen de la formación
musical.
Su papel en la identificación y categorización de la fuente es quizá el aspecto más
descuidado del timbre y conlleva ventajas y desventajas para el uso del timbre como
dimensión portadora de forma en la música (McAdams, 1989). Una de las ventajas
es que la categorización e identificación de una fuente sonora puede poner en juego
el conocimiento perceptivo (adquirido por los oyentes de forma implícita a través de
la experiencia en el mundo cotidiano y en situaciones musicales) que les ayuda a
rastrear una voz o instrumento determinado en una textura musical compleja. Los
oyentes hacen esto con facilidad y algunas investigaciones han demostrado que los
factores tímbricos pueden contribuir de forma importante en ese seguimiento de la
voz (Culling y Darwin, 1993; Gregory, 1994), lo que es especialmente importante en
entornos polifónicos.
Las desventajas pueden surgir en situaciones en las que el compositor busca crear
melodías a través de timbres instrumentales, por ejemplo, las Klangfarbenmelodien
de Schoenberg (1911/1978). Nuestra predisposición a identificar la fuente sonora y
seguirla a través del tiempo impediría una percepción más relativa en la que las
diferencias tímbricas se percibieran como un movimiento a través del espacio
tímbrico más que como un simple cambio de fuente sonora. En los casos en que
tales composiciones tímbricas funcionan, los compositores han tomado a menudo
precauciones especiales para crear una situación musical que atraiga al oyente más
hacia un modo de percepción relativo que absoluto.
III. El timbre como fuerza estructurante en la percepción

musical
La percepción del timbre está en el corazón de la orquestación, un ámbito de la
práctica musical que ha recibido relativamente poco estudio experimental o incluso
teórico. Las combinaciones instrumentales pueden dar lugar a nuevos timbres si los
sonidos se perciben como mezclados. Las diferencias tímbricas también pueden
crear un flujo auditivo de timbres similares y la segregación de timbres disímiles, así
como inducir segmentaciones de secuencias cuando se producen discontinuidades
tímbricas. Los oyentes pueden percibir los intervalos entre timbres como similares
cuando se transponen a una parte diferente del espacio tímbrico, aunque tales
relaciones no se hayan utilizado explícitamente en la composición musical. El
timbre puede desempeñar un papel en la creación y liberación de la tensión musical.
musical
Por último, existen pruebas de que los oyentes pueden aprender regularidades
estadísticas en las secuencias tímbricas, lo que abre la posibilidad de desarrollar
gramáticas musicales basadas en el timbre.
54 Stephen McAdams
A. Mezcla tímbrica
La creación de nuevos timbres a través de la orquestación depende necesariamente
del grado de fusión o mezcla de las fuentes sonoras constituyentes para crear el
nuevo sonido emergente (Brant, 1971; Erickson, 1975). Sandell (1995) ha propuesto
que hay tres clases de objetivos perceptivos en la combinación de instrumentos:
heterogeneidad tímbrica en la que se busca mantener los instrumentos
perceptivamente distintos, aumento tímbrico en el que un instrumento embellece a
otro que domina perceptivamente la combinación, y emergencia tímbrica en la que
resulta un nuevo sonido que no se identifica con ninguno de sus constituyentes. La
mezcla parece depender de una serie de factores acústicos como la sincronía de
inicio de los sonidos constituyentes y otros que están más directamente relacionados
con el timbre, como la similitud de los ataques, la diferencia en los centroides
espectrales y el centroide global de la combinación. Por ejemplo, Sandell (1989)
descubrió que al someter las puntuaciones de mezcla tomadas como medida de
proximidad a un escalado multidimensional, se podía obtener un "espacio de
mezcla"; las dimensiones de este espacio estaban correlacionadas con el tiempo de
ataque y el centroide espectral, lo que sugería que cuanto más similares eran estos
parámetros para los dos sonidos combinados, mayor era su mezcla (Figura 8).
Kendall y Carterette (1993) hallaron una tendencia similar en relación con el papel
de la similitud espectrotemporal en la mezcla de combinaciones de instrumentos de
viento. Estos autores también revelaron una relación inversa entre la mezcla y la
identificabilidad de los sonidos constituyentes, es decir, los sonidos que se mezclan
TM
Dimensión 2 (Centroide
X2
C1
O2
espectral)
X1
TP S1
C2
S2 S3
BN EH
FH
FL
X3
Dimensión 1 (Tiempo de ataque)
Figura 8 Análisis multidimensional de las valoraciones de la mezcla de todos los pares de

sonidos extraídos del espacio tímbrico de Grey (1977). Si dos instrumentos están próximos en
el espacio (por ejemplo, BN y S1), el grado de mezcla se califica como fuerte. Si están
alejados (por ejemplo, TP y X2), la mezcla es débil y los sonidos tienden a escucharse por
separado. Las dimensiones de este "espacio de mezcla" están moderadamente correlacionadas
con el tiempo de ataque (eje x) y fuertemente correlacionadas con el centroide espectral (eje
y). (TM 5 trombón con sordina, C1-C2 5 clarinetes, O1-O2 5 oboes, TP 5 trompeta, BN 5
fagot, FH 5 corno francés, FL 5 flauta, S1-S3 5 cuerdas, X1-X3 5 saxofones, EH 5 corno
inglés).
musical
©1989 por Gregory Sandell. Adaptado con permiso.
56 Stephen McAdams
mejores son más difíciles de identificar por separado en la mezcla. En el caso de las
díadas de sonidos impulsivos y continuos, la mezcla es mayor para los ataques más
lentos y los centroides espectrales más bajos, y el timbre emergente resultante viene
determinado principalmente por las propiedades del sonido impulsivo (Tardieu y
McAdams, en prensa).
B. Timbre y agrupación musical

Una forma importante en la que el timbre puede contribuir a la organización de la
estructura musical está relacionada con el hecho de que los oyentes tienden a
conectar perceptivamente los eventos sonoros que surgen de la misma fuente de
sonido. En general, una fuente dada producirá sonidos que son relativamente
similares en tono, volumen, timbre y posición espacial de un evento al siguiente
(véase Bregman, 1990, Capítulo 2; McAdams y Bregman, 1979, para revisiones). La
conexión perceptiva de sucesivos eventos sonoros en un "mensaje" coherente a
través del tiempo se denomina integración de la corriente auditiva, y la separación
de eventos en "mensajes" distintos se denomina segregación de la corriente auditiva
(Bregman y Campbell, 1971). Un principio rector que parece operar en la formación
de corrientes auditivas es el siguiente: los eventos sucesivos que son relativamente
similares en sus propiedades espectrotemporales (es decir, en sus tonos y timbres)
pueden haber surgido de la misma fuente y deben agruparse juntos; las fuentes
individuales no tienden a cambiar sus propiedades acústicas repentina y
repetidamente de un evento al siguiente. Las primeras demostraciones (véase la
figura 9) de la transmisión auditiva basada en el timbre sugieren un vínculo entre la
representación del espacio tímbrico y la tendencia a la transmisión auditiva basada
en las diferencias espectrales que se crean (McAdams y Bregman, 1979; Wessel,
1979).
Los resultados experimentales de Hartmann y Johnson (1991) les convencieron
de que eran principalmente los aspectos espectrales del timbre (como el centroide
espectral) los responsables de la transmisión auditiva y que los aspectos temporales
(como el tiempo de ataque) tenían poco efecto. Más recientemente, el panorama ha
cambiado significativamente y varios estudios indican que tanto los atributos
espectrales como los temporales del timbre desempeñan un papel importante.
Pitch Pitch
Tiempo
Tiempo
Figura 9 Las dos versiones de una melodía creada por David Wessel con un instrumento
(arriba) o dos instrumentos alternados (abajo). En la melodía superior con un solo timbre, se
percibe un único patrón de tresillos ascendentes. En la melodía inferior de timbre alterno, si
musical
la diferencia tímbrica es suficiente, se escuchan dos patrones intercalados de tresillos
descendentes a la mitad del tempo de la secuencia original.
58 Stephen McAdams
timbre en la segregación del flujo auditivo (Moore y Gockel, 2002). Iverson (1995)
utilizó secuencias que alternaban entre dos tonos de instrumentos grabados con el
mismo tono y sonoridad y pidió a los oyentes que juzgaran el grado de segregación.
Se realizó un escalado multidimensional de los juicios de segregación tratados como
una medida de disimilitud para determinar qué atributos acústicos contribuían a la
impresión de segregación del flujo auditivo. Una comparación con trabajos
anteriores sobre el espacio tímbrico utilizando los mismos sonidos (Iverson y
Krumhansl, 1993) mostró que tanto las señales acústicas estáticas (como el centroide
espectral) como las señales acústicas dinámicas (como el tiempo de ataque y el flujo
espectral) estaban implicadas en la segregación.
Este resultado se refinó en un experimento de Singh y Bregman (1997) en el que
la amplitud de la envolvente y el contenido espectral se variaron
independientemente y se midieron sus contribuciones relativas a la segregación de la
corriente. Para los parámetros utilizados, un cambio de dos a cuatro armónicos
produjo un mayor efecto en la segregación que un cambio de un ataque de 5 ms y un
decaimiento de 95 ms a un ataque de 95 ms y un decaimiento de 5 ms. La
combinación de ambos no produjo una mayor segregación. La combinación de
ambos no produjo una mayor segregación que la obtenida con el cambio espectral,
lo que sugiere una mayor contribución de esta propiedad sonora a la segregación.
Bey y McAdams (2003) utilizaron un paradigma de discriminación de melodías
en el que primero se presentaba una melodía objetivo intercalada con una melodía
distractora, seguida de una melodía de prueba que era idéntica a la objetivo o difería
en dos notas que cambiaban el contorno (Figura 10). La diferencia de timbre entre
las melodías objetivo y las distractoras variaba dentro del espacio tímbrico de
McAdams et al. (1995).
Mezcla
Prue
(objetivo +
ba
distractor)
Frecuenci
a
Tiempo
Frecuenci
a
Tiempo
Figura 10 Secuencias utilizadas para probar el papel del timbre en la segregación de la

corriente. La tarea consistía en determinar si la melodía de prueba aislada había estado
presente en la mezcla de la melodía objetivo (círculos vacíos) y una melodía distractora
intercalada (círculos rellenos, en los que la oscuridad indica el grado de diferencia tímbrica
entre el distractor y el objetivo). Las melodías de prueba y de destino tenían siempre el
mismo timbre.
musical
Extraído de la Figura 2, Bey y McAdams (2003). ©2003 por The American Psychological
Association, Inc. Adaptado con permiso.
60 Stephen McAdams
0.9
0.8
Proporción media
0.7
correcta
0.6
0.5
0.4
0 1 2 3 4 5 6 7 8 9
Distancia entre timbres
Figura 11 Una relación monótona entre la distancia tímbrica y el índice de discriminación

entre las melodías objetivo y de prueba muestra que la distancia en el espacio tímbrico
predice la segregación del flujo.
Extraído de la Figura 4, Bey y McAdams (2003). ©2003 por The American Psychological
Association, Inc. Adaptado con permiso.
En consonancia con los resultados citados anteriormente, la discriminación de

melodías aumentó de forma monótona con la distancia entre los timbres objetivo y
distractor, que varió a lo largo de las dimensiones de tiempo de ataque, centroide
espectral y flujo espectral (Figura 11).
Todos estos resultados son importantes para la teoría de la segregación de las
corrientes auditivas, porque demuestran que varias de las propiedades acústicas de
una fuente se tienen en cuenta a la hora de formar corrientes auditivas. También son
importantes para la creación musical (ya sea con instrumentos electroacústicos o
acústicos), porque demuestran que muchos aspectos del timbre afectan en gran
medida a la organización básica de la superficie musical en corrientes. Diferentes
orquestaciones de una secuencia tímbrica dada pueden cambiar completamente lo
que se oye como melodía y ritmo, como ha demostrado Wessel (1979). El timbre
también es un componente importante en la percepción de grupos musicales, ya sea
a nivel de secuencias de notas que se desencadenan por cambios repentinos en el
timbre (Delie`ge, 1987) o de secciones musicales a mayor escala delimitadas por
cambios marcados en la orquestación y la textura tímbrica (Delie`ge, 1989).
C. Intervalos tímbricos
Consideremos la trayectoria tímbrica mostrada en la Figura 12 a través del espacio
tímbrico de McAdams et al. (1995) que comienza con la guitarra (gtn) y termina
con el corno inglés (ehn). ¿Cómo se podría construir una melodía a partir de la
cuerda de arco (stg) para que se percibiera como una transposición de esta
Klangfarbenmelodie? La noción de transposición de la relación entre dos timbres a
otro punto del espacio tímbrico plantea la cuestión de si los oyentes pueden percibir
musical
realmente la relación tímbrica entre dos timbres.
62 Stephen McAdams
corto 4 vbs
hrp
ols
3
vbn hcd obc

2 gtr
pno
1
Dimensión 1
logarítmico)
(tiempo de
0
ataque
-1
tbn tpr
-2 gtn cnt
ehn
sno
fhn bsn
-3
largo stg tpt
3
bajo
2
1 -3
0 -2
-1 -1 meno
0 s
-2 1
2
alto -3 3
más
Figura 1 2 Trayectoria de una melodía tímbrica corta a través del espacio tímbrico. ¿Cómo se
transpondría la melodía tímbrica que empieza en gtn a otra que empieza en stg?
intervalos. Si se puede demostrar la percepción de los intervalos tímbricos, se abre la

puerta a la aplicación a las secuencias tímbricas de algunas de las operaciones
utilizadas habitualmente en las secuencias de tonos (Slawson, 1985). Otro interés de
esta exploración es que amplía el uso del espacio tímbrico como modelo perceptivo
más allá del paradigma de disimilitud.
Ehresman y Wessel (1978) dieron un primer paso en esta dirección. Basándose en
trabajos previos sobre espacios semánticos y razonamiento analógico (Henley, 1969;
Rumelhart y Abrahamson, 1973), desarrollaron una tarea en la que se pedía a los
oyentes que emitieran juicios sobre la similitud de los intervalos formados entre
pares de timbres. La idea básica era que los intervalos tímbricos pueden tener
propiedades similares a los intervalos de tono; es decir, un intervalo de tono es una
relación a lo largo de una dimensión bien ordenada que conserva un grado de
invariancia bajo ciertos tipos de transformación, como la transla- ción a lo largo de
la dimensión, o lo que los músicos llaman "transposición". Pero, ¿qué significa
transposición en un espacio multidimensional? Un intervalo tímbrico puede
considerarse como un vector en el espacio que conecta dos timbres. Tiene una
longitud específica (la distancia entre los timbres) y una orientación específica. Estas
dos propiedades juntas definen la cantidad de cambio a lo largo de cada dimensión
del espacio que se necesita para pasar de un timbre a otro. Si suponemos que estas
musical
dimensiones son continuas

64 Stephen McAdams
corto 4
D3
D1
3
D4
2 C
1
Dimensión 1
logarítmico)
(tiempo de
0
ataque
-1
A
-2 B
-3
largo
bajo3
2
1 -3
0 -2 más
-1
-1 0
-2 1
2
-3 3
alta menos
Figura 13 Ejemplos de intervalos tímbricos en un espacio tímbrico. El objetivo es encontrar

un intervalo que empiece en C y termine en un timbre D que se parezca al intervalo entre los
timbres A y
B. Si presentamos timbres D1 -D4 (de forma similar a Ehresman & Wessel, 1978), el modelo
vectorial predeciría que los oyentes preferirían D2 , porque el vector CD2 es el
más cercano en longitud y orientación al de AB.
y lineal desde un punto de vista perceptivo, entonces los pares de timbres

caracterizados por la misma relación vectorial deberían tener la misma relación
perceptiva y, por tanto, encarnar el mismo intervalo tímbrico. Así pues, la
transposición consiste en trasladar el vector a cualquier otro lugar del espacio
siempre que se conserven su longitud y su orientación.
Ehresman y Wessel (1978) comprobaron esta hipótesis mediante una tarea en la
que los oyentes tenían que comparar dos intervalos tímbricos (por ejemplo, A-B
frente a C-D) y clasificar varios timbres D según lo bien que cumplían la analogía:
el timbre A es al timbre B lo que el timbre C es al timbre D (véase la figura 13). En
esencia, comprobaron que cuanto más cerca estaba el timbre D del punto ideal
definido por el modelo vectorial en el espacio tímbrico, mayor era la clasificación,
e s d e c i r , e l vector ideal C-D era una simple traslación del vector A-B y A, B, C
y D forman un paralelogramo (mostrado con líneas discontinuas en la Figura 13).
McAdams y Cunibile (1992) probaron posteriormente el modelo vectorial
utilizando el espacio 3D de Krumhansl (1989) (ignorando las especificidades).
musical
Cinco conjuntos de timbres

66 Stephen McAdams
en distintos lugares del espacio tímbrico para comprobar la generalidad de los

resultados. Se probó tanto a compositores electroacústicos como a no músicos para
ver si la formación musical y la experiencia tenían algún efecto. A todos los oyentes
les resultó bastante difícil realizar la tarea, lo cual no es sorprendente dado que
incluso los compositores profesionales casi no tienen experiencia con música que
utilice intervalos tímbricos d e f o r m a sistemática. El resultado principal es
alentador en el sentido de que los datos apoyan globalmente el modelo vectorial,
aunque este apoyo fue mucho más fuerte para los componentes electroacústicos
que para los no músicos. Sin embargo, cuando se examinan en detalle las cinco
versiones diferentes de cada tipo de comparación, queda claro que no todas las
comparaciones tímbricas van en la dirección de las predicciones del modelo.
Un factor de confusión es que se ignoraron las especificidades de algunos timbres
de este conjunto. Estas especificidades necesariamente distorsionarían los vectores
que se utilizaron para elegir los timbres, porque son como una dimensión adicional
para cada timbre. Así, algunos intervalos tímbricos se corresponden bien con lo
previsto porque las especificidades están ausentes o tienen un valor bajo, mientras
que otros están muy distorsionados y, por tanto, no se perciben como similares a
otros intervalos debido a valores de especificidad moderados o altos. Lo que esta
línea de razonamiento sugiere es que el uso de intervalos tímbricos como parte
integral de un discurso musical corre el riesgo de ser muy difícil de conseguir con
fuentes sonoras muy complejas e idiosincrásicas, porque con toda probabilidad
tendrán especificidades de uno u otro tipo. A la larga, el uso de intervalos tímbricos
puede limitarse a sonidos sintetizados o mezclas de sonidos creados mediante la
combinación de varios instrumentos.
D. Construir y liberar la tensión musical con el timbre

El timbre también puede contribuir a la forma musical a gran escala y, en particular,
a la sensación de movimiento entre tensión y relajación. Este movimiento ha sido
considerado por muchos teóricos de la música como una de las bases principales de
la percepción de la forma a gran escala en la música. Tradicionalmente se ha
vinculado a la armonía en la música occidental y desempeña un papel importante en
la teoría generativa de la música tonal de Lerdahl y Jackendoff (1983). Los trabajos
experimentales sobre el papel de la armonía en la percepción de la tensión y la
relajación musicales (o inversamente, en la sensación de tensión que acompaña a un
momento en el que la música debe continuar y la sensación de relajación que
acompaña a la finalización de la frase musical) han sugerido que la rugosidad
auditiva es un componente importante de la tensión percibida (Bigand, Parncutt y
Lerdahl, 1996). La aspereza es un atributo tímbrico elemental basado en la sensación
de fluctuaciones rápidas en la envolvente de amplitud. Puede generarse por
componentes de frecuencia proximales que laten entre sí. Los intervalos disonantes
tienden a tener más batido de este tipo que los consonantes. Como tal, se ha
demostrado una relación bastante directa entre la disonancia sensorial y la rugosidad
(cf. Parncutt, 1989; Plomp, 1976, para revisiones).
Como primer paso para comprender cómo funciona esto en la música, Paraskeva
y McAdams (1997) midieron la inflexión de la tensión y relajación musicales debida
al cambio tímbrico. Se pidió a los oyentes que emitieran juicios en una escala de
musical
siete puntos sobre el grado percibido de finalización de la música en varios puntos
en
68 Stephen McAdams
Bach Ricercar Webern 6 Piezas

7 más completo 7 * la versión más
Tonal liberar Nontonal completa
6 * 6
* *
5 * * 5 **
** *
* * ***
Finalización
Finalización
4 * * 4
*
media
media
3 * * 3
2 2
menos completo tensión mínima
1 tensión 1 completa
5 10 15 20 25 5 10 15 20 25
Segmento Segmento
piano
orquesta
Figura 14 Grado de finalización nominal en diferentes puntos de parada (segmentos) para

obras de Bach y Webern, promediado entre grupos de músicos y no músicos. Los círculos
rellenos corresponden a la versión para piano y los círculos abiertos a la versión orquestal.
Las barras verticales representan la desviación típica. Los asteriscos sobre determinados
segmentos indican una diferencia estadística entre las dos versiones para ese punto de
parada.
Extraído de la figura 1 de Paraskeva y McAdams (1997). ©1997 por los autores. Adaptado
con permiso.
que la música se detuvo. El resultado es un perfil de finalización (Figura 14), que

puede utilizarse para inferir la tensión musical equiparando la finalización con la
liberación y la falta de finalización con la tensión. Se probaron dos piezas: un
fragmento del Ricercar de la Ofrenda musical para seis voces de Bach (tonal) y el
primer movimiento de las Seis piezas para orquesta, Op. 6 de Webern (no tonal).
Cada pieza se interpretó en versión orquestal (para la de Bach se utilizó la
orquestación de Webern de la Ofrenda musical) y en una transcripción directa de
esta versión orquestal para piano en un sampler digital. Aunque sólo había pequeñas
diferencias entre los perfiles de músicos y no músicos, sí había diferencias
significativas entre las versiones para piano y orquesta, lo que indicaba un efecto
significativo del cambio de timbre en la tensión musical percibida. Sin embargo,
cuando eran significativamente diferentes, la versión orquestal era siempre más
relajada que la versión de piano.
La hipótesis propuesta por Paraskeva y McAdams (1997) para este efecto era que
la mayor relajación de la versión orquestal podría deberse a los procesos implicados
en la formación de la corriente auditiva y a la dependencia de la percepción de la
rugosidad de los resultados de dichos procesos (Wright y Bregman, 1987). La
aspereza, o cualquier otro atributo auditivo de un único evento sonoro, se calcula
después de que los procesos de organización auditiva hayan agrupado los bits de
información acústica. Los sonidos de piano tienen un ataque bastante agudo. Si
varias notas aparecen al mismo tiempo en la partitura y se reproducen con un sonido
de piano, serán bastante sincrónicas. Como todas empiezan al mismo tiempo y
tienen envolventes de amplitud y timbres similares, tenderán a fusionarse. La
rugosidad calculada resultará entonces de las interacciones de todos los
componentes de frecuencia de todas las notas.
La situación puede ser muy diferente para la versión orquestal por dos razones.
La primera es que se utiliza el mismo tiempo para las versiones de piano y orquesta.
En la segunda, se utilizan muchos instrumentos que tienen ataques lentos, mientras
que otros tienen ataques más rápidos. Por tanto, podría haber una mayor asincronía
entre los instrumentos en cuanto al tiempo de ataque percibido (Gordon, 1987).
musical
Además, como los timbres de estos instrumentos suelen ser muy diferentes, varias
voces distintas con timbres diferentes
70 Stephen McAdams
llegar momentáneamente a una sonoridad vertical determinada, pero la verticalidad

no se percibe porque lo más probable es que el oyente siga rastreando los
instrumentos individuales horizontalmente en flujos auditivos separados. Así pues,
la asincronía del ataque y la descomposición de las verticalidades en
horizontalidades contribuirían a reducir el grado de fusión perceptiva. Una menor
fusión significaría una mayor segregación. Y así, la rugosidad en la versión
orquestal se calcularía sobre cada evento auditivo agrupado individualmente en
lugar de sobre toda la masa sonora. Estas rugosidades individuales en la versión
orquestal serían muy probablemente mucho menores que las de la versión para
piano. Así que, una vez más, la composición tímbrica puede tener una interacción
muy estrecha con los procesos de análisis de la escena auditiva.
E. Aprendizaje implícito de gramáticas basadas en el timbre

Para utilizar el timbre sintácticamente en la música, los oyentes tendrían que ser
capaces de aprender reglas para ordenar los timbres en secuencias, como ocurre con
la duración y el tono. Esta posibilidad fue explorada por primera vez por Bigand,
Perruchet y Boyer (1998), que presentaron gramáticas artificiales de sonidos
musicales para las que se crearon reglas de secuenciación. Tras ser expuestos a
secuencias construidas con la gramática, los oyentes escuchaban nuevas secuencias
y tenían que decidir si cada una se ajustaba o no a la gramática aprendida, sin tener
que decir por qué. De hecho, con el aprendizaje implícito de las estructuras del
lenguaje y la música, podemos saber si una secuencia corresponde a nuestro
"lenguaje" sin saber por qué: simplemente no suena bien. El porcentaje de
respuestas correctas fue superior al azar en estas secuencias, lo que demuestra la
capacidad de los oyentes para aprender una gramática tímbrica.
Tillmann y McAdams (2004) ampliaron este trabajo estudiando la influencia de
las propiedades acústicas en el aprendizaje implícito de regularidades estadísticas
(probabilidades de transición entre eventos temporalmente adyacentes) en
secuencias de sonidos musicales que sólo diferían en el timbre. Estas regularidades
formaban tripletes de timbres extraídos del espacio tímbrico de McAdams et al.
(1995). La probabilidad de transición entre el primer y el segundo y entre el segundo
y el tercer timbre era mucho mayor que entre el tercer timbre de un triplete dado y el
primer timbre de cualquier otro triplete en el "lenguaje" utilizado en su experimento.
En la fase de aprendizaje implícito, los oyentes escucharon una secuencia
rítmicamente regular de timbres, todos con el mismo tono y sonoridad, durante 33
minutos. La secuencia estaba compuesta por todos los tresillos del "lenguaje" en una
secuencia variada. El objetivo era determinar si los oyentes podían aprender las
regularidades que definían los tresillos simplemente escuchando las secuencias
durante un tiempo bastante corto.
Además del principio de mayor probabilidad de transición entre timbres dentro
de los tripletes que entre los de tripletes diferentes, las secuencias también se
construyeron de modo que la agrupación auditiva basada en la similitud tímbrica
fuera o no congruente con la estructura del triplete (Figura 15). Para ello, se crearon
tres gramáticas. Para la secuencia congruente (S1), los timbres dentro de cada
tresillo estaban bastante próximos dentro del espacio tímbrico de McAdams et al.
(1995), y la distancia entre el último timbre de un tresillo y el primer timbre del
musical
tresillo siguiente era grande. Si las discontinuidades tímbricas creadas por los saltos
en el espacio tímbrico entre tresillos creasen una segmentación de la secuencia, esta
segmentación sería
72 Stephen McAdams
S1: congruente S2: incongruente
4 vbs Triplete vbsTriplet 1

4
1 hrp
hrp
3 ols 3 ols
obc vbn obc
2 gtr vbn hcd 2 gtr hcd
pno
Dimensión 1
Dimensión 1
1 1
pno Triplete 2
0 0
-1 -1
tbn tpr tpr
cnt cnt
-2 gtn ehn -2 gtn tbn
sno fhn fhn ehn
-3 bsn -3 sno bsn
stg tpt stg tpt
3 3
2 2
1 Triplete 2 -2
3 1 -3
0 0 -2
-1 -1
-1 0 -1 0
-2 1 -2 1
2 2
-3 3 -3 3
S3: neutral
4 vbs
hrp
3
ols
2 vbn hcd obc
gtr pno
Dimensión 1
0 Triplete 1 Triplete 2
-1
cnt tbn tpr
-2 ehn
gtn fhn
-3 bsn
sno
stg
3
tpt
2
1 -3
0 -2
-1
-1 0
-2 1
2
-3 3
Figura 15 Ejemplos de tripletas tímbricas utilizadas en las tres gramáticas tímbricas extraídas
del espacio tímbrico de McAdams et al. (1995). En S1 (congruente), la segmentación de la
secuencia en grupos de timbres próximos en el espacio correspondía a las tripletas de la
gramática definidas en términos de probabilidades de transición. En S2 (incongruente), la
segmentación agrupa el último timbre de un triplete con el primero del triplete siguiente,
aislando el timbre central de cada triplete. En S3 (neutro), todos los timbres son más o menos
equidistantes, por lo que no se crea segmentación.
corresponden a los propios tresillos. En la secuencia incongruente (S2), había una

gran distancia entre timbres sucesivos dentro de los tresillos y una pequeña distancia
de un tresillo al siguiente. En consecuencia, los procesos de agrupación secuencial
creaban segmentaciones en dos timbres que atravesaban tripletes adyacentes y un
timbre aislado en medio de cada triplete. Por último, se compuso una tercera
secuencia (S3) para que todas las distancias dentro y entre tripletes fueran
uniformemente medias dentro del espacio de McAdams et al. (1995), evitando así la
segmentación.
Tras escuchar una de las tres secuencias durante 33 minutos, se presentaban dos
grupos de tres timbres y el oyente tenía que decidir cuál de ellos formaba un tresillo
que estaba presente en la secuencia que acababa de escuchar. Otro grupo de oyentes
no escuchó previamente la secuencia de 33 minutos y tuvo que decidir cuál de los
musical
dos grupos
74 Stephen McAdams
90 Figura 16 Porcentaje de elección correcta de

Control tripletas de la gramática construida para
del secuencias en
80 aprendiza que la segmentación perceptiva era
je congruente, incongruente o neutra con respecto
a
a los tripletes de la gramática. El "control
70 no escuchó la secuencia de aprendizaje antes
de la sesión de prueba. El grupo de
correcto
"aprendizaje
60 se expuso a la gramática durante 33 minutos
%
antes de la sesión de prueba.

50 Extraído de la Figura 1, Tillmann y
McAdams (2004). ©2004 por The
American
S1 S2 S3 Asociación Psicológica, Inc. Adaptado con
40
congruente neutro permiso.
incongruente
30
de tres timbres formaban mejor una unidad que podía formar parte de una secuencia
más larga de timbres. Las elecciones de un tresillo que formaban parte de la
gramática se puntuaron como correctas.
Los oyentes fueron capaces de aprender la gramática de forma implícita con sólo
escucharla, ya que las tasas de respuestas correctas del grupo de aprendizaje fueron
superiores a las del grupo que no había sido expuesto previamente a las secuencias
(Figura 16). Pero, curiosamente, este aprendizaje no dependía de la congruencia
entre la estructura de agrupamiento creada por las discontinuidades acústicas y la
estructura creada por las regularidades estadísticas determinadas por las
probabilidades de transición entre timbres dentro y entre tripletes. Se obtuvo el mismo
aumento en la tasa de respuestas correctas para las tres secuencias. Este resultado
sugiere que la elección se vio afectada por la estructura de agrupamiento -los
oyentes prefieren los tripletes "bien formados"-, pero el grado de aprendizaje
estadístico que se produjo al escuchar las secuencias fue el mismo en todas las
condiciones. Así pues, los oyentes parecen capaces de aprender la gramática
construida por la regla de secuenciación tímbrica, independientemente de que las
secuencias tímbricas de la gramática estén compuestas por timbres similares o
disímiles. No obstante, los oyentes prefieren una organización en motivos
compuesta por timbres próximos en el espacio tímbrico y distantes en timbre de
otros motivos.
IV. Observaciones finales

El timbre musical es una combinación de dimensiones perceptivas continuas y
características discretas a las que los oyentes son sensibles de forma diferencial. Las
dimensiones continuas suelen tener correlatos acústicos cuantificables. Esta
estructura perceptiva se representa en un espacio tímbrico, un potente modelo
musical
psicológico que permite realizar predicciones sobre la percepción del timbre en
situaciones tanto dentro como fuera de las utilizadas para derivar el modelo a partir
de las puntuaciones de disimilitud. Los intervalos tímbricos, por ejemplo, pueden
concebirse como vectores dentro del espacio de dimensiones comunes. Aunque el
modelo de las relaciones de intervalo puede verse perturbado si los sonidos tienen
especificidades, no se vería afectado por la sensibilidad diferencial de los oyentes
individuales a las relaciones de intervalo.
76 Stephen McAdams
dimensiones comunes, ya que éstas expandirían y contraerían todas las relaciones de

forma sistémica. El espacio tímbrico también hace predicciones, al menos
cualitativas, sobre la magnitud de las diferencias tímbricas que provocarán la
segregación de la corriente auditiva. Cuanto más separados estén los timbres en el
espacio, mayor será la probabilidad de que las secuencias de tonos intercaladas que
se toquen con ellos formen corrientes separadas, permitiendo así la percepción y el
reconocimiento independientes de las secuencias constituyentes.
La formalización de los descriptores de audio para captar cuantitativamente las
propiedades acústicas que dan lugar a muchos aspectos de la percepción del timbre
está empezando a proporcionar un importante conjunto de herramientas que
benefician a varios ámbitos, como el uso de metadatos basados en señales
relacionados con el timbre que pueden utilizarse en el reconocimiento y la
categorización automáticos de instrumentos (Eronen y Klapuri, 2000; Fujinaga y
MacMillan, 2000). Klapuri, 2000; Fujinaga & MacMillan, 2000), búsquedas basadas
en el contenido en bases de datos de sonido y música muy grandes (Kobayashi &
Osaka, 2008), caracterización de muestras de sonido y música en estándares como
MPEG (Peeters et al., 2000), y muchas otras aplicaciones de recuperación de
información musical y aprendizaje automático musical. Estos descriptores, en
particular los que varían con el tiempo, están demostrando su utilidad en entornos de
orquestación asistida por ordenador (Carpentier, Tardieu, Harvey, Assayag y Saint-
James, 2010; Esling, Carpentier y Agon, 2010; Rose y Hetrick, 2007), en los que el
reto de la investigación es predecir los resultados perceptivos de combinaciones y
secuencias instrumentales para ajustarse a un objetivo expresado por un compositor,
arreglista o diseñador de sonido.
El timbre también puede desempeñar un papel en las variaciones a nivel de frase
que contribuyen a la expresión musical. Las mediciones de la variación tímbrica en
el fraseo del clarinete demuestran que los intérpretes controlan las propiedades
espectrales y temporales como parte de su arsenal de recursos expresivos. Además,
la imitación de variaciones tímbricas instrumentales en secuencias de sonido
sintetizadas aumenta las preferencias de los oyentes en comparación con las
secuencias que carecen de dicha variación (Barthet, Kronland-Martinet e Ystad,
2007). Y en el ámbito de la síntesis de sonido por ordenador, cada vez hay más
interés en el control continuo de los atributos tímbricos para mejorar la expresión
musical (Lee y Wessel, 1992; Momeni y Wessel, 2003).
Los cambios a mayor escala en el timbre también pueden contribuir a la
expresión de funciones estructurales de mayor nivel en la música. En condiciones de
gran mezcla entre los instrumentos que componen una sonoridad vertical, la
aspereza tímbrica es un componente importante de la tensión musical. Sin embargo,
depende en gran medida de la forma en que los procesos de agrupación auditiva
hayan dividido la información acústica entrante en eventos y flujos. Además de los
patrones rítmicos y de tono, la orquestación puede desempeñar un papel
fundamental en la estructuración de los esquemas de tensión y relajación musical,
que son un componente importante de la respuesta estética a la forma musical. En el
ámbito de la música electroacústica y en algunas músicas orquestales, el timbre
desempeña un papel gramatical primordial. Esto es particularmente cierto en los
casos en los que la orquestación es una parte integral del proceso compositivo, lo
que el compositor John Rea denomina orquestación prima facie, en lugar de ser un
musical
nivel de expresión que se añade después de que se hayan determinado las fuerzas
estructurantes primarias de tono y duración, lo que Rea denomina orquestación
normativa. En estos casos, la estructuración y esculpido de los cambios tímbricos y
las relaciones entre acontecimientos auditivos complejos ofrecen un universo de
posibilidades que los compositores llevan décadas explorando (cf. Risset, 2004),
pero que los musicólogos sólo han
78 Stephen McAdams
empezado a abordar recientemente (Nattiez, 2007; Roy, 2003) y que los psicólogos
aún no han abordado con alcance ni profundidad.
Nattiez (2007), en particular, ha tomado la distinción de Meyer (1989) entre
parámetros musicales primarios y secundarios y ha cuestionado su relegación del
timbre a un segundo plano. En la concepción de Meyer, los parámetros primarios,
como el tono y la duración, pueden ser portadores de sintaxis.3 pueden ser
portadores de sintaxis. Para Meyer, las relaciones sintácticas se basan en
expectativas que se resuelven en el cierre, es decir, en implicaciones y realizaciones.
Los parámetros secundarios, en cambio, no se organizan en unidades discretas o
categorías claramente reconocibles. Según Snyder (2000), oímos los parámetros
secundarios (entre los que también incluye el timbre) simplemente en términos de
sus cantidades relativas, que son útiles más para la expresión musical y el matiz que
para construir estructuras gramaticales. Sin embargo, Nattiez (2007) señala que,
según sus propios análisis de la música instrumental y los de Roy (2003) en la
música electroacústica, el timbre puede utilizarse para crear relaciones sintácticas
que dependen de expectativas que conducen a una percepción de cierre. Así pues, el
principal límite de las conclusiones de Meyer sobre el timbre es que limitó sus
análisis a obras compuestas en términos de tono y ritmo y en las que el timbre sólo
podía desempeñar un papel funcional secundario. Esto recuerda la distinción de Rea
entre orquestación prima facie y orquestación normativa mencionada anteriormente.
Basta citar la música de compositores electroacústicos como Dennis Smalley, la
música orquestal de Gyo¨rgy Ligeti o la música mixta de Trevor Wishart para
comprender las posibilidades. Pero incluso en la música orquestal de Beethoven en
el alto período clásico, el timbre desempeña un papel estructurador a nivel de
segmentación seccional inducida por cambios en la instrumentación y a nivel de
distinción de voces individuales o capas orquestales compuestas de timbres
similares.
Como factor responsable de estructurar la tensión y la liberación, el timbre ha
sido utilizado eficazmente por compositores electroacústicos como Francis
Dhomont y Jean-Claude Risset. Según los análisis de Roy (2003), la música de
Dhomont, por ejemplo, utiliza el timbre para crear expectativas y decepciones en un
contexto musical que no está "contaminado" por fuertes estructuras de tono. Esta
última observación implica que en un contexto en el que el tono es una fuerza
estructuradora, el timbre puede tener dificultades para imponerse como parámetro
dominante, lo que sugiere una especie de jerarquía de dominancia que favorece al
ritmo y al tono cuando entran en juego varios parámetros. Las investigaciones sobre
las condiciones en las que los distintos parámetros musicales pueden actuar en
presencia de otros en la estructuración perceptiva de la música no son legión y rara
vez van más allá de la pareja real de tono y ritmo (véase la discusión en McAdams,
1989).4 El terreno para explorar las interacciones entre los parámetros musicales, y
así situar sus posibles papeles relativos en las formas musicales portadoras, requerirá
un esfuerzo conjunto que implique el análisis musicológico y la experimentación
psicológica, pero es potencialmente vasto, rico y muy apasionante.
3
Probablemente se refería a los intervalos interanuales, porque la duración de la nota en sí es
probablemente un parámetro secundario relacionado con la articulación.
4
Una excepción es el trabajo de Krumhansl e Iverson (1992) que muestra que en la percepción de
musical
secuencias existe una asimetría en la relación entre tono y timbre, de forma que el tono parece
percibirse más en términos relativos y el timbre en términos absolutos.
80 Stephen McAdams
Agradecimientos
La preparación de este capítulo ha contado con el apoyo del Consejo de Investigación en
Ciencias Naturales e Ingeniería y del Consejo de Investigación en Ciencias Sociales y
Humanidades de Canadá, así como del programa de Cátedras de Investigación de Canadá.
Referencias
Barthet, M., Kronland-Martinet, R., & Ystad, S. (2007). Improving musical expressiveness by
time-varying brightness shaping. En R. Kronland-Martinet, S. Ystad, & K. Jensen (Eds.),
Computer music modeling and retrieval: Sense of sounds (pp. 313 -336). Berlín,
Alemania: Springer.
Bey, C., & McAdams, S. (2003). Post-recognition of interleaved melodies as an indirect
measure of auditory stream formation. Journal of Experimental Psychology: Human
Perception and Performance, 29, 267 - 279.
Bigand, E., Parncutt, R., & Lerdahl, F. (1996). Percepción de la tensión musical en secuencias
cortas de acordes: The influence of harmonic function, sensory dissonance, horizontal
motion, and musical training. Perception & Psychophysics, - 58, 125 141.
Bigand, E., Perruchet, P., & Boyer, M. (1998). Implicit learning of an artificial grammar of
-
musical timbres. Cahiers de Psychologie Cognitive, 17, 577 600.
Brant, H. (1971). Orchestration. En J. Vinton (Ed.), Dictionary of contemporary music
(pp. 538- 546). Nueva York, NY: E. P. Dutton.
Bregman, A. S. (1990). Análisis de escenas auditivas: La organización perceptiva del sonido.
Cambridge, MA: MIT Press.
Bregman, A. S., y Campbell, J. (1971). Primary auditory stream segregation and perception of
order in rapid sequences of tones. Journal of Experimental Psychology, 89,
244- 249.
Caclin, A., McAdams, S., Smith, B. K., & Winsberg, S. (2005). Acoustic correlates of timbre
space dimensions: A confirmatory study using synthetic tones. Journal of the Acoustical
Carpentier, G., Tardieu, D., Harvey, J., Assayag, G., & Saint-James, E. (2010). Predicción de
las características tímbricas de las combinaciones de sonidos de instrumentos:
- of New Music Research, 39, 47 61.
Application to automatic orchestration. Journal
Carroll, D., & Chang, J. (1970). Analysis of individual differences in multidimensional scal-
ing via an N-way generalization of Eckart-Young decomposition. Psychometrika, 35,
283- 319.
Culling, J. F., y Darwin, C. J. (1993). The role of timbre in the segregation of simultaneous
voices with intersecting F0 contours. Perception & Psychophysics, 34,
303- 309.
Delie`ge, I. (1987). Condiciones de agrupamiento en la escucha musical: Una aproximación a
las reglas de preferencia de agrupamiento de Lerdahl & Jackendoff. - Music Perception, 4,
325 360.
Delie`ge, I. (1989). Un enfoque perceptivo de las formas musicales contemporáneas.
Contemporáneo
Music Review, 4, 213 - 230.
Ehresman, D., & Wessel, D. L. (1978). Perception of timbral analogies, Rapports de l'IRCAM
(Vol. 13). París, Francia: IRCAM-Centre Pompidou.
Erickson, R. (1975). Sound structure in music. Berkeley, CA: University of California Press.
musical
Eronen, A., y Klapuri, A. (2000). Musical instrument recognition using cepstral coefficients
and temporal features. Proceedings of the 2000 IEEE International Conference on
Acoustics, Speech, and Signal Processing, Estambul, 2, II753-II756.
Esling, P., Carpentier, G., & Agon, C. (2010). Dynamic musical orchestration using genetic
algorithms and a spectrotemporal description of musical instruments. En C. Di Chio, et
al. (Eds.), Applications of evolutionary computation, LNCS 6025 (pp. 371 - 380). Berlín,
Alemania: Springer-Verlag.
Fabiani, M., & Friberg, A. (2011). Influence of pitch, loudness, and timbre on the perception
of instrument dynamics. Journal of the Acoustical Society of America, 130, - EL193
EL199.
Freed, D. J. (1990). Auditory correlates of perceived mallet hardness for a set of recorded
-
percussive events. Journal of the Acoustical Society of America, 87, 1236 1249.
Fujinaga, I., & MacMillan, K. (2000). Reconocimiento en tiempo real de instrumentos
orquestales. Actas de la Conferencia Internacional de Música por Ordenador, -Berlín
(pp. 141 143). San Francisco, CA: Asociación Internacional de Música por Ordenador.
Giordano, B. L., & McAdams, S. (2006). Identificación material de sonidos de impacto
reales: Efectos de la variación de tamaño en placas de acero, vidrio, madera y plexiglás.
- 119, 1171 1181.
Journal of the Acoustical Society of America,
Giordano, B. L., & McAdams, S. (2010). Mecánica de la fuente sonora y percepción del
- 168.
timbre musical: Evidence from previous studies. Music Perception, 28, 155
Giordano, B. L., Rocchesso, D. y McAdams, S. (2010). Integración de la información
acústica en la percepción de fuentes sonoras impactadas: The role of information
accuracy and exploitability. Journal of Experimental Psychology: Human Perception
and Performance, 36, - 462 476.
Gordon, J. W. (1987). The perceptual attack time of musical tones. Journal of the Acoustical
Society of America, 82, 88 -105.
Gregory, A. H. (1994). Timbre y flujo auditivo. Music Perception, 12, 161 174. Grey,
- J. M.
(1977). Multidimensional perceptual scaling of musical timbres. Journal of the
Acoustical Society of America, 61, 1270 - 1277.
Grey, J. M., & Gordon, J. W. (1978). Perceptual effects of spectral modifications on musical
timbres. Journal of the Acoustical Society of America, 63, 1493 1500.
-
Hajda, J. M., Kendall, R. A., Carterette, E. C., & Harshberger, M. L. (1997). Cuestiones
metodológicas en la investigación del timbre. En I. Delie`ge, & J. Sloboda (Eds.),
-
Perception and cognition of music (pp. 253 306). Hove, Reino Unido: Psychology Press.
Handel, S. (1995). Percepción tímbrica e identificación auditiva de objetos. En B. C. J. Moore
(Ed.), Hearing (pp. 425 -462). San Diego, CA: Academic Press.
Handel, S., y Erickson, M. (2001). Una regla empírica: El ancho de banda para la invariancia
- 19, 121 126.
tímbrica es una octava. Music Perception,
Handel, S., y Erickson, M. (2004). Identificación de la fuente sonora: The possible role of
timbre transformations. Music Perception, 21,- 587 610.
Hartmann, W. M., & Johnson, D. (1991). Segregación de arroyos y canalización periférica.
Percepción musical, 9, 155- 184.
Helmholtz, H. L. F. von (1885). Sobre las sensaciones del tono como base fisiológica para la
teoría de la música. New York, NY: Dover. (A. J. Ellis, Trans. de la 4ª ed. alemana,
1877; republ. 1954).
Henley, N. M. (1969). Un estudio psicológico de la semántica de los términos animales.
Journal of Verbal Learning and Verbal Behavior, - 8, 176 184.
Iverson, P. (1995). Auditory stream segregation by musical timbre: Efectos de los atributos
acústicos estáticos y dinámicos. Journal of Experimental Psychology: Human
82 Stephen McAdams
Iverson, P., y Krumhansl, C. L. (1993). Aislamiento de los atributos dinámicos del timbre musical.
Journal of the Acoustical Society of America, 94, 2595 2603.
-
Kendall, R. A., y Carterette, E. C. (1991). Perceptual scaling of simultaneous wind instru-
ment timbres. Music Perception, 8, 369 - 404.
Kendall, R. A., y Carterette, E. C. (1993). Identificación y mezcla de timbres como base para la
orquestación. Contemporary Music Review, 9, 51 67. -
Kendall, R. A., Carterette, E. C., & Hajda, J. M. (1999). Perceptual and acoustical features of
natural and synthetic orchestral instrument tones. Music Perception, 16,
327- 364.
Kobayashi, Y., & Osaka, N. (2008). Construction of an electronic timbre dictionary for envi-
ronmental sounds by timbre symbol. Proceedings of the International Computer Music
Conference, Belfast. San Francisco, CA: Asociación Internacional de Música por
Ordenador.
Krimphoff, J., McAdams, S., & Winsberg, S. (1994). Caracte'risation du timbre des sons
complexes. II: Analyses acoustiques et quantification psychophysique [Caracterización
del timbre de sonidos complejos. II: Acoustical analyses and psychophysical
quantification]. Journal de Physique, 4(C5), 625 - 628.
Krumhansl, C. L. (1989). ¿Por qué es tan difícil comprender el timbre musical? En S. Nielze'n, &
O. Olsson (Eds.), Estructura y percepción del sonido electroacústico y la música
(pp. 43 -53). Amsterdam, Países Bajos: Excerpta Medica.
Krumhansl, C. L., & Iverson, P. (1992). Perceptual interactions between musical pitch and
timbre. Journal of Experimental Psychology: Human Perception and Performance, 18,
739- 751.
Kruskal, J. (1964a). Multidimensional scaling by optimizing goodness of fit to a nonmetric
hypothesis. Psychometrika, 29, 1 - 27.
Kruskal, J . (1964b). Escalamiento multidimensional no métrico: A numerical method.
Psychometrika, 29, 115 - 129.
Lakatos, S. (2000). Un espacio perceptivo común para timbres armónicos y percusivos.
Perception & Psychophysics, 62, 1426 - 1439.
Lakatos, S., McAdams, S., & Causse', R. (1997). The representation of auditory source char-
acteristics: Simple geometric form. Perception & Psychophysics, 59, 1180 1190.
-
Lee, M., & Wessel, D. L. (1992). Connectionist models for real-time control of synthesis and
compositional algorithms. Proceedings of the 1992 International Computer Music
-
Conference, San Jose (pp. 277 280). San Francisco, CA: International Computer Music
Association.
Lerdahl, F., y Jackendoff, R. (1983). La teoría generativa de la música tonal. Cambridge,
MA: MIT Press.
Lutfi, R. (2008). Identificación de fuentes sonoras humanas. En W. Yost, A. Popper y R. Fay
(Eds.),
Percepción auditiva de fuentes sonoras (pp. 13-42). Nueva York, NY: Springer-Verlag.
Marozeau, J., de Cheveigne', A., McAdams, S., & Winsberg, S. (2003). The dependency of
timbre on fundamental frequency. Journal of the Acoustical Society of America, 114,
2946- 2957.
Marozeau, J., y de Cheveigne', A. (2007). El efecto de la frecuencia fundamental en la
dimensión de brillo del timbre. Revista de la Sociedad Acústica de América, 121,
383- 387.
McAdams, S. (1989). Psychological constraints on form-bearing dimensions in music.
Revista de música contemporánea, 4(1),-181 198.
McAdams, S. (1993). Reconocimiento de fuentes y eventos sonoros. En S. McAdams, & E.
Bigand (Eds.), Thinking in sound: The cognitive psychology of human audition (pp. - 146
198). Oxford, Reino Unido: Oxford University Press.
musical
McAdams, S., y Bregman, A. S. (1979). Hearing musical streams. Computer Music Journal,
3(4), 26- 43.
McAdams, S., y Cunibile, J.-C. (1992). Perception of timbral analogies. Philosophical
-
Transactions of the Royal Society, Londres, Serie B, 336, 383 389.
McAdams, S., y Misdariis, N. (1999). Perceptual-based retrieval in large musical sound
databases. En P. Lenca (Ed.), Proceedings of Human Centred Processes '99, Brest (pp.
445 450).-Brest, Francia: ENST Bretagne.
McAdams, S., y Rodet, X. (1988). The role of FM-induced AM in dynamic spectral profile
analysis. En H. Duifhuis, J. W. Horst, & H. P. Wit (Eds.), Basic issues in hearing (pp.
359 369).-Londres, Inglaterra: Academic Press.
McAdams, S., Chaigne, A., & Roussarie, V. (2004). Psicomecánica de fuentes sonoras
simuladas: Material properties of impacted bars. Journal of the Acoustical Society of
America, 115, 1306 1320. -
McAdams, S., Depalle, P. y Clarke, E. (2004). Análisis del sonido musical. En E. Clarke, &
N. Cook (Eds.), Empirical musicology: Aims, methods, prospects (pp. 157 196). - Nueva
York, NY: Oxford University Press.
McAdams, S., Roussarie, V., Chaigne, A., & Giordano, B. L. (2010). Psicomecánica de
fuentes sonoras simuladas: Propiedades materiales de las placas impactadas. Journal of
the Acoustical Society of America, 128, 1401- 1413.
McAdams, S., Winsberg, S., Donnadieu, S., De Soete, G., & Krimphoff, J. (1995). Perceptual
scaling of synthesized musical timbres: Common dimensions, specificities, and latent
subject classes. Psychological Research, 58, 177 192. -
Meyer, L. B. (1989). Estilo y música: Teoría, historia e ideología. Philadelphia, PA:
University of Pennsylvania Press.
Miller, J. R., y Carterette, E. C. (1975). Perceptual space for musical structures. Journal of the
Acoustical Society of America, 58, 711 720.-
Momeni, A., y Wessel, D. L. (2003). Characterizing and controlling musical material
intuitively with geometric models. En F. Thibault (Ed.), Proceedings of the 2003
Conference on New Interfaces for Music Expression, Montreal - (pp. 54 62). Montreal,
Canada: Universidad McGill.
Moore, B. C. J., & Gockel, H. (2002). Factores que influyen en la segregación secuencial de
corrientes.
Acustica Unida con Acta Acustica, 88, 320 332. -
Nattiez, J. -J. (2007). Le timbre est-il un parame`tre secondaire? [¿ E s e l timbre un
parámetro secundario?]. Cahiers de la Socie'te' Que'be'coise de Recherche en Musique,
9(1-2), 13 24.
-
Opolko, F., & Wapnick, J. (2006). McGill University master samples [DVD set]. Montreal,
Canadá: Universidad McGill.
Paraskeva, S., & McAdams, S. (1997). Influence of timbre, presence/absence of tonal hierar-
chy and musical training on the perception of tension/relaxation schemas of musical
phrases. Proceedings of the 1997 International Computer Music Conference,
-
Thessaloniki (pp. 438 441). San Francisco, CA: International Computer Music
Association.
Parncutt, R. (1989). La armonía: Un enfoque psicoacústico. Berlín, Alemania: Springer-
Verlag.
Patterson, R. D., Allerhand, M., & Gigue`re, C. (1995). Modelización en el dominio temporal
del procesamiento auditivo periférico: Una arquitectura modular y una plataforma de
software. Journal of the Acoustical Society- of America, 98, 1890 1894.
Peeters, G., McAdams, S. y Herrera, P. (2000). Instrument sound description in the context of
MPEG-7. Actas de la Conferencia Internacional de Música por Ordenador 2000, Berlín
(pp. 166-169). San Francisco, CA: Asociación Internacional de Música por
Ordenador.
84 Stephen McAdams
Peeters, G., Giordano, B. L., Susini, P., Misdariis, N., & McAdams, S. (2011). La caja de
herramientas Timbre: Extracción de descriptores de audio a partir de señales musicales.
- of America, 130, 2902 2916.
Journal of the Acoustical Society
Plomp, R. (1970). El timbre como atributo multidimensional de los tonos complejos. En R.
Plomp, &
G. F. Smoorenburg (Eds.), Frequency analysis and periodicity detection in hearing
(pp. 397- 414). Leiden, Países Bajos: Sijthoff.
Plomp, R. (1976). Aspectos de la sensación tonal: A psychophysical study. Londres, Reino
Unido: Academic Press.
Risset, J.-C. (2004). Timbre. En J.-J. Nattiez, M. Bent, R. Dalmonte, & M. Baroni (Eds.),
Musiques. Une encyclope'die pour le XXIe sie`cle. Vol. 2.: Les savoirs musicaux
[Músicas. Una enciclopedia para el siglo XXI. Vol. 2: Conocimientos musicales] (pp.
134 161).-París, Francia: Actes Sud.
Risset, J. -C., & Wessel, D. L. (1999). Exploración del timbre mediante análisis y síntesis. En
D. Deutsch (Ed.), The psychology of music (2ª ed., pp. 113 - 168). San Diego, CA:
Academic Press.
Rose, F., & Hetrick, J. (2007). L'analyse spectrale comme aide a` l'orchestration contempo-
raine [El análisis espectral como ayuda para la orquestación contemporánea]. Cahiers de
la Socie'te' Que'be'coise de Recherche en Musique,
- -9(1 2), 63 68.
Roy, S. (2003). L'analyse des musiques e'lectroacoustiques: Mode`les et propositions [El
análisis de las músicas electroacústicas: modelos y propuestas]. París, Francia:
L'Harmattan.
Rumelhart, D. E., y Abrahamson, A. A. (1973). A model for analogical reasoning.
Psicología cognitiva, 5, 1 28.
-
Saldanha, E. L., & Corso, J. F. (1964). Timbre cues and the identification of musical instru-
-
ments. Journal of the Acoustical Society of America, 36, 2021 2126.
Sandell, G. J. (1989). Perception of concurrent timbres and implications for orchestration.
Proceedings of the 1989 International Computer Music Conference, Columbus (pp. 268
272).
- San Francisco, CA: Asociación Internacional de Música por Ordenador.
Sandell, G. J. (1995). Roles para el centroide espectral y otros factores en la determinación de
-
"mezclado" pares de instrumentos en la orquestación. Music Perception, 13, 209 246.
Schoenberg, A. (1978). Teoría de la armonía. Berkeley, CA: University of California Press.
(R. E. Carter, Trans. de la edición original alemana, 1911).
Singh, P. G., y Bregman, A. S. (1997). The influence of different timbre attributes on the
perceptual segregation of complex-tone sequences. Journal of the Acoustical Society of
America, 120, 1943 - 1952.
Slawson, W. (1985). Sound color. Berkeley, CA: University of California Press.
Snyder, B. (2000). Música y memoria: An introduction. Cambridge, MA: MIT Press.
Steele, K., y Williams, A. (2006). ¿Es el ancho de banda de la invariancia tímbrica sólo una
octava?
Percepción musical, 23, 215 - 220.
Tardieu, D., & McAdams, S. (en prensa). Perception of dyads of impulsive and sustained
instrument sounds. Music Perception.
Tillmann, B., & McAdams, S. (2004). Implicit learning of musical timbre sequences:
Regularidades estadísticas confrontadas con (des)similitudes acústicas. Journal of
Experimental Psychology: Learning, Memory, and Cognition, - 30, 1131 1142.
Traube, C., Depalle, P., & Wanderley, M. (2003). Indirect acquisition of instrumental gesture
based on signal, physical and perceptual information. En F. Thibault (Ed.), Proceedings
of the 2003 Conference on New Interfaces for Musical Expression, Montreal (pp. 42-47).
Montreal, Canadá: Universidad McGill.
Vurma, A., Raju, M., & Kuuda, A. (2011). ¿Afecta el timbre al tono? Estimations by musi-
cians and non-musicians. Psychology of Music, 39, 291-306.
musical
Wessel, D. L. (1973). Psicoacústica y música: Un informe de la Universidad Estatal de
Michigan.
PACE: Boletín de la Computer Arts Society, 30, 1 2.-
Wessel, D. L. (1979). El espacio tímbrico como estructura de control musical. Computer
-
Music Journal, 3(2), 45 52.
Wessel, D. L., Bristow, D., & Settel, Z. (1987). Control of phrasing and articulation in synthesis.
Proceedings of the 1987 International Computer Music Conference, Champaign/Urbana
(pp. 108-116). San Francisco, CA: International Computer Music Association.
Winsberg, S., & Carroll, D. (1989). A quasi-nonmetric method for multidimensional scaling
via an extended Euclidean model. Psychometrika, 54, 217 229. -
Winsberg, S., & De Soete, G. (1993). A latent class approach to fitting the weighted
Euclidean model, CLASCAL. Psychometrika, 58, 315 - 330.
Winsberg, S., & De Soete, G. (1997). Multidimensional scaling with constrained dimensions:
CONSCAL. British Journal of Mathematical and Statistical Psychology, 50, 55 72. -
Wright, J. K., y Bregman, A. S. (1987). Auditory stream segregation and the control of
dissonance in polyphonic music. Contemporary Music Review, 2(1), 63-92.
3 Percepción del canto
Johan Sundberg
Departamento de Habla, Música y Audición, KTH (Real Instituto
de Tecnología), Estocolmo, Suecia
I. Introducción
La comprensión de la percepción del canto puede surgir de dos tipos de
investigación. Un tipo se refiere a las propiedades acústicas del canto, que varían
sistemáticamente y se examinan desde el punto de vista de la percepción. Estas
investigaciones son poco frecuentes. Otro tipo de investigación compara las
características acústicas de varios tipos de voces o fonaciones, como los estilos
clásicos frente a los de correa o la fonación pulsada frente a la normal. Dado que
estas clasificaciones deben basarse en señales perceptivas auditivas, estas
investigaciones son relevantes desde el punto de vista perceptivo. Muchas
investigaciones sobre el canto poseen este tipo de relevancia perceptiva.
La investigación sobre la percepción del canto no está tan desarrollada como la
de la percepción del habla. Por lo tanto, no se puede hacer aquí una presentación
exhaustiva. En su lugar, se revisan una serie de investigaciones diferentes que sólo
están parcialmente relacionadas entre sí.
Cuando escuchamos a un cantante, podemos observar una serie de fenómenos
perceptivos notables que plantean diferentes preguntas. Por ejemplo: ¿Cómo es que
podemos oír la voz aunque la orquesta esté alta? ¿Cómo es posible que, por lo
general, identifiquemos correctamente las vocales del cantante a pesar de que la
calidad vocálica en el canto difiere considerablemente de la que estamos
acostumbrados en el habla? ¿Cómo es posible que podamos identificar el sexo, el
registro y el timbre de voz de cada cantante cuando el tono de la vocal se encuentra
dentro de un rango común a todos los cantantes y a varios registros? ¿Cómo es
posible que percibamos el canto como una secuencia de tonos discretos, aunque los
eventos de frecuencia fundamental (F0) no formen un patrón de frecuencias
fundamentales discretas? Éstas son algunas de las principales cuestiones que se
abordan en este capítulo. En primer lugar, sin embargo, se presenta un breve
resumen de la acústica de la voz cantada.
II. Función de voz

La teoría de la producción de la voz, ilustrada esquemáticamente en la Figura 1, fue
formulada por Fant (1960). El sistema de producción de la voz consta de tres
musical
elementos básicos
70 Johan Sundberg
ESPECTRO RADIADO
Nivel
Frecuencia
Velum
TRACTO VOCAL
Curva de frecuencias
T
Nivel
Formante Frecuenci
s Pliegues
a VOZ FUENTE
Espectro vocales
Tráquea
Nivel
Pulmones
Frecuencia
Forma de onda
transglot
Flujo de
aire
al
Tiempo
Figura 1 Ilustración esquemática de la función vocal. La fuente de la voz es el flujo de aire

transglótico pulsátil, que tiene un espectro con parciales armónicos cuyas amplitudes
disminuyen monotónicamente al aumentar la frecuencia. Esta señal se inyecta en el tracto
vocal, que es un resonador con resonancias, llamadas formantes. Estos producen picos en la
curva de frecuencia del tracto vocal. Las parciales que se encuentran cerca de los formantes
se realzan y se hacen más fuertes que otras parciales que se encuentran más lejos de un
formante.
componentes: (1) el sistema respiratorio que proporciona un exceso de presión de

aire en los pulmones, (2) las cuerdas vocales que trocean la corriente de aire
procedente de los pulmones en una secuencia de impulsos de aire casi periódicos, y
(3) el tracto vocal que da a cada sonido su forma espectral final característica y, por
tanto, su identidad tímbrica. Estos tres componentes se denominan (1) respiración,
(2) fonación y (3) conformación (articulación) y resonancia del tracto vocal,
respectivamente. La laringe también proporciona una fuente de sonido de susurro, y
el tracto vocal también proporciona la articulación de las consonantes, pero estos
3. Percepción del canto 71
componentes no se tratan aquí.

72 Johan Sundberg
La corriente de aire transglótica cortada se denomina fuente vocal. Es la materia

prima de todos los sonidos vocales. Puede describirse como un tono complejo
compuesto por varios parciales armónicos. Esto implica que la frecuencia del
enésimo parcial es igual a n veces la frecuencia del primer parcial, que se denomina
frecuencia fundamental (en adelante F 0 ) o primer armónico. La F0 es idéntica al
número de impulsos de aire que se producen en 1 segundo o, dicho de otro modo, a
la frecuencia de vibración de las cuerdas vocales. La F0 determina el tono que
percibimos, en el sentido de que el tono seguiría siendo esencialmente el mismo,
incluso si la fundamental sonara sola. Las amplitudes de los parciales de la fuente
vocal disminuyen monotónicamente al aumentar la frecuencia. Para una sonoridad
vocal media, un parcial dado es 12 dB más fuerte que un parcial situado una octava
más arriba; para una fonación más suave, esta diferencia es mayor. Por otra parte, la
pendiente del espectro voz-fuente no suele depender del sonido vocal que se esté
produciendo.
Las diferencias espectrales entre los distintos sonidos vocales surgen cuando el
sonido de la fuente vocal se transfiere a través del tracto vocal (es decir, desde las
cuerdas vocales hasta la abertura labial). Esto se debe a que la capacidad del tracto
vocal para transmitir el sonido depende en gran medida de la frecuencia del sonido
transmitido. Esta capacidad es mayor en las frecuencias de resonancia del tracto
vocal. Las resonancias del tracto vocal se denominan formantes. Los parciales de la
fuente de la voz más cercanos a las frecuencias de resonancia se irradian desde la
abertura labial con mayor amplitud que otros parciales. Por lo tanto, las frecuencias
de los formantes se manifiestan como picos en el espectro del sonido radiado.
La forma del tracto vocal determina las frecuencias de los formantes, que pueden
variar dentro de límites bastante amplios en respuesta a cambios en las posiciones de
los articuladores (es decir, labios, cuerpo de la lengua, punta de la lengua, mandíbula
inferior, velo, paredes laterales faríngeas y laringe). Así, las dos frecuencias de
formantes más bajas F1 y F2 pueden modificarse en un intervalo de dos octavas o
más, y determinan la identidad de la mayoría de las vocales, es decir, la calidad
vocálica. Las frecuencias formánticas más altas no pueden variar tanto y no
contribuyen mucho a la calidad vocálica. Significan más bien el timbre de voz
personal.
La calidad de las vocales suele describirse en un gráfico que muestra las
frecuencias de F1 y F2, como en la Figura 2. Observe que cada vocal está
representada en una pequeña área en lugar de en un punto del gráfico. Observe que
cada vocal está representada por una pequeña área en lugar de por un punto en el
gráfico. En otras palabras, F1 y F2 pueden variar dentro de ciertos límites sin
cambiar la identidad de la vocal. Esto refleja el hecho de que una vocal dada posee
normalmente frecuencias de formantes más altas en los niños y en las mujeres que
en los hombres. La razón de estas diferencias radica en las distintas dimensiones del
tracto vocal, como se verá más adelante.
III. Fonación
La calidad de la voz puede variar considerablemente mediante ajustes laríngeos que
afectan a la fuente de la voz. En la presente sección se describen algunos aspectos de

estos efectos.
74 Johan Sundberg
Figura 2 Rangos de las dos

frecuencias formánticas más bajas
para las vocales indicadas
representadas por sus símbolos en
el Alfabeto Fonético Internacional.
3000 Arriba se indica la escala de
frecuencias del primer formante en
notación musical.
2500
heet /i/
apu
2000 esta
// e
Frecuencia del segundo
n
/æ/
1500
formante (Hz)
/a/ corte
su
/œ/
1000 // duro
//
/u/ /o/ causa
arranque todos
500
0
0 200 400 600 800 1000
Frecuencia del primer formante (Hz)
A. Sonoridad, tono y tipo de fonación

Se suele suponer que la sonoridad vocal corresponde a la intensidad en decibelios
(dB) del nivel de presión sonora (SPL). Cerca de la fuente de sonido en salas
reverberantes, el SPL disminuye al aumentar la distancia; el SPL es obviamente
mayor a distancias más cortas que a distancias más largas. Por lo tanto, los valores
de SPL sólo son significativos cuando se miden a una distancia especificada. La
intensidad sonora suele medirse a una distancia de 30 cm de la abertura del labio.
El SPL tiene una relación bastante compleja con la sonoridad percibida. El SPL
de una vocal refleja principalmente la fuerza de un único parcial, es decir, el parcial
más fuerte del espectro (Sundberg & Gramming, 1988; Titze, 1992). Excepto en el
caso de las vocales agudas y las vocales que se producen con una voz muy suave,
ese parcial es un sobretono. Este sobretono es normalmente el que está más cerca de
la F1, por lo que las vocales producidas con el mismo esfuerzo pueden variar
sustancialmente en función de la F0 y de la vocal. También es habitual que una
variación del SPL, como la que se produce al variar el nivel de escucha de una
grabación, no se perciba como una variación de la sonoridad vocal. Más bien, dicha
variación suena más como un cambio en la distancia del micrófono a la fuente.
200 200
150 150
Log de los índices de
Log de los índices de

sonoridad medios
sonoridad medios
100 a 100
o
e
50 50
i
u
0 0
70 80 90 100 1 10 100
Nivel sonoro (dB) Presión subglótica (cm H2 O)
Figura 3 Nivel de presión sonora (NPS) y valores medios de sonoridad de las vocales indicadas
producidas con diferentes grados de sonoridad vocal, trazados en función del NPS y de la
presión subglótica (paneles izquierdo y derecho, respectivamente).
Datos de Ladefoged y McKinney (1963).
Si la presión sonora no está estrechamente relacionada con el volumen vocal

percibido, ¿qué es lo que determina la percepción del volumen de las voces? Como
muestran Ladefoged y McKinney (1963) e ilustra la figura 3, la sonoridad media de
las vocales está más estrechamente relacionada con la presión subglótica subyacente
que con la presión sonora. La razón sería que variamos la sonoridad vocal mediante
la presión subglótica; cuanto mayor es la presión, mayor es la sonoridad vocal
percibida. La variación de la presión subglótica también provoca cambios en las
características de la fuente de la voz, aparte del SPL general. En la voz (como en la
mayoría de los demás instrumentos musicales), las amplitudes de los sobretonos más
agudos aumentan a un ritmo más rápido que las amplitudes de los sobretonos más
graves cuando aumenta la intensidad vocal. Esto se ilustra en la figura 4, que
muestra el espectro medio de una voz producida al leer un texto con distintos grados
de intensidad vocal. Así, tanto en el habla como en el canto, la intensidad vocal
percibida aumenta con la dominancia espectral de los sobretonos superiores. En los
cantantes barítonos, un aumento de 10 dB en la intensidad general se traduce en un
aumento de 16 dB en los parciales cercanos a 3 kHz (Sjo¨lander y Sundberg, 2004).
En cantantes femeninas de formación clásica, esta ganancia varía con la F0 (para
una revisión bibliográfica, véase Collyer, Davis, Thorpe y Callaghan, 2009).
La amplitud de la fuente fundamental de la voz es otra característica importante
de la voz. Varía en función del modo de fonación, que, a su vez, está fuertemente
influenciado por la aducción glótica (la fuerza con la que las cuerdas vocales se
presionan entre sí). A menudo se especifica en términos de la diferencia de nivel
entre los parciales 1 y 2 del espectro de la fuente, y se denomina H1-H2 (Armónico
1 - Armónico 2). - Cuando la aducción es débil (extremo: fonación
jadeante/hipofuncional), la fundamental es más fuerte que cuando la aducción es
firme (extremo: fonación presionada/hiperfuncional). Desde el punto de vista
acústico, H1-H2 está estrechamente relacionado con la amplitud pico a pico de los
impulsos de flujo de aire transglotales. Como se ilustra en la figura 5, los cantantes
barítonos de formación clásica tienen una amplitud media de
76 Johan Sundberg
-30
-40 16
Nivel medio del espectro
dB
22
-50 dB
-60
-70
(dB)
-80
100 1000 10000
Frecuencia (Hz)
Figura 4 Espectros medios a largo plazo de una voz masculina no entrenada que lee el
mismo texto con distintos grados de volumen vocal.
Datos de Nordenberg y Sundberg (2004).
H1-H2 tan alto como casi 25 dB para una fonación muy suave (baja presión
subglotal), mientras que para la fonación más fuerte es de sólo 7,5 dB (Sundberg,
Andersson y Hultqvist, 1999). Para una presión subglótica relativa dada, la
fundamental en los cantantes masculinos de teatro musical tiende a ser más débil,
como puede verse en el mismo gráfico (Bjo¨rkner, 2008).
Cuando la aducción glótica se reduce al mínimo para producir un tipo de
fonación no jadeante, se produce una "fonación fluida", en la que tanto la
fundamental de la fuente de la voz como los sobretonos superiores son fuertes. Los
no cantantes tienden a cambiar las características de la fonación con el tono y la
sonoridad, de modo que los tonos altos y/o fuertes se producen con una fonación
más presionada que los tonos bajos. En cambio, los cantantes con formación clásica
parecen evitar estos cambios "automáticos" de la fonación.
Las amplitudes de los impulsos transglotales de flujo de aire están influidas por el
área glótica. Esto significa que dependen, entre otras cosas, de la longitud de las
cuerdas vocales; para una amplitud de vibración dada, las cuerdas vocales más
largas abren u n área glótica mayor que las cuerdas más cortas. Por lo tanto, en un
tono dado y para una presión subglotal dada, un cantante con cuerdas vocales largas
debe producir tonos con una mayor amplitud pico a pico del flujo de aire transglotal
y por lo tanto una fuente de voz fundamental más fuerte que un cantante con cuerdas
vocales más cortas. Como las voces graves tienen cuerdas vocales más largas que las
agudas, cabe esperar que la amplitud de la fundamental también se incluya entre las
características de las distintas categorías de voz. Esto probablemente nos ayude a
saber si un individuo fona en la parte superior, media o inferior de su rango de
tonos. Otra diferencia importante entre las clasificaciones de las voces son las
frecuencias de los formantes, como veremos más adelante.
25
Cantantes de ópera de
F0 = 110 Hz formación clásica
Cantantes de teatro musical
20
15
H1-H2 (dB)
10
0
10 20 30 40 50 60 70 80 90 100
Presión subglótica normalizada (% del intervalo individual)
Figura 5 Valores medios de H1-H2 observados en el tono indicado en función de la presión

subglótica normalizada con respecto al rango total de presión que los cantantes utilizaron para
este tono. Datos de Bjo¨rkner (2008).
En resumen, aparte del tono, hay dos aspectos principales de los sonidos
vocálicos que pueden variar de forma bastante independiente: la amplitud de la
fundamental, que depende en gran medida de la aducción glótica, y la amplitud de
los sobretonos, que está controlada por la presión subglótica. En las voces de los no
cantantes, la aducción glótica suele aumentar con el tono y la intensidad vocal. Los
cantantes parecen evitar estos cambios automáticos en el origen de la voz que
acompañan a los cambios en el tono o la intensidad. Necesitan variar el timbre de
voz por razones expresivas más que fisiológicas. Por lo tanto, se puede decir que
ortogonalizan las dimensiones fonatorias.
B. Regístrese en
El registro, que en algunas publicaciones también se denomina mecanismo, es un
aspecto de la fonación que ha sido objeto de considerable investigación, aunque esta
terminología ha permanecido poco clara (véase, por ejemplo, Henrich, 2006). En
general, se acepta que un registro es una serie de tonos de escala adyacentes que (a)
suenan igual en timbre y (b) se perciben como producidos de forma similar.
Además, en general se admite que las diferencias de registro reflejan diferencias en
el modo de vibración de las cuerdas vocales. Un ejemplo sorprendente del concepto
de registro es el contraste entre los registros modal y de falsete en la voz masculina.
La transición de un registro a otro suele ir asociada, aunque no necesariamente, a un
salto de tono.
En la voz masculina, existen al menos tres registros: aleteo vocal, modal y
falsete. Abarcan las gamas más grave, media y aguda de la voz. A menudo se
supone que la voz femenina contiene cuatro registros: pecho, medio,
78 Johan Sundberg
cabeza y silbato. Cubren, respectivamente, la parte más grave, la parte media-baja,

la parte media-alta y la parte superior de la gama tonal. El registro de aleteo vocal, a
veces denominado registro de pulso, suele aparecer en los finales de frase del habla
conversacional. Los rangos de tono de los registros se solapan, como se ilustra en la
figura 6. También hay que mencionar que muchos expertos en voz sugieren que sólo
hay dos registros en las voces masculina y femenina: grave y ligero, o modal y
falsete.
Fisiológicamente, los registros se asocian a propiedades características de la
fuente de la voz, es decir, se producen a partir de propiedades específicas de
vibración de las cuerdas vocales. En el aleteo vocal, los pliegues son cortos, laxos y
gruesos. Los pulsos de flujo transglotales suelen venir en grupos de dos o más, o con
intervalos de tiempo largos, de forma que el periodo fundamental es muy largo,
normalmente muy por debajo de 60 Hz. En el registro modal, las cuerdas vocales
siguen siendo cortas y gruesas, pero-los impulsos de flujo vienen uno a uno y la
glotis suele estar cerrada durante aproximadamente el 20% 50% del periodo en la
fonación fuerte. En falsetto, las cuerdas vocales son finas, tensas y largas, y
típicamente la glotis no se cierra completamente durante el ciclo vibratorio.
Estas variaciones dan lugar a características acústicas diferentes que son
relevantes desde el punto de vista perceptivo. En el aleteo vocal, la fundamental es
muy débil, en el modal es mucho más fuerte, y en el falsete suele ser el parcial más
fuerte del espectro radiado. Esto es en gran medida consecuencia de la duración de
la fase cerrada combinada con la amplitud del pulso de flujo.
Las cantantes femeninas y también los cantantes contratenores necesitan utilizar
tanto su registro modal inferior/de pecho como su registro de falsete superior/de
cabeza, y las transiciones de registro deben ser lo menos visibles posible. Por lo
tanto, las diferencias tímbricas entre estos registros deben reducirse al mínimo. Este
objetivo parece lograrse mediante una función refinada de los músculos reguladores
del tono, el cricotiroideo y el vocal. El músculo vocalis está situado en el pliegue
vocal, paralelo a él, y cuando se contrae, se esfuerza por acortar y engrosar el
pliegue. El músculo cricotiroideo tiene la función antagónica, esforzándose por
estirar y adelgazar los pliegues. Cuando el músculo vocal deja de contraerse
repentinamente, el tono se eleva de golpe y el registro pasa de modal a falsete (como
en el canto de yodel), lo que provoca un marcado
Vocal alevín Pecho Medio/Mixto/Cabeza Silbato
Alevines Modal Falsetto

vocales
A2 A4 A5 A6
C4
110 Hz "Keyhole" 440 Hz 880 Hz 1760 Hz
Figura 6 Rangos aproximados de los registros vocales indicados en voces femeninas y

masculinas (filas superior e inferior).

80 Johan Sundberg
contraste tímbrico. La técnica utilizada para lograr la transición gradual que

necesitan las cantantes es, probablemente, una disminución más gradual de la
contracción vocal con el aumento del tono. De hecho, esto se sugiere implícitamente
por el hecho de que el término "registro mixto" se ofrece a menudo para el registro
que las voces femeninas utilizan en el rango de tono de aproximadamente E4 a E5 .
La fuga glótica, es decir, el flujo a través de la glotis que no está modulado por la
vibración de las cuerdas vocales, se asocia principalmente con la fonación de falsete
en voces no entrenadas. Los cantantes, por el contrario, parecen evitarla o
minimizarla. Así, se ha observado que tanto los cantantes de contrapunto que cantan
en su registro de falsete como las mujeres de formación clásica que cantan en su
registro medio/mixto a veces fonean con un cierre glótico completo (Lindestad y
So¨dersten, 1988).
IV. Resonancia
A. Frecuencias de formantes en tonos altos
La mayoría de los cantantes tienen que cantar a valores de F0 superiores a los
utilizados en el habla normal; la F0 media de la voz de hombres y mujeres adultos es
de unos 110 Hz y 200 Hz, y rara vez supera los 200 Hz y 400 Hz, respectivamente.
Por lo tanto, en el habla, F1 es normalmente más alta que F0. En el canto, los tonos
más agudos de soprano, contralto, tenor, barítono y bajo corresponden a valores de
F0 de unos 1050 Hz (tono C6 ), 700 Hz (F5 ), 520 Hz (C5 ), 390 Hz (G4 ) y 350 Hz
(F4 ), respectivamente. Por lo tanto, el valor normal de F1 de muchas vocales suele
ser mucho más bajo que la F0 de los cantantes, como puede verse en la figura 2. Si
el cantante utilizara en el canto las mismas frecuencias de articulación y formant
que en el habla, se produciría la situación ilustrada en la parte superior de la figura 7.
La frecuencia fundamental, es decir, el parcial más bajo del espectro, aparecería a
una frecuencia muy superior a la de la primera frecuencia formante (F1). En otras
palabras, la capacidad del tracto vocal para transferir sonido se desperdiciaría en una
frecuencia en la que no hay sonido que transferir.
Los cantantes evitan esta situación. La estrategia consiste en abandonar las
frecuencias de formantes del habla normal y acercar la F1 a la F0 (Garnier, Henrich,
Smith y Wolfe, 2010; Henrich, Smith y Wolfe, 2011; Sundberg, 1975). Un método
comúnmente utilizado para alcanzar este efecto parece ser reducir la constricción
máxima del tracto vocal y luego ampliar la apertura de la mandíbula (Echternach et
al., 2010; Sundberg, 2009). Ambas modificaciones tienden a elevar la F1 (cf.
Lindblom & Sundberg, 1971). Esto explica por qué las mujeres cantantes, en la
parte superior de su rango de tono, tienden a cambiar la apertura de la boca de una
manera dependiente del tono en lugar de una manera dependiente de la vocal, como
en el habla normal.
El resultado acústico de esta estrategia se ilustra en la parte inferior de la Figura
7. La amplitud de la fundamental, y por tanto el SPL global de la vocal, aumenta
considerablemente. Obsérvese que esta ganancia de SPL es el resultado de un
fenómeno resonatorio, obtenido sin un aumento del esfuerzo vocal.
La figura 8 muestra las frecuencias de formantes medidas en una soprano que
canta varias vocales en diferentes tonos. Como puede verse en la figura, la cantante
mantuvo
82 Johan Sundberg
Formante Figura 7 Ilustración esquemática de

s la estrategia de formantes en el
canto agudo. En el caso superior, el
cantante tiene una pequeña abertura
Amplitud
mandibular, de modo que F0 resulta

más agudo que F1.
El resultado es una amplitud baja
de la fundamental. En el caso
inferior, la abertura de la mandíbula
Parciales se ensancha para que F1 se eleve a
Frecuenci
a
una frecuencia cercana a F0.
El resultado es un aumento considerable
Formante de la amplitud de la fundamental.
s Reimpreso de Sundberg (1977a).
Amplitud
Parciales
Frecuenci
a
las frecuencias formánticas del habla normal hasta el tono en el que F0 se acercaba a
F1. Por encima de este tono, F1 se elevaba a una frecuencia cercana a F0.
¿Qué cantantes utilizan esta estrategia de formantes dependientes del tono? La
estrategia se ha documentado en cantantes soprano (Johansson, Sundberg y
Wilbrand, 1985; Joliveau, Smith y Wolfe, 2004; Sundberg, 1975), pero también se
adopta en otros casos, en los que el cantante canta a una F0 superior al valor normal
de F1 (Henrich et al., 2011). Consultando de nuevo la Figura 2, encontramos que
para las voces de bajo y barítono, la mayoría de las vocales tienen una F1 superior a
su F0 superior. En el caso de los tenores y contraltos, ocurre lo mismo solo con
algunas vocales, y en el caso de las sopranos, con pocas vocales. Por lo tanto, se
puede suponer que los cantantes bajos y barítonos aplican la estrategia de formantes
dependientes del tono para algunas vocales en la parte superior de sus rangos de
tono, los tenores para algunas vocales en la parte superior de su rango de tono, las
contraltos para muchas vocales en la parte superior de su rango de tono y las
sopranos para la mayoría de las vocales en la mayor parte de su rango de tono. Un
estudio de las aperturas mandibulares de cantantes profesionales con formación
clásica para diferentes vocales cantadas en diferentes tonos confirmó básicamente
estas suposiciones para las vocales /α/1 y /a/, pero para vocales anteriores como /i/ y
/e/, la estrategia parecía ser primero ampliar la constricción lingual y después
ampliar la apertura mandibular (Sundberg & Skoog, 1997).
Un ensanchamiento de la apertura mandibular afecta en primer lugar a F1, pero
también se ven afectadas las frecuencias de formantes superiores. Esto también se
ilustra en la figura 8; todas las frecuencias de formantes cambian cuando F1 se
acerca a la proximidad de F0.
1
Todos los caracteres que aparecen dentro de // son símbolos del Alfabeto Fonético Internacional.
84 Johan Sundberg
Figura 8 Frecuencias de
4.0 formantes de las vocales
indicadas (símbolos del
Alfabeto Fonético
i
Internacional) medidas en una
e F4
a soprano profesional que cantaba
e i e
i
ei e a diferentes vocales a diferentes
3.0 i
a
u tonos. Las líneas muestran
a
u
a u u esquemáticamente cómo
u
cambiaban las frecuencias de
Frecuencia de formantes
i i a formantes con el tono. Los

ei e
a valores representados por los
aea u
ue i
u
u
ei símbolos encerrados en un
2.0 a círculo se observaron cuando el
u
sujeto las sostenía en modo
F3
hablado.
(kHz)
ee Según Sundberg (1975).

i i
ei i
e
F2
ei
a
u
a
a a
1.0 au
u
u i ae F1
u u
a a a a
eu i
e
e e ui
u u
i i
0 200 400 600 800

Frecuencia fundamental (Hz)
B. El grupo de formantes del cantante

Aunque las cantantes ganan mucho nivel sonoro afinando su F1 en las proximidades
de F0, los cantantes masculinos con formación clásica tienen que utilizar una
estrategia de resonancia totalmente distinta. El mero hecho de cantar muy alto no les
ayudaría a hacer oír su voz cuando les acompaña una orquesta ruidosa. La razón es
que el habla masculina tiene una distribución media de la energía sonora similar a la
de nuestras orquestas sinfónicas (véase la Figura 9). Por lo tanto, es muy probable
que una orquesta ruidosa enmascare la voz de un cantante masculino si tiene las
mismas propiedades espectrales que en el habla. Sin embargo, los tenores, barítonos
y bajos producen espectros en los que - los parciales que caen en la región de
frecuencias de aproximadamente 2,5 a 3 kHz están muy realzados, produciendo un
marcado pico en la envolvente espectral. La figura 10 compara ejemplos típicos de
la vocal /u/ producida en el habla y en el canto por un cantante profesional. Este pico
suele denominarse "formante del cantante" o "formante del canto" (véase más
adelante). Se ha observado en la mayoría de los estudios acústicos de tenores,
barítonos y bajos (véase, por ejemplo, Bartholomew, 1934; Hollien, 1983;
Rzhevkin, 1956; Seidner, Schutte, Wendler y Rauhut, 1985; Sundberg, 1974;

Winckel, 1953). Se ha
86 Johan Sundberg
-10
Nivel medio
(dB)
-20
Medio de música orquestal

Media del habla masculina, 80 dB@0.3m
-30
100 1000 10000
Frecuencia (Hz)
Figura 9 Espectros medios a largo plazo que muestran la distribución típica de la energía
sonora en las orquestas sinfónicas occidentales y en el habla normal (curvas discontinuas y
continuas).
Sung
Nivel (10 dB/división)
Habla
0 1000 2000 3000 4000 5000

Frecuencia (Hz)
Figura 10 Espectros de una vocal /u/ hablada y cantada (curvas delgada y gruesa). El pico
entre 2,5 y 3 kHz se denomina grupo de formantes del cantante.
en correlación con las valoraciones de una cualidad perceptiva denominada

"resonancia/anillo" (Ekholm, Papagiannis y Chagnon, 1998). Como se explicará más
adelante, hace que la voz sea más audible en presencia de un acompañamiento
orquestal ruidoso.
Cuando los formantes se aproximan en frecuencia, la capacidad del tracto vocal
para transferir el sonido aumenta en la región de frecuencia correspondiente. De
hecho, el pico espectral del formante del cantante puede explicarse como la
consecuencia acústica de la agrupación de F3, F4 y F5 (Sundberg, 1974). Por lo
tanto, en lo sucesivo se denominará cluster de formantes del cantante. Su amplitud
depende del grado de agrupación de estos formantes y, por supuesto, también de la
presión subglótica, es decir, del volumen vocal.

88 Johan Sundberg
Las frecuencias de los formantes vienen determinadas por las dimensiones del
tracto vocal, es decir, por la articulación, como ya se ha mencionado. Una
configuración articulatoria que agrupe F3, F4 y F5 de tal manera que se genere el
grupo de formantes de un cantante implica una faringe ancha (Sundberg, 1974). Este
ensanchamiento puede lograrse probablemente bajando la laringe, y una posición
baja de la laringe se observa típicamente en cantantes masculinos con formación
clásica (Shipp & Izdebski, 1975). Así, el grupo de formantes del cantante puede
entenderse tanto acústica como articulatoriamente.
La frecuencia central del grupo de formantes del cantante varía ligeramente entre
las distintas clasificaciones de la voz. Así lo demostraron Dmitriev y Kiselev (1979)
en términos de espectros medios a largo plazo (LTAS). Para los bajos, la frecuencia
central se sitúa cerca de 2,3 kHz, y para los tenores, cerca de 2,8 kHz. Estos
resultados fueron corroborados posteriormente por varios investigadores (Bloothooft
y Plomp, 1988; Ekholm et al., 1998; Sundberg, 2001). La variación es pequeña, pero
se ha comprobado que es perceptualmente relevante en una prueba de audición en la
que participaron expertos a los que se pidió que determinaran la clasificación de
estímulos sintetizados (Berndtsson y Sundberg, 1995).
Parece esencial que la intensidad del grupo de formantes del cantante no varíe
demasiado de una vocal a otra. En el habla neutra, el nivel de F3 normalmente puede
diferir en casi 30 dB entre una /i/ y una /u/ debido a la gran diferencia en F2, lo que
resulta en una gran diferencia en la proximidad entre F2 y F3 en estas vocales (véase
la Figura 2). Los cantantes masculinos de formación clásica agrupan densamente F3,
F4 y F5 en /u/, mientras que su F2 en /i/ es mucho menor que en el habla. Como
consecuencia, el nivel del grupo de formantes del cantante en /i/ es mucho más
similar al de /u/ en el canto que en el habla (Sundberg, 1990). Se podría considerar
el grupo de formantes del cantante como algo parecido a una tapa uniforme tímbrica
para las vocales cantadas que debería aumentar la similitud en la calidad de voz de
las vocales. Esto ayudaría a los cantantes a lograr un efecto legato en frases que
contienen diferentes vocales.
No se ha encontrado un grupo de formantes de cantante en las sopranos (Seidner
et al., 1985; Weiss, Brown y Morris, 2001). Esto puede deberse a varias razones.
Una puede ser puramente perceptiva. El principio básico para producir el grupo de
formantes de un cantante es que F3, F4 y F5 se concentran en un rango de
frecuencias bastante estrecho. En el canto agudo, la distancia de frecuencia entre
parciales es obviamente grande (es decir, igual a F0). Una soprano que agrupara
estos formantes más agudos produciría vocales con un grupo de formantes de
cantante sólo en los tonos en los que un parcial cayera en el rango de frecuencias del
grupo. Para algunos tonos, no habría tal parcial, y tales tonos sonarían diferentes de
aquellos donde había un parcial golpeando el cluster. Como se ha mencionado, las
grandes diferencias en la calidad de la voz entre tonos adyacentes en una frase no
parecen compatibles con el canto legato.
Los cantantes de los géneros musicales pop no cantan con un grupo de formantes
de cantante. Más bien, se ha observado que algunos de ellos producen un pico
espectral considerablemente más -bajo en el rango de frecuencias de 3,2 a 3,6 kHz
(Cleveland, Sundberg y Stone, 2001). Este pico también se ha observado en algunos
locutores profesionales, como locutores de radio y actores, y en lo que se ha
denominado voces "buenas" (Leino, Laukkanen y Leino, 2011). Este pico parece ser
el resultado de una agrupación de F4 y F5, combinada con un espectro de fuente de

voz que produce parciales armónicos en este rango de frecuencias.
90 Johan Sundberg
Los expertos en voz reconocen fácilmente el grupo de formantes del cantante. Sin
embargo, se utilizan muchos términos para referirse a él. Vennard, un eminente
profesor de canto e investigador de la voz, se refiere a él simplemente como "los
2800 Hz" que producen el "timbre" de la voz (Vennard, 1967). Parece que el
término alemán "Stimmsitz", cuando se utiliza para referirse a voces masculinas de
formación clásica, se asocia con el grupo de formantes de un cantante que está
presente en todas las vocales y en todos los tonos (W. Seidner, comunicación
personal, 2011).
C. Modificación de la calidad de las vocales

Las desviaciones de las frecuencias formánticas típicas del habla normal producidas
por cantantes femeninas con formación clásica en tonos altos son bastante
importantes e implican una modificación considerable de la calidad vocálica. Sin
embargo, la producción del grupo de formantes de la cantante también está asociada
a modificaciones de las cualidades vocálicas típicas del habla normal. La razón es
que el ensanchamiento necesario de la faringe y el descenso de la laringe también
afectan a F1 y F2. Sundberg (1970) midió las frecuencias de formantes en las
vocales cantadas por cuatro cantantes y las comparó con las frecuencias de
formantes registradas para los no cantantes por Fant (1973). Como muestra la figura
11, existen diferencias considerables entre ambas. Por ejemplo, F2 en vocales
frontales como /i/ y /e/ no alcanza una frecuencia tan alta en el canto como en el
habla. Como resultado, algunas vocales en el canto asumen frecuencias for- mantas
que son típicas de una vocal diferente en el habla. Por ejemplo, la F2 de una /i/
cantada es casi la misma que la F2 de una /y/ hablada.
Los cantantes y profesores de canto conocen bien las diferencias de calidad entre
las vocales habladas y las cantadas. Así, a menudo se aconseja a los estudiantes de
canto que modifiquen o "coloreen" una /i:/ hacia una /y:/, una /e:/ hacia una /œ/, una
/a:/ hacia una /α:/, etc. (véase, por ejemplo, Appelman, 1967). Una estrategia común
para las voces masculinas es "cubrir" las vocales en la parte superior del registro
masculino o utilizar la "afinación de formantes" (Doscher, 1994; Miller, 2008). Esto
parece implicar que se baja la F1 en vocales que normalmente tienen una F1 alta,
como /a/ y /ae/. Sin embargo, se considera importante que perceptualmente los
cantantes no sustituyan, sino que sólo modifiquen una vocal hacia otra vocal. Esto
significaría que las vocales cantadas deberían conservar su identidad vocálica
perceptual, aunque F1 y F2 sean algo inusuales.
En comparación con los cantantes de formación clásica, los cantantes de géneros
musicales pop parecen producir en general desviaciones mucho menores de las
cualidades vocálicas utilizadas en el habla normal. Sin embargo, también se han
observado desviaciones en algunos géneros no clásicos. Por ejemplo, en un estudio
de un solo sujeto sobre el estilo vocal denominado "twang" (un timbre de voz
producido por parciales agudos especialmente fuertes), se observó que F2 era de
media un 10% más alto y F3 un 10% más bajo que en un modo neutro de canto
(Sundberg y Thale'n, 2010).
D. Clasificación por voz

Las voces de canto se clasifican en seis grupos principales: soprano, mezzosoprano,

contralto, tenor, barítono y bajo. También existen subgrupos de uso común, como
92 Johan Sundberg
4.0
3.5
F4
F5
3.0
F4
Frecuencias de formantes
2.5 F3
2.0
1.5 F2
(kHz)
1.0
0.5
F1
/u:/ /o:/ /a:/ /æ:/ /e:/ /i:/ /y:/ /-u:/ /ø:/

Vocal (símbolos IPA)
Figura 11 Frecuencias formánticas medias en las vocales indicadas producidas por no

cantantes (curvas discontinuas, según Fant, 1973) y por cuatro cantantes bajo/barítono
(curvas sólidas, según Sundberg, 1970). Obsérvese que la F4 de los no cantantes es
ligeramente superior a la F5 de los cantantes.
De Sundberg (1974).
dramático frente a lírico, o spinto, coloratura, soubrette, etc. El criterio principal

para esta clasificación es el rango de tono cómodo del cantante. Si el registro de un
cantante es de Do3 a Do5 (131-523 Hz), su clasificación es la de tenor. Estas gamas
se solapan en cierta medida, y la gama de - Do4 a Mi4 (262 330 Hz) es en realidad
común a todas las clasificaciones de la voz. No obstante, aunque oigamos cantar una
voz en este estrecho tono
generalmente podemos oír si se trata de una voz masculina o femenina, y los
expertos en la mayoría de los casos pueden incluso identificar la clasificación de la
voz.
Cleveland (1977) estudió los antecedentes acústicos de esta capacidad de
clasificación en relación con los cantantes masculinos. Presentó cinco vocales
cantadas por ocho cantantes profesionales -bajos, barítonos o tenores- a profesores
de canto a los que pidió que clasificaran las voces. Los resultados revelaron que el
principal indicio acústico en la clasificación de voces era la F0. Esto no es muy
sorprendente, si asumimos que los oyentes se basaron en la característica acústica
más aparente en primer lugar. Sin embargo, al comparar las vocales cantadas con los
mismos tonos, Cleveland descubrió que las frecuencias de los formantes eran una
p i s t a secundaria. La tendencia era que cuanto más bajas eran las frecuencias de los
formantes, más bajo se suponía que era el rango de tonos del cantante. En otras
palabras
94 Johan Sundberg
las frecuencias de formantes parecían estar asociadas a los cantantes graves y las
frecuencias de formantes altas a los tenores. En una prueba de audición posterior,
Cleveland verificó estos resultados presentando a los mismos profesores de canto
vocales sintetizadas con frecuencias formánticas que variaban sistemáticamente de
acuerdo con sus resultados de la prueba que utilizaba sonidos vocálicos reales.
Roers, Mu¨rbe y Sundberg (2009) analizaron los perfiles radiográficos de 132
cantantes que fueron aceptados para la formación de cantantes solistas en la
Hochschule fu¨r Musik de Dresde, Alemania, y midieron las dimensiones de sus
tractos vocales y la longitud de sus pliegues vocales. Sus resultados corroboraron los
comunicados anteriormente por Dmitriev y Kiselev (1979), según los cuales las
voces graves tienden a tener tractos vocales largos y viceversa. Observaron además
que esta diferencia depende principalmente de la longitud de la cavidad faríngea.
Así, las sopranos tienden a tener las faringes más cortas y los bajos las más largas.
También observaron que las cuerdas vocales solían ser más cortas en las
clasificaciones con una gama de tonos más alta y más largas en las clasificaciones
con una gama de tonos más baja. Esto sugiere que en un tono determinado, los
cantantes con un rango de tono más alto deberían tender a tener una fundamental de
la voz más débil que los cantantes con un rango de tono más bajo, como se ha
mencionado anteriormente.
En resumen, las frecuencias de los formantes, incluida la frecuencia central del
grupo de formantes del cantante, difieren significativamente entre las principales
clasificaciones de la voz. Estas diferencias probablemente reflejan las diferencias en
las dimensiones del tracto vocal, en particular la relación entre la longitud de la
faringe y la boca.
V. Intensidad y enmascaramiento
Los cantantes de ópera y de conciertos de estilo clásico a veces van acompañados de
una orquesta que puede ser bastante ruidosa; el nivel de sonido ambiente en una sala
de conciertos puede alcanzar de 90 a 100 dB. El efecto de enmascaramiento de un
sonido depende en gran medida de cómo se distribuye la energía sonora a lo largo de
la escala de frecuencias. Esta distribución puede visualizarse en términos de LTAS.
El espectro que se muestra en la Figura 9 se obtuvo a partir de una grabación del
Vorspiel del primer acto de la ópera Die Meistersinger de Wagner, y la mayor parte
de la música orquestal de la cultura occidental produce un LTAS similar. Los
componentes espectrales más fuertes suelen aparecer en la región de
200-500 Hz, y por encima de 500 Hz, la curva cae unos 9 dB/octava, dependiendo
del volumen de la orquesta (Sundberg, 1972).
El efecto de enmascaramiento de un sonido con un LTAS como el que se muestra
en la Figura 9 es, por supuesto, mayor en aquellas frecuencias en las que el sonido
enmascarador es más fuerte. Disminuye más por debajo que por encima de la
frecuencia del enmascarador. Así, por término medio, el efecto-de enmascaramiento
del sonido de la orquesta será mayor a 200 500 Hz y menor a frecuencias más altas
y, sobre todo, más bajas.
La otra curva de la figura 9 muestra una LTAS media de 15 voces masculinas no
entrenadas que leen un texto estándar en voz alta. Esta LTAS es sorprendentemente
similar a la de una orquesta, lo que sugiere que la combinación de una orquesta
ruidosa con
96 Johan Sundberg
una voz humana hablando sería bastante desafortunado; la orquesta enmascararía la

voz. Y, a la inversa, si el sonido de la voz fuera mucho más fuerte (lo que es muy
poco probable), la orquesta quedaría enmascarada. Por lo tanto, las características
acústicas de la voz humana observadas en el habla masculina fuerte no son útiles
para los cantantes solistas acompañados por una orquesta fuerte.
Volvamos al caso del canto agudo. En este caso, el espectro estará dominado por
la fundamental si F1 se sintoniza a una frecuencia cercana a F0, como se ha
mencionado anteriormente. Es de esperar que esto ocurra en cuanto F0 sea superior
al valor normal de F1, que varía entre unos 300 y 800 Hz, dependiendo de la vocal,
como se ilustró en la Figura 2. A partir de lo descrito anteriormente sobre el
enmascaramiento, vemos que todas las vocales son susceptibles de ser enmascaradas
por una orquesta ruidosa siempre que su F0 esté por debajo de 500 Hz (por debajo
de unos B4 ). Sin embargo, las vocales /α, a, æ/, que tienen un primer formante muy
por encima de 500 Hz, tendrán su parcial más fuerte por encima de 500 Hz, por lo
que deberían ser menos vulnerables al enmascaramiento.
En resumen, cabe esperar que la voz de una cantante femenina quede
enmascarada por un fuerte acompañamiento orquestal si el tono es inferior a si4 y la
vocal no es /a, a, æ/. Esto parece coincidir con la experiencia general de las voces
femeninas en la ópera. Por lo general, no es difícil oírlas cuando cantan en tonos
altos, incluso cuando el acompañamiento orquestal es fuerte.
Como ya se ha comentado, los cantantes masculinos con formación clásica
producen un grupo de formantes de cantante, que consiste en un pico espectral alto
entre 2000 y 3000 Hz. En ese rango de frecuencias, el sonido de una orquesta tiende
a ser unos 20 dB más débil que los parciales cercanos a 500 Hz, como puede verse
en la Figura 9. Como consecuencia, es muy probable que el grupo de formantes del
cantante sea más débil que los parciales cercanos a 500 Hz. Como consecuencia, es
muy probable que el grupo de formantes del cantante corte el sonido de la orquesta.
El efecto debería ser especialmente fuerte si el cantante mira al público; mientras
que los componentes de baja frecuencia se dispersan esféricamente desde la abertura
labial, los componentes de alta frecuencia se irradian más sagitalmente, a lo largo de
la continuación del eje longitudinal de la boca (Cabrera, Davis y Connolly, 2011;
Marshal y Meyer, 1985). Es probable que los componentes de baja frecuencia se
absorban en la zona entre bastidores. Los parciales espectrales del grupo de
formantes del cantante, por el contrario, se pierden en menor medida, ya que su
radiación está más limitada a la dirección sagital. Por lo tanto, siempre que el
cantante esté de cara al público, los parciales del grupo de formantes del cantante
serán más fuertes que los parciales inferiores del sonido que llega al público.
Cabe mencionar dos excepciones al principio de que los sonidos enmascarados
por un sonido competidor son inaudibles. Una excepción es cuando el sonido más
suave comienza una fracción de segundo antes que el sonido enmascarante (Rasch,
1978; Palmer, 1989). La otra excepción se aplica a la situación en la que el sonido
enmascarador varía en el tiempo. Plomp (1977) demostró que podemos oír un
sonido enmascarado de forma intermitente como si fuera continuo si la señal de
enmascaramiento se interrumpe regularmente (véase también el capítulo 6 de este
volumen, sobre los efectos en la asincronía del inicio y la continuidad auditiva).
Ambos casos pueden aplicarse a la combinación cantante-orquesta. Un cantante
puede evitar el enmascaramiento comenzando los tonos antes que la orquesta.
Además, un acompañamiento orquestal, por supuesto, varía en i n t e n s i d a d , lo

que puede ayudar a que se oiga la voz del cantante.
98 Johan Sundberg
VI. Aspectos del timbre de voz

A. "Colocación"
Muchos cantantes y profesores de canto hablan de la "colocación" y de la necesidad
de "proyectar" o "enfocar" la voz para que ésta llegue hasta el extremo más alejado
de un público numeroso. La proyección fue estudiada por Cabrera y asociados
(2011), quienes encontraron razones para concluir que el sonido irradiado por un
cantante puede hacerse cambiar dependiendo de la intención del cantante de
"proyectar". La colocación puede ser "hacia adelante", que generalmente se
considera deseable, y "hacia atrás", que se considera indeseable. Vurma y Ross
(2002) estudiaron los correlatos acústicos de la proyección hacia delante y hacia
atrás. Primero realizaron una prueba de audición en la que se pedía a sujetos
expertos que determinaran si una tríada cantada por diferentes cantantes en
diferentes vocales estaba colocada hacia delante o hacia atrás. A continuación,
midieron las características espectrales de las tríadas clasificadas como adelantadas
y atrasadas y observaron que F2 y F3 tendían a ser más altas en las tríadas que se
percibían como adelantadas. También observaron que el grupo de formantes del
cantante era más prominente en dichas tríadas.
El término "colocación" puede estar relacionado con el hecho de que F3 tiende a
descender si se retrae la punta del tongue. El aumento del nivel del grupo de
formantes del cantante puede ser el resultado del aumento de F2 y F3; una reducción
a la mitad de la separación de frecuencias entre dos formantes aumentará
automáticamente sus niveles en 6 dB (Fant, 1960).
Gibian (1972) sintetizó vocales en las que varió F4 manteniendo constantes los
demás formantes. Un experto en canto descubrió que la "colocación en la cabeza"
del tono era más "adelantada" cuando F4 era de 2,7 kHz, lo que sólo era
0,2 kHz por encima de F3.
B. Inteligibilidad del texto

Hemos visto que las cantantes ganan considerablemente en nivel sonoro al
abandonar las frecuencias de formantes típicas del habla normal cuando cantan en
tonos altos. Al mismo tiempo, F1 y F2 son decisivas para la calidad vocálica. Esto
lleva a preguntarse cómo es posible entender la letra de una canción cuando se
interpreta con los valores "erróneos" de F1 y F2. Es de esperar que tanto la
inteligibilidad de las vocales como la de las sílabas y el texto se vean afectadas. Este
aspecto del canto se ha estudiado en varias investigaciones.
Como recordatorio de las dificultades para organizar condiciones experimentales
bien controladas en el pasado, cabe mencionar un experimento llevado a cabo por el
fonético alemán Carl Stumpf (1926). Utilizó tres sujetos cantantes: un cantante de
ópera profesional y dos cantantes aficionados. Cada cantante cantó varias vocales en
diferentes tonos, de espaldas a un grupo de oyentes que intentaban identificar las
vocales. Las vocales cantadas por el cantante profesional fueron más fáciles de
identificar. Además, en general, los porcentajes de identificaciones correctas
descendieron hasta el 50% en el caso de varias vocales cantadas en el tono de Sol5
(784 Hz).
Desde entonces, se han dedicado muchas investigaciones a la inteligibilidad de

las vocales y sílabas cantadas (véase, por ejemplo, Benolken y Swanson, 1990;
Gregg y Scherer, 2006; Morozov, 1965). La figura 12 ofrece una visión general de
los resultados en términos del mayor porcentaje de identificaciones correctas
observado en diversas investigaciones para las vocales indicadas en los tonos
indicados. El gráfico muestra que la inteligibilidad de las vocales es razonablemente
precisa hasta aproximadamente Do5 y luego desciende rápidamente con el tono hasta
aproximadamente un 15% de identificaciones correctas en el tono de Fa5 . La única
vocal que se ha observado que se identifica correctamente con mayor frecuencia por
encima de este tono es /a/. Aparte del tono y el registro, la posición de la laringe
también parece afectar a la inteligibilidad de las vocales (Gottfried y Chew, 1986;
Scotto di Carlo y Germain, 1985).
Smith y Scott (1980) demostraron de forma sorprendente la importancia de las
consonantes que preceden y siguen a una vocal. Esto se ilustra en el mismo gráfico.
Por encima del tono de Fa5 , la inteligibilidad de las sílabas es claramente mejor que
la de las vocales. Así pues, las vocales son más fáciles de identificar cuando la señal
acústica contiene algunas transiciones (Andreas, 2006). Por cierto, esto parece ser un
universal perceptivo: los estímulos cambiantes son más fáciles de procesar que los
estímulos cuasi estacionarios.
Las dificultades para identificar vocales y sílabas cantadas en tonos agudos se
derivarían tanto de las desviaciones de los cantantes respecto a los patrones de
frecuencia de formantes del habla normal como del hecho de que las vocales agudas
contienen pocos parciales muy distribuidos en la escala de frecuencias, lo que
produce una falta de información espectral.
100 o,i i o,i i,e

o
u i u u,e a a
o
Mayor porcentaje de identificaciones correctas
a u a i
80
a
ua
60 i,e a
i,e
40
20
o,u,e i
0
0 6 12 18 24 30
Tono (semitonos por encima de A3, 220 Hz)
Figura 12 Mayor porcentaje de identificaciones vocálicas correctas observadas en diferentes

tonos por Scotto di Carlo y Germain (1985), Sundberg (1977b) y Sundberg y Gauffin
100 Johan Sundberg
(1982). Los círculos abiertos muestran los datos correspondientes a las sílabas de Smith y
Scott (1980).
Además, puede contribuir un tercer efecto. Según el tipo de fonación, la F0 varía en

amplitud. En un tono alto, la F1 puede situarse entre el primer y el segundo parcial.
Sundberg y Gauffin (1982) presentaron sonidos vocálicos sintetizados y sostenidos
en el rango soprano y pidieron a los sujetos que identificaran la vocal. Los
resultados mostraron que un aumento de la amplitud de la F0 se interpretaba
generalmente como un descenso de la F1.
Parece probable que la experiencia de escuchar el habla sesgue nuestra
identificación de vocales y sílabas. Los niños tienen tractos vocales cortos y cuerdas
vocales cortas, por lo que combinan frecuencias formánticas altas con tonos altos.
En cualquier caso, se puede obtener una mayor similitud en la calidad de las vocales
en condiciones de F0 creciente si se combina una F0 alta con una F1 creciente
(Fahey, Diehl y Traunmu¨ller, 1996; Slawson, 1968).
A diferencia de los cantantes de teatro musical, las voces operísticas de
formación clásica poseen un grupo de formantes de canto, como se ha descrito
anteriormente. Este grupo realza los parciales espectrales superiores, que son
cruciales para la identificación de consonantes y, por tanto, para la inteligibilidad de
las sílabas. Sundberg y Romedahl (2009) probaron la hipótesis de que las voces
operísticas masculinas producirían una mejor inteligibilidad del texto que los
cantantes de teatro musical en presencia de un fuerte ruido de enmascaramiento.
Presentaron sílabas de prueba en una frase portadora cantada por dos cantantes
profesionales de ambas clasificaciones en un fondo de ruido de balbuceo de fiesta,
que tenía un LTAS similar al de una orquesta. Se pidió a los oyentes que
identificaran una sílaba de prueba que apareciera en la frase portadora. Resultó que
los dos tipos de cantante tenían casi el mismo éxito, aunque el sonido de las voces
operísticas era mucho más fácil de discernir cuando el ruido de fondo era alto. Así,
se podía discernir fácilmente la voz pero no el texto. Un factor relevante puede ser
que los cantantes de ópera producían consonantes mucho más cortas que los
cantantes de teatro musical. Es probable que las consonantes cortas sean más
difíciles de identificar en presencia de un ruido fuerte. Si es así, al ampliar la
duración de las consonantes, el cantante de teatro musical puede ganar en
inteligibilidad del texto, que de otro modo probablemente perdería debido a la
ausencia de un grupo de formantes del cantante.
C. Altura de la laringe
La percepción de la voz parece estar influida por la familiaridad con la producción
de la propia voz. El hallazgo mencionado anteriormente de que la sonoridad vocal
percibida está más estrechamente relacionada con la presión subglótica que con la
presión sonora puede considerarse una señal de que "oímos" en relación con lo que
sería necesario para producir las características acústicas que percibimos. Del mismo
modo, otras dimensiones perceptivas de la calidad de la voz parecen más
fisiológicas que acústicas en algunas condiciones.
La posición vertical de la laringe parece ser un ejemplo de ello. Los correlatos
acústicos de los cambios percibidos en la altura de la laringe se investigaron en un
experimento de síntesis (Sundberg y Askenfelt, 1983). Los estímulos consistían en
una serie de escalas ascendentes. Hacia el final de la escala, se introdujeron signos
acústicos de una l a r i n g e elevada en términos de un debilitamiento de la fuente
102 Johan Sundberg
fundamental de la voz, un aumento de las frecuencias for- mantas y una disminución

de la extensión del vibrato. Estas características del estímulo se seleccionaron a
partir de mediciones de vocales producidas con posiciones de laringe
deliberadamente alteradas. Los estímulos se presentaron a un grupo de profesores de
canto.
a los que se pidió que decidieran si el cantante imaginado levantaba o no la

l a r i n g e mientras cantaba las notas altas de la escala. Los resultados mostraron
que la p e r c e p c i ó n d e u n a l a r i n g e e l e v a d a se
producía con mayor eficacia mediante un aumento de las frecuencias de los
formantes. Sin embargo, la amplitud reducida de la fundamental también favorecía
la impresión de una laringe elevada. Además, una menor amplitud del vibrato
contribuía, siempre que las amplitudes de las frecuencias formantes y la F0 ya
sugirieran una laringe elevada.
Estos resultados no son sorprendentes e ilustran ciertas estrategias de percepción.
La fuerte dependencia de las frecuencias de los formantes es lógica, ya que una
laringe elevada inducirá necesariamente un aumento de las frecuencias de los
formantes, por lo que es un signo fiable de una laringe elevada. La amplitud
reducida de la fundamental, sin embargo, es un signo también de un cambio hacia
una fonación más presionada, y tal cambio no acompaña necesariamente a una
elevación de la l a r i n g e . Por lo tanto, es lógico que ésta no sea una condición
suficiente para evocar la percepción de una laringe elevada, como tampoco lo es una
amplitud reducida del vibrato.
D. Identidad del cantante

El timbre de voz viene determinado por las características espectrales, que, a su vez,
vienen determinadas por las frecuencias de los formantes y la fuente de la voz, como
ya se ha mencionado. Dado que los parciales de los sonidos vocales son armónicos,
los parciales están densamente empaquetados a lo largo de la escala de frecuencias,
siempre que la F0 sea baja. Las frecuencias de formantes varían de un individuo a
otro y, por tanto, caracterizan la voz de una persona. A tonos bajos, debería ser fácil
para un oyente reconocer a una persona a partir de los picos de formantes de su
espectro vocal. Sin embargo, si la F0 es alta, los parciales están muy separados a lo
largo del continuo de frecuencias y los formantes serán difíciles de detectar.
Esto establece los antecedentes de una serie de estudios llevados a cabo por
Molly Erickson y sus colaboradores (Erickson, 2003, 2009; Erickson & Perry, 2003;
Erickson, Perry, & Handel, 2001). Realizó pruebas de audición en las que
presentaba grabaciones de patrones de tres o seis notas cantadas por varios
cantantes. Los estímulos se dispusieron según una estrategia extraña, de forma que
dos de los patrones los cantaba el mismo cantante y el tercero, un cantante diferente.
Se pedía a los oyentes que dijeran cuál era el que cantaba el cantante diferente. A
menudo, los oyentes no identificaban correctamente el caso extraño, sobre todo
cuando los estímulos diferían sustancialmente en el tono, por lo que una diferencia
de tono se interpretaba a menudo como señal de un cantante diferente. Los
resultados fueron mejores para las voces masculinas que para las femeninas. Por lo
tanto, es difícil determinar quién canta escuchando sólo unas pocas notas, sobre todo
en tonos altos.
E. Naturalidad
La síntesis es una herramienta valiosa para identificar las correlaciones acústicas y
fisiológicas de las cualidades perceptivas de la voz cantada. Por ejemplo,
104 Johan Sundberg
supongamos que hemos encontrado una serie de características acústicas de una voz
determinada a partir de una serie de mediciones. A continuación, todas estas
características pueden incluirse en una síntesis, variarse sistemáticamente y
evaluarse en una prueba de audición. La síntesis sonará
0 0
-10 -10
-20 -20
-30 -30
-40 -40
-50 -50
-60 -60
0 1 2 3 4 0 1 2 3 4
Frecuencia (kHz) Frecuencia (kHz)
Figura 13 Espectros de la misma vocal que suenan claramente diferentes en cuanto a

naturalidad. El espectro de la izquierda sonaba poco natural debido principalmente a que los
picos de los formantes tienen una forma poco realista, ya que las pendientes de los flancos no
son lo suficientemente cóncavas. Para facilitar la comparación, se ha superpuesto la
envolvente espectral del espectro izquierdo al espectro derecho.
Según Sundberg (1989).
exactamente como los sonidos originales sólo si todas las propiedades acústicas
perceptivamente relevantes están correctamente representadas. En otras palabras, la
síntesis es una poderosa herramienta para determinar hasta qué punto la descripción
acústica de una voz es perceptualmente exhaustiva.
En las pruebas de audición con estímulos sintetizados, la naturalidad es esencial.
Si los estímulos no suenan naturales, es probable que la relevancia de los resultados
de una prueba de audición se vea comprometida. La naturalidad percibida puede
depender de características espectrales inesperadas. La figura 13 ofrece un ejemplo.
Muestra dos espectros de la misma vocal, uno que suena natural y otro que suena
antinatural. Los espectros son casi idénticos. La diferencia, discreta desde el punto
de vista acústico pero importante desde el punto de vista perceptivo, consiste en un
pequeño detalle en las formas de los picos de los formantes en el espectro. La
versión que suena poco natural tenía picos de formantes demasiado romos. Es
interesante que esta diminuta propiedad espectral sea importante desde el punto de
vista perceptivo. De nuevo, sin embargo, la estrategia perceptiva es bastante lógica.
Los picos espectrales tan romos nunca pueden ser generados por un tracto vocal
humano y, por tanto, pueden considerarse un criterio fiable de falta de naturalidad.
VII. Vibrato
A. Características físicas
El vibrato se da en la mayoría de las óperas y conciertos occidentales y, a menudo,
106 Johan Sundberg
también en la música popular. Generalmente, se desarrolla de forma más o menos

automática durante el entrenamiento de la voz.
(Bjo¨rklund, 1961). Desde el punto de vista acústico, corresponde a una ondulación

casi sinusoidal de F0, por lo que puede denominarse vibrato de frecuencia. Puede
describirse en términos de dos parámetros: (1) la velocidad, es decir, el número de
ondulaciones que se producen por segundo, y (2) la extensión, es decir, la
profundidad de la modulación expresada en cents (1 cent es la centésima parte de un
semitono). Se han estudiado varios aspectos del vibrato de frecuencia (para una
visión general, véase Dejonkere, Hirano y Sundberg, 1995).
Según Prame (1994, 1997), la frecuencia suele estar entre 5,5 y 6,5 Hz, pero
tiende a acelerarse un poco hacia el final de un tono sostenido largo. La extensión
del vibrato depende en gran medida del cantante y del repertorio, pero normalmente
se sitúa entre 630 y 6120 c e n t é s i m a s , siendo la media entre tonos y cantantes de
unos 670 centésimas. Como los espectros de los sonidos vocales son armónicos,
las frecuencias de todos los parciales varían en sincronía con la fundamental. La
amplitud de modulación de un parcial depende de lo lejos que esté de un formante,
mientras que las frecuencias de los formantes no parecen variar apreciablemente con
el vibrato (Horii, 1989). Por lo tanto, cada parcial varía en amplitud de forma
sincrónica con el vibrato.
En la música pop, a veces se utiliza otro tipo de vibrato. Corresponde a una
ondulación de la sonoridad, más que de la F0, por lo que puede denominarse vibrato
de amplitud. Hay razones para suponer que se genera por ondulaciones de la presión
subglótica. Suena diferente del vibrato de frecuencia de los cantantes de ópera.
El trasfondo fisiológico de la frecuencia del vibrato ha sido descrito por Hirano y
colaboradores (Hirano, Hibi, & Hagino, 1995). Las mediciones electromiográficas
en los músculos laríngeos han revelado pulsaciones en sincronía con el vibrato
(Vennard, Hirano, Ohala, & Fritzell, 1970 1971). - Lo más probable es que las
variaciones de la inflexión interna que provocan la ondulación del tono se produzcan
en los músculos cricotiroideos que elevan el tono (Shipp, Doherty y Haglund, 1990).
Como efectos secundarios inducidos, la presión subglótica y el flujo de aire
transglótico a veces ondulan en sincronía con el vibrato. Tales pulsaciones pueden
observarse en algunas grabaciones publicadas por Rubin, LeCover y Vennard
(1967).
B. Aspectos perceptivos
1. Inteligibilidad de las vocales
A F0s altas, los parciales espectrales están muy espaciados a lo largo del continuo de
frecuencias y, por lo tanto, es difícil detectar dónde se encuentran los formantes;
puede que no haya parciales cerca de los formantes. No es descabellado sospechar
que el vibrato facilitaría la identificación de vocales a F0s altos, ya que el vibrato
hace que los parciales se muevan en frecuencia y las variaciones de amplitud que
acompañan a las variaciones de frecuencia dan entonces algunas pistas sobre las
posiciones de los formantes. El principio simple es que un parcial crece en amplitud
a medida que se acerca a una frecuencia de formante y disminuye en amplitud a
medida que se aleja de una frecuencia de formante, como se ilustra en la Figura 14.
Por lo tanto, el vibrato de frecuencia va acompañado de oscilaciones en la
frecuencia. Por lo tanto, el vibrato de frecuencia va acompañado de oscilaciones de
108 Johan Sundberg
intensidad que están en fase o en contrafase con la F0, dependiendo de si el parcial

más fuerte está justo por debajo o justo por encima de F1. Se produce un desfase de
intensidad doble cuando un armónico está cerca de la frecuencia del formante y se
mueve tanto
Figura 14 Ilustración del hecho de que, en un

tono cantado con vibrato de frecuencia, la
amplitud y la frecuencia de un parcial espectral
varían en fase o en contrafase, según que el
parcial sea ligeramente inferior o superior a la
frecuencia del formante más próximo. La zona
sombreada representa la amplitud de la
Amplitud
modulación de frecuencia, y la escala de

frecuencias es lineal.
De Sundberg (1995).
Frecuencia
por encima y por debajo del pico del formante durante el ciclo de vibrato. Por lo
tanto, las relaciones de fase entre las ondulaciones de frecuencia y amplitud de un
tono con vibrato nos informan sobre la frecuencia de los formantes. La cuestión es si
el oído puede detectar y utilizar esta información. De ser así, el vibrato facilitaría la
identificación de vocales en tonos altos.
Sundberg (1977b) investigó la influencia del vibrato en la identificación de
vocales sintetizadas con una F0 entre 300 y 1000 Hz. Se pidió a sujetos entrenados
fonéticamente que identificaran estos estímulos como cualquiera de las 12 vocales
largas suecas. Los efectos observados fueron en su mayoría pequeños.
Como este resultado parece contrario a la intuición, McAdams y Rodet (1988)
llevaron a cabo un experimento en el que se presentaron tonos con y sin vibrato a
cuatro sujetos. Los tonos tenían espectros idénticos cuando se presentaban sin
vibrato, pero diferían cuando se presentaban con vibrato. La figura 15 muestra los
espectros y patrones de formantes que utilizaron para obtener este efecto. La tarea de
los sujetos consistía en decidir si dos estímulos presentados sucesivamente eran
idénticos o no. Los sujetos fueron capaces de oír la diferencia entre los tonos con
vibrato, pero necesitaron un amplio entrenamiento para oír el efecto. Estos
resultados sugieren que el vibrato normalmente no facilita en gran medida la
identificación de las vocales.
2. La soltería en Pitch
En general, está bien establecido que la F0 determina el tono. Sin embargo, en el
caso de los tonos con vibrato, esto no es del todo cierto. Aunque la F0 varía
regularmente en esos tonos, el tono que percibimos es perfectamente constante
siempre que la velocidad y la extensión del vibrato se mantengan dentro de ciertos
límites. ¿Cuáles son esos límites? Ramsdell estudió esta cuestión en la Universidad
de Harvard en una tesis que desgraciadamente nunca se publicó. Ramsdell varió
sistemáticamente la velocidad y la extensión del vibrato e hizo que los oyentes
decidieran cuándo el tono resultante poseía una "unicidad en el tono" óptima. Sus
resultados para un tono de 500 Hz se muestran en la figura 16.
110 Johan Sundberg
0 Figura 15 Espectros de
estímulo y patrones de
F1 F2
-10 formantes implicados utilizados
por McAdams y Rodet (1988)
-20 en un experimento que probaba
F3
la relevancia de la
Nivel (dB)
F4
-30 identificación vibrato-vocal; se
podía obtener el mismo
-40 F5
espectro mediante los dos
patrones de frecuencia de
-50 formantes diferentes mostrados
por las curvas discontinuas.
0 1 2 3 4 5
Frecuencia (kHz)
140
120
100
Alcance del vibrato
80
60
( cent)
F0 = 200 Hz
40
F0 = 100 Hz
20
F0 = 150 y 200 Hz
4.5 5 5.5 6 6.5 7 7.5 8

Velocidad de vibrato (ondulaciones/seg)
Figura 16 Valores de la extensión del vibrato que producen una "unicidad en el tono" óptima a
diferentes velocidades de vibrato (según Ramsdell, véase el texto). Los símbolos en círculo
muestran la máxima similitud percibida con la voz humana cantada obtenida por Gibian
(1972). Los datos de Ramsdell se obtuvieron con una F0 de 500 Hz, mientras que los de Gibian
corresponden a los valores de F0 indicados en el gráfico.
Posteriormente, Gibian (1972) estudió el vibrato en vocales sintéticas. Varió la

velocidad y la extensión del vibrato e hizo que los sujetos evaluaran la similitud de
este vibrato con el vibrato producido por la voz humana. Sus resultados coinciden en
gran medida con los datos de Ramsdell, como puede verse en la figura. Además de
preguntar a los oyentes por la soltura óptima en el tono, Ramsdell también les pidió
que evaluaran la "riqueza" en el timbre. Los datos de Ramsdell mostraron que el
óptimo en cuanto a la unicidad del tono y del timbre era el siguiente

112 Johan Sundberg
riqueza correspondían a los valores de velocidad y extensión del vibrato típicamente

observados en los cantantes.
Es interesante que la curva de Ramsdell se aproxime a una línea recta vertical en
torno a siete ondulaciones por segundo. Esto implica que la extensión del vibrato no
es muy crítica para la unicidad en el tono a este ritmo.
3. Tono y F0 media
Otro aspecto perceptivo del vibrato es el tono percibido. Siempre que la velocidad y
la extensión del vibrato se mantengan dentro de unos límites aceptables, ¿cuál es el
tono que percibimos? Esta cuestión fue estudiada de forma independiente por
Shonle y Horan (1980) y Sundberg (1972, 1978b). Sundberg hizo que sujetos
entrenados musicalmente igualaran el tono de un tono con vibrato ajustando la F0 de
un tono posterior sin vibrato. Los dos tonos, que eran vocales cantadas sintetizadas,
eran idénticos excepto por el vibrato. Se presentaron repetidamente hasta que se
completó el ajuste. La velocidad del vibrato era de 6,5 ondulaciones por segundo y
la extensión de 630 cents. La figura 17 muestra los resultados. El oído parece
calcular la media de la frecuencia de ondulación, y el tono percibido se corresponde
estrechamente con esta media.
Shonle y Horan utilizaron estímulos de ondas sinusoidales y llegaron
prácticamente a la misma conclusión. Sin embargo, también demostraron que es la
media geométrica y no la aritmética la que determina el tono. La diferencia entre
estas dos medias es muy pequeña para vibratos musicalmente aceptables.
Con frecuencia se supone que el vibrato es útil en la práctica musical porque
reduce las exigencias de precisión de la F0 (véase, por ejemplo, Stevens y Davis,
1938; Winckel, 1967). Una posible interpretación de esta suposición es que el tono
de un tono con vibrato se percibe con menos precisión que el tono de un tono sin
vibrato. Otra interpretación es que el intervalo de tono entre dos tonos sucesivos se
percibe con menos precisión cuando los tonos tienen vibrato que cuando no lo
tienen.
154 ms
2.0%
Frecuencia fundamental
30
Desviación de la media
lineal (cent)
20 1.0
10
0 0
-10
-20 -1.0
-30
-2.0
70 100 150 200 300 Tiempo
Frecuencia fundamental (Hz)
Figura 17 Panel izquierdo: F0 media de una vocal sintetizada sin vibrato que los sujetos
entrenados musicalmente percibieron que tenía el mismo tono que la misma vocal presentada
con vibrato (Según Sundberg, 1978b). El panel derecho muestra la forma de onda, la
velocidad y la extensión utilizadas en el experimento.
La primera interpretación fue comprobada por Sundberg (1972, 1978a). Las

desviaciones estándar obtenidas cuando los sujetos emparejaban el tono de un tono
con vibrato con el tono de un tono sin vibrato se compararon con las obtenidas de
emparejamientos similares en los que ambos tonos carecían de vibrato. Como puede
verse en la Figura 18, las diferencias entre las desviaciones estándar fueron
extremadamente pequeñas y disminuyeron ligeramente con el aumento de F0. Esto
implica que el vibrato reduce ligeramente la precisión de la percepción del tono en
frecuencias bajas. Por otra parte, los efectos son demasiado pequeños para explicar
cualquier efecto medible en la práctica musical.
La segunda interpretación fue probada por van Besouw, Brereton y Howard
(2008). Presentaron arpegios ascendentes y descendentes de tres tonos a músicos. Se
varió la afinación del tono medio, que tenía o no vibrato, y la tarea del oyente
consistía en decidir cuándo estaba afinado y cuándo d e s a f i n a d o . Los
resultados mostraron que el rango de entonación aceptable del tono medio era, por
término medio, unos 10 centésimas más amplio cuando tenía vibrato que cuando
carecía de él.
También existe un tercer beneficio posible del vibrato, a saber, en la entonación
de tonos que suenan simultáneamente y forman un intervalo consonante. Si dos
tonos complejos con espectros armónicos suenan simultáneamente y constituyen un
intervalo consonante perfectamente afinado, algunos parciales de un tono
coincidirán con algunos parciales del otro tono. Por ejemplo, si dos tonos con F0 de
200 y 300 Hz (es decir, que producen una quinta perfecta) suenan simultáneamente,
uno de cada tres parciales del tono inferior coincidirá con uno de cada dos parciales
del tono superior. Una mala afinación del intervalo provocará batimentos.
‰
10 6
4
5
2
(cent)
0 0
Media
-2
-5
50 100 200 300 400

F0 (Hz)
Figura 18 Efecto del vibrato en la precisión de la percepción del tono en función de la F0

observada cuando sujetos entrenados musicalmente emparejaron primero el tono de una
vocal estímulo que carecía de vibrato con una vocal respuesta posterior que también carecía
de vibrato, y luego repitieron la prueba con vocales estímulo que tenían vibrato. La ordenada
muestra las diferencias en desviación estándar obtenidas entre estas dos condiciones. Los
símbolos se refieren a los sujetos y la curva gruesa representa la media del grupo.
De Sundberg (1978b).
114 Johan Sundberg
Estos tiempos desaparecerían si uno de los tonos tuviera vibrato. Así, si dos voces
cantan perfectamente "rectas" (es decir, sin vibrato), las exigencias de precisión con
respecto a la F0 son mayores que si cantan con vibrato.
En el canto de coloratura staccato, a veces aparecen tonos más cortos que la
duración de un ciclo de vibrato. d'Alessandro y Castellengo (1991) midieron el tono
percibido de dichos tonos cortos. Curiosamente, descubrieron que la mitad
ascendente de un ciclo de vibrato, cuando se presentaba sola, se percibía 15
centésimas por encima de la F0 media, mientras que la mitad descendente se
percibía 11 centésimas por debajo de la media. Los autores concluyeron que el final
de esos breves deslizamientos de tono es más significativo para la percepción del
tono que el principio.
Nuestras conclusiones son que el tono de un tono con vibrato es prácticamente
idéntico al tono de un tono sin vibrato con una F0 igual a la media geométrica de la
F0 del tono con vibrato. Además, la precisión con la que se percibe el tono de un
tono con vibrato no se ve afectada de forma apreciable por el vibrato.
VIII. La entonación en la práctica

Ya se han mencionado un par de investigaciones sobre el tono percibido de los tonos
vibrato. Estas investigaciones se llevaron a cabo en condiciones experimentales bien
controladas. ¿Los resultados así obtenidos se aplican también a la práctica musical?
Es probable que un estudio sobre la precisión de la F0 en la práctica musical
responda a esta pregunta.
En una revisión de varias investigaciones, Seashore (1938/1967) incluyó
abundante documentación de grabaciones de F0 de interpretaciones profesionales de
varias canciones. La tendencia era que las notas largas se cantaban con una F0
media que coincidía con el valor teóricamente correcto. Esto concuerda con los
hallazgos experimentales comunicados anteriormente. Por otra parte, a menudo
"comienzan ligeramente planas (unos 90 cents de media) y se corrigen gradualmente
durante los 200 mseg iniciales del tono". Además, se observó que muchos de los
tonos largos cambiaban su frecuencia media de diversas formas durante el
transcurso del tono. Bjørklund (1961) descubrió que tales desviaciones eran típicas
de los cantantes profesionales en comparación con los no profesionales. Una posible
interpretación de esto es que el tono se utiliza como medio de expresión musical.
En cuanto a los tonos cortos, la relación entre la F0 y el tono parece ser bastante
más complicada. El caso se ilustra en la Figura 19, que muestra el patrón de F0s
durante un pasaje de coloratura cantado por un cantante masculino. El cantante
consideró que esta interpretación era aceptable. El registro revela una cuidadosa
coordinación de amplitud, vibrato y F0. Cada nota toma un periodo de vibrato, y la
mayoría de los periodos de vibrato parecen rodear aproximadamente la frecuencia
objetivo.
Según Seashore (1938/1967), el oído musical es generoso y opera en modo
interpretativo cuando escucha cantar. Por otra parte, no cabe duda de que esta
generosidad tiene sus límites. Además, lo que parece generosidad puede ser sen-
sitividad a pequeñas, deliberadas y significativas desviaciones de lo que
teóricamente es "correcto".
116 Johan Sundberg
Pitch
A
200200 G
céntimos F
F0
F0 (Hz)
E
D
C
Tiempo (escala arbitraria)
Tiempo
1s
Figura 19 Izquierda, F0 de la interpretación de un cantante profesional del pasaje de

coloratura mostrado arriba. Las líneas punteadas horizontales representan las frecuencias a
medio camino entre las frecuencias centrales de los tonos de la escala, calculadas según la
afinación temperada igual, utilizando la F0 media del Do final3 como referencia. A la
derecha, la curva fina muestra la curva F0 resultante de superponer una sinusoide a una
rampa. La curva gruesa muestra la media corrida obtenida con una longitud de ventana del
ciclo de la onda sinusoidal.
Sundberg, Prame e Iwarsson (1996) estudiaron qué medias F0 se aceptaban como

"afinadas" y "desafinadas" en 10 grabaciones comerciales de una canción que se
presentaron a oyentes expertos en una cinta de audición. Se entregó a los oyentes
una tabla con la puntuación de los fragmentos y se les pidió que rodearan con un
círculo cada nota que percibieran como "desafinada". La F0 se promedió para cada
tono. A continuación, estas frecuencias medias se relacionaron con la afinación
temperada igual, utilizando la afinación del acompañamiento como referencia. Los
resultados mostraron una gran variabilidad en las valoraciones. El análisis de los
casos claros, es decir, los tonos aceptados como afinados por todos los expertos o
considerados como desafinados por la mayoría de los oyentes, reveló que para la
mayoría de los tonos aceptados como afinados, la F0 media variaba dentro de una
banda de unos 67 centésimas, mientras que la mayoría de los tonos juzgados como
desafinados estaban fuera de esta banda de frecuencia bastante estrecha. Además, las
bandas correspondientes a los tonos percibidos como afinados no siempre coincidían
con las F0 de la afinación temperada igual. Para algunos tonos, además, la F0 media
aceptada como afinada variaba mucho. Estos tonos parecían estar marcados
armónica o melódicamente. La mayoría de los cantantes parecían adherirse a ciertos
principios en sus desviaciones de la afinación temperada igual. Uno de ellos
consistía en cantar los tonos agudos con sostenido, es decir, añadir una corrección
F0 que aumentaba con el tono. El otro consistía en agudizar y aplanar los tonos que
estaban situados en el lado dominante (derecha) y subdominante (izquierda) del
círculo de quintas, donde la raíz del acorde predominante era la referencia de las "12
en punto". Así, las desviaciones de las frecuencias de los tonos de la escala según la
afinación temperada igual parecían sistemáticas.
Sundberg, La˜, y Himonides (2011) analizaron la afinación de cantantes barítonos
de primera fila y encontraron ejemplos de desviaciones bastante grandes de la
afinación igual temperada, a veces superiores a 50 centésimas. En concreto, la nota
más aguda de las frases con un carácter emocional agitado solía estar afinada. La
entonación de estos tonos se aplanó para igualar la afinación temperada, y se realizó

una prueba de audición en la que se pidió a los músicos oyentes que calificaran la
expresividad en comparaciones por pares.
118 Johan Sundberg
de la versión original y la versión con afinación manipulada. Hubo una preferencia

significativa por las versiones originales. Este resultado indica que la entonación
puede utilizarse como recurso expresivo en el canto. Tales desviaciones
significativas de la afinación temperada igual se utilizan como medios expresivos
también en la música instrumental (Fyk, 1995; Sirker, 1973; Sundberg, Friberg &
Fryde'n, 1991).
Como ya se ha mencionado, la interpretación sin vibrato de intervalos
consonantes mal afinados con tonos que suenan simultáneamente da lugar a
batimentos, y los batimentos suelen evitarse en la mayoría de los tipos de música. Al
añadir vibrato, el cantante escapa a los batimentos. En consecuencia, el vibrato
parece ofrecer al cantante acceso a la entonación como medio expresivo.
IX. Expresión
La expresividad suele considerarse uno de los aspectos más esenciales del canto, y
se ha analizado en un gran número de investigaciones (para una revisión, véase
Juslin y Laukka, 2003). La atención se ha centrado sobre todo en las emociones
básicas, como la ira, el miedo, la alegría, la tristeza y la ternura. Aquí sólo se
reseñan algunos ejemplos de los resultados de estas investigaciones.
La comunicación de emociones básicas funciona bastante bien en el canto. Se han
-
observado identificaciones correctas en torno al 60% 80% en pruebas de audición de
elección forzada relativas a estados de ánimo como la ira, el miedo y la alegría
(Kotlyar y Morozov, 1976; Siegwarth y Scherer, 1995).
Kotlyar y Morozov (1976) estudiaron los detalles de la interpretación que
contienen los mensajes emocionales del cantante. Hicieron que los cantantes
interpretaran una serie de ejemplos para representar diferentes estados de ánimo.
Observaron efectos importantes en el tempo y el volumen general, así como
patrones temporales característicos en el tono y la amplitud, además de micropausas
entre sílabas. Siegwarth y Scherer (1995) observaron que la producción tonal del
cantante también es relevante, en particular, la dominancia de la fundamental y las
amplitudes de los parciales altos. Rapoport (1996) descubrió que los cantantes
utilizaban todo un "alfabeto" de diferentes patrones de F0 con fines expresivos. Por
ejemplo, algunos tonos se acercan a su valor objetivo con un deslizamiento
ascendente rápido o lento, mientras que otros alcanzan su F0 objetivo al inicio del
tono.
En la mayoría de los estudios sobre la coloración emocional del canto, el carácter
agitado frente al pacífico es una dimensión dominante. Sundberg, Iwarsson y
Hagega˚rd (1995) compararon las interpretaciones de una serie de fragmentos
musicales cantados sin acompañamiento por un cantante de ópera profesional. El
cantante cantó los fragmentos de dos formas, como en un concierto o tan vacío de
expresión musical como pudo. Se observaron una serie de características que
parecían diferenciar los fragmentos agitados de los tranquilos. Así, en los ejemplos
agitados, los cambios de nivel sonoro eran más rápidos, la intensidad vocal era
mayor, el tempo era más rápido y la amplitud del vibrato era generalmente mayor
que en los ejemplos tranquilos, sobre todo en las versiones expresivas. En los
fragmentos con ambiente tranquilo, se observaron las diferencias opuestas entre las
versiones expresivas y neutras. Así, el cantante realzó la diferencia entre agitado y

tranquilo en las versiones de concierto.
120 Johan Sundberg
¿Qué información transmite la expresividad? El marcado de frases parece ser un

principio importante que, sin embargo, no parece diferenciar entre lo expresivo y lo
neutro. Otro principio parece consistir en realzar las diferencias entre las distintas
categorías de tonos, como los tonos de escala, los intervalos musicales y los valores
de las notas; la agudización del tono de pico en una frase descrita anteriormente
puede considerarse un ejemplo de este principio. Un tercer principio es enfatizar los
tonos importantes. Al cantar con expresión, los cantantes pueden ayudar al oyente
con tres tareas cognitivas: (1) darse cuenta de qué tonos van juntos y dónde se
encuentran las fronteras estructurales, (2) realzar las diferencias entre las categorías
de tonos e intervalos, y (3) comprender las diferencias entre los tonos y los
intervalos.
(3) para resaltar los tonos importantes.
Obviamente, los cantantes utilizan un código acústico para añadir expresividad a
una interpretación. Como señalan Juslin y Laukka (2003), el código es similar al
utilizado en el habla; de hecho, sería muy sorprendente que se aplicaran códigos
diferentes en el habla y en el canto para transmitir la misma información. Por
ejemplo, la ralentización del tempo hacia el final de las frases musicales es similar al
principio de alargamiento final utilizado en el habla para marcar el final de unidades
estructurales como las frases. Del mismo modo, tanto en el canto como en el habla,
una sílaba o tono importante puede enfatizarse alargando su tiempo ascendente
(Sundberg et al., 1995). Sin embargo, el código expresivo utilizado en el canto no
tiene por qué importarse simplemente del utilizado en el habla. Como señala Fonagy
(1967, 1976, 1983), el origen real de todos los cambios en los sonidos vocales es la
forma del tracto vocal y el ajuste del aparato de las cuerdas vocales; el órgano de la
voz simplemente traduce el movimiento en cambios de sonido. Fonagy sostiene que
la expresividad del habla deriva de un comportamiento pantomímico de estos
órganos. Por ejemplo, en la tristeza, la lengua adopta un tipo de movimiento lento y
deprimido que imprime sus propias características a las secuencias sonoras
resultantes.
X. Observaciones finales
En el presente capítulo se han considerado dos tipos de hechos relacionados con el
canto. Uno es la elección de las características acústicas de los sonidos vocálicos que
los cantantes aprenden a adoptar y que representan desviaciones típicas del habla
normal. Se han analizado tres ejemplos de dichas características: (1) las elecciones
de frecuencias de formantes dependientes del tono en el canto agudo, (2) el grupo de
formantes del cantante que se produce típicamente en todos los sonidos vocálicos en
la voz masculina de canto con entrenamiento clásico, y (3) el grupo de formantes del
cantante que se produce típicamente en todos los sonidos vocálicos en la voz
masculina de canto con entrenamiento clásico.
(3) el vibrato que se produce tanto en el canto masculino como en el femenino.
Hay buenas razones para suponer que estas características tienen un propósito
específico. Tanto las frecuencias de formantes dependientes del tono como el grupo
de formantes del cantante son fenómenos resonatorios que aumentan la audibilidad
de la voz del cantante en presencia de un acompañamiento orquestal fuerte. Como

los fenómenos de resonancia se producen independientemente del esfuerzo vocal, el
aumento de la audibilidad se obtiene sin gasto en términos de esfuerzo vocal; por lo
tanto, un propósito probable en estos dos casos es la economía vocal. El vibrato
parece servir al propósito de permitir al cantante
122 Johan Sundberg
una mayor libertad en cuanto a la entonación, ya que elimina los golpes con el
sonido de un acompañamiento sin vibrato. Así pues, en estos tres casos, el canto se
diferencia del habla de forma muy adecuada. Resulta tentador especular con la
posibilidad de que estas características se hayan desarrollado como resultado de la
evolución; los cantantes que las desarrollaron tuvieron éxito y, por tanto, sus
técnicas fueron copiadas por otros cantantes.
Un segundo tipo de dato sobre el canto que se trata en este capítulo son los
correlatos acústicos de varias clasificaciones de la voz que se puede suponer que se
basan en la per- cepción. Tales clasificaciones no son sólo tenor, barítono, bajo, etc.,
sino también esfuerzo vocal (por ejemplo, piano, mezzo piano) y registro. Hemos
visto que en la mayoría de estos casos era difícil encontrar un denominador acústico
común, porque las características acústicas de las categorías varían con la vocal y la
F0. Más bien, el denominador común parece existir dentro del cuerpo. En el caso de
la clasificación de la voz masculina -tenor, barítono y bajo-, las diferencias
características en la frecuencia de los formantes serían el resultado de diferencias
morfológicas en la longitud del tracto vocal y las cuerdas vocales. Lo mismo ocurre
con el esfuerzo vocal y el registro, porque reflejan diferencias en el control y el
funcionamiento de las cuerdas vocales. Por lo tanto, estos ejemplos de clasificación
de la voz parecen basarse en las propiedades de las estructuras de las vías
respiratorias más que en propiedades acústicas específicas de los sonidos vocales.
Esto es probablemente revelador en relación con la forma en que percibimos las
voces cantadas. Parece que interpretamos estos sonidos en función de cómo se
utilizó el sistema de producción de la voz para crearlos.
En cuanto a la interpretación artística, parece que contiene al menos tres
componentes diferentes. Uno es la diferenciación de distintos tipos de notas, como
tonos de escala y valores de nota. Otro componente es la delimitación de los
componentes estructurales, como motivos, subfrases y frases. Estos requisitos de la
interpretación cantada parecen aplicarse tanto al habla como a la música y es
probable que se hayan desarrollado en respuesta a las propiedades del sistema
perceptivo humano. El tercer componente es la señalización del ambiente emocional
del texto y la música. También a este respecto, la percepción del canto parece estar
estrechamente relacionada con la percepción del habla. La codificación de las
emociones en el habla y el canto sería similar y probablemente se basaría en un
"lenguaje corporal" para la comunicación de las emociones. Si esto es cierto, nuestro
conocimiento del comportamiento emocional humano y, en particular, del habla, nos
sirve de referencia para descodificar la información emocional del canto.
Referencias
Andreas, T. (2006). La influencia del movimiento tonal y la calidad vocálica en la inteligibilidad
del canto. Logopedia Foniatría Vocología, 31, 17 -22.
Appelman, D. R. (1967). La ciencia de la pedagogía vocal. Bloomington, IN: Indiana University
Press.
Bartholomew, W. T. (1934). A physical definition of 'good voice quality' in the male voice.
Benolken, M. S., y Swanson, C. E. (1990). The effect of pitch-related changes on the per-
ception of sung vowels. Journal of the Acoustical Society of America, 87, 1781 - 1785.
Berndtsson, G., & Sundberg, J. (1995). Perceptual significance of the center frequency of the
singer's formant. Revista Escandinava de Logopedia y Foniatría, 20, 35 41. -
Bjørklund, A. (1961). Análisis de voces de soprano. Journal of the Acoustical Society of
America, 33, 575-582.
Bjo¨rkner, E. (2008). Teatro musical y canto de ópera: ¿por qué tan diferentes? A study of
subglottal pressure, voice source, and formant frequency characteristics. Journal of
Voice, 22,
- 533 540.
Bloothooft, G., y Plomp, R. (1988). El timbre de las vocales cantadas. Journal of the
Acoustical Society of America, - 84, 847 860.
Cabrera, D., Davis, D. J., & Connolly, A. (2011). Directividad vocal horizontal a largo plazo
de cantantes de ópera: efectos de la proyección del canto y del entorno acústico. Journal
of Voice, 25(6),
- e291 e303.
Cleveland, T. (1977). Acoustic properties of voice timbre types and their influence on voice
classification. Journal of the Acoustical Society of America, 61, 1622- 1629.
Cleveland, T., Sundberg, J., & Stone, R. E. (2001). Long-term-average spectrum characteris-
tics of country singers during speaking and singing. Journal of Voice, 15, 54 60.
-
Collyer, S., Davis, P. J., Thorpe, C. W., & Callaghan, J. (2009). F0 influences the relationship
between sound pressure level and spectral balance in female classically trained singers.
d'Alessandro, C., & Castellengo, M. (1991). Etude, par la synthese, de la perception du
vibrato vocal dans la transition de notes. Ponencia presentada en la Conferencia
Internacional de la Voz en Besancon, Francia.
Dejonkere, P. H., Hirano, M., & Sundberg, J. (Eds.) (1995). Vibrato. San Diego, CA: Singular
Publishing Group.
Dmitriev, L., y Kiselev, A. (1979). Relación entre la estructura de formantes de diferentes
tipos de voces cantadas y la dimensión de las cavidades supraglotales. Folia Phoniatrica,
31, 238-241.
Doscher, B. M. (1994). La unidad funcional de la voz cantada (2ª ed.). London, England:
Scarecrow Press.
Echternach, M., Sundberg, J., Arndt, S., Markl, M., Schumacher, M., & Richter, B. (2010).
Tracto vocal en registros femeninos: un estudio dinámico de resonancia magnética en
tiempo real. Journal of Voice, 24,
133- 139.
Ekholm, E., Papagiannis, G. C., & Chagnon, F. P. (1998). Relating objective measurements to
expert evaluation of voice quality in western classical singing: critical perceptual
parameters. Journal of Voice, 12, 182 - 196.
Erickson, M. L. (2003). Dissimilarity and the classification of female singing voices: a pre-
liminary study. Journal of Voice, 17(2), 195 206.
-
Erickson, M. L. (2009). ¿Pueden los oyentes oír quién canta? Parte B: oyentes experimentados.
Journal of Voice, 23, 577 - 586.
Erickson, M. L., Perry, S., & Handel, S. (2001). Funciones de discriminación: ¿pueden
utilizarse para clasificar las voces cantadas? Journal of Voice,
- 15(4), 492 502.
Erickson, M. L., y Perry, S. R. (2003). ¿Pueden los oyentes oír quién está cantando? A
comparison of three-note and six-note discrimination tasks. Journal of Voice,- 17(3), 353
369.
Fahey, R. P., Diehl, R. L., & Traunmu¨ller, H. (1996). Perception of back vowels: effects of
varying F1-F0 bark distance. Journal of the Acoustical Society of America, 99, 2350
2357.-
Fant, G. (1960). Teoría acústica de la producción del habla. La Haya, Países Bajos: Mouton.
124 Johan Sundberg
Fant, G. (1973). Speech sounds and features. Cambridge, MA: MIT Press.
Fonagy, I. (1967). Ho¨rbare Mimik. Phonetica, 16, 25-35.
Fonagy, I. (1976). Mimik auf glottaler Ebene. Phonetica, 8, 209 - 219.
Fonagy, I. (1983). La vive voix. París, Francia: Payot.
Fyk, J. (1995). Entonación melódica, psicoacústica y violín. Gora, Polonia: Organon.
Garnier, M., Henrich, N., Smith, J., & Wolfe, J. (2010). Vocal tract adjustments in the high
soprano range. Journal of the Acoustical Society of America, 127, 3771 - 3780.
Gibian, G. L. (1972). Síntesis de vocales cantadas. Quarterly Progress Report,
Massachusetts Institute of Technology,
- 104, 243 247.
Gottfried, T., & Chew, S. (1986). Inteligibilidad de las vocales cantadas por un contratenor.
Journal of the Acoustical Society of America,- 79, 124 130.
Gregg, J. W., & Scherer, R. C. (2006). Vowel intelligibility in classical singing. Journal of
Voice, 20, 198 -210.
Henrich, N. (2006). Mirroring the voice from Garcia to the present day: some insights into
singing voice registers. Logopedia Foniatría Vocología, 31, 3 14. -
Henrich, N., Smith, J., & Wolfe, J. (2011). Resonancias del tracto vocal en el canto:
estrategias utilizadas por sopranos, contraltos, tenores y barítonos. Journal of the
Acoustical-Society of America, 129, 1024 1035.
Hirano, M., Hibi, S., & Hagino, S. (1995). Aspectos fisiológicos del vibrato. En P . H.
Dejonkere, M . Hirano, & J. Sundberg (Eds.), Vibrato (pp. 9 34). San Diego,-CA:
Singular Publishing Group.
Hollien, H. (1983). El enigma del formante del cantante. En D. M. Bless, & J. H. Abbs (Eds.),
Vocal fold physiology: Contemporary research and clinical issues (pp. 368 378). - San
Diego, CA: College-Hill.
Horii, Y. (1989). Análisis acústico del vibrato vocal: interpretación teórica de los datos.
Journal of Voice, 3, 36 -
43.
Johansson, C., Sundberg, J., & Wilbrand, H. (1985). Estudio radiográfico de la articulación y
las frecuencias de formantes en dos cantantes femeninas. En A. Askenfelt, S. Felicetti, E.
Jansson, &
J. Sundberg (Eds.), SMAC 83: Proceedings of the Stockholm International Music
Acoustics Conference (Vol. 1, pp. 203 218). Estocolmo,
- Suecia: Real Academia Sueca
de Música (Publicación nº 46).
Joliveau, E., Smith, J., & Wolfe, J. (2004). Vocal tract resonances in singing: the soprano
voice. Journal of the Acoustical Society of America, 116, 2434 - 2439.
Juslin, P. N., y Laukka, P. (2003). Comunicación de emociones en la expresión vocal y la
interpretación musical: ¿diferentes canales, mismo código? Psychology Bulletin, 129,
770- 814.
Kotlyar, G. M., y Morozov, V. P. (1976). Acoustical correlates of the emotional content of
vocalized speech. Soviet Physics Acoustics, 22, 208 - 211.
Ladefoged, P., y McKinney, N. P. (1963). Loudness, sound pressure, and subglottal pressure
in speech. Journal of the Acoustical Society of America, 35, 454 - 460.
Leino, T., Laukkanen, A. -M., & Leino, V. R. (2011). Formation of the actor's/speaker's
formant: a study applying spectrum analysis and computer modeling. Journal of Voice,
25, 150-158.
Lindblom, B., y Sundberg, J. (1971). Acoustical consequences of lip, tongue, jaw, and lar-
ynx movements. Journal of the Acoustical Society of America, 50, 1166 - 1179.
Lindestad, P. A˚ ., & So¨dersten, M. (1998). Laryngeal and pharyngeal behavior in counter-
canto de tenor y barítono: un estudio videofibroscópico. Journal of Voice, 2, 132 - 139.
Marshal, A. H., y Meyer, J. (1985). La directividad y las impresiones auditivas de los
cantantes.
Acustica, 58, 130-140.
McAdams, S., y Rodet, X. (1988). The role of FM-induced AM in dynamic spectral profile
analysis. En H. Duifhuis, J. Horst, & H. Wit (Eds.), Basic issues in hearing (pp. 359
369). Londres,
- Inglaterra: Academic Press.
Miller, D. G. (2008). Resonancia en el canto: La construcción de la voz a través de la
retroalimentación acústica.
Princeton, NJ: Inside View Press.
Morozov, V. P. (1965). La inteligibilidad en el canto en función del tono fundamental de la
voz.
Física Acústica Soviética, 10, 279-283.
Nordenberg, M., y Sundberg, J. (2004). Efecto del LTAS en la variación del volumen vocal.
Logopedia Foniatría Vocología, 29, 183 191. -
Palmer, C. (1989). Mapping musical thought to musical performance. Journal of
Experimental Psychology, 15, 331-346.
Plomp, R. (1977, julio). Continuity effects in the perception of sounds with interfering noise
bursts. Ponencia presentada en el Symposium sur la Psychoacoustique Musicale,
IRCAM, París.
Prame, E. (1994). Mediciones de la velocidad de vibrato de diez cantantes. Journal of the
Acoustical Society of America, - 94, 1979 1984.
Prame, E. (1997). Extensión del vibrato y entonación en cantantes líricos occidentales
profesionales.
Rapoport, E. (1996). Código de expresión en la ópera y el canto de lied. Journal of New
Music Research, 25, - 109 149.
Rasch, R. A. (1978). La percepción de notas simultáneas como en la música polifónica.
Acustica, 40, 21-33.
Roers, F., Mu¨rbe, D., & Sundberg, J. (2009). Clasificación de la voz y el tracto vocal de los
cantantes: un estudio de imágenes de rayos X y morfología. Journal of the Acoustical
Society of-America, 125, 503 512.
Rubin, H. J., Le Cover, M., & Vennard, W. (1967). Vocal intensity, subglottic pressure and
airflow relationship in singers. Folia Phoniatrica, 19, 393 -413.
Rzhevkin, S. N. (1956). Ciertos resultados del análisis de la voz de un cantante. Física
Soviética Acústica, - 2, 215 220.
Scotto di Carlo, N., y Germain, A. (1985). A perceptual study of the influence of pitch on the
intelligibility of sung vowels. Phonetica, 42, 188 197.-
Seashore, C. E. (1967). Psicología de la música. New York, NY: Dover. (Obra original pub-
lished 1938).
Seidner, W., Schutte, H., Wendler, J., & Rauhut, A. (1985). Dependence of the high singing
formant on pitch and vowel in different voice types. En A. Askenfelt, S. Felicetti, E.
Jansson, & J. Sundberg (Eds.), SMAC 83: Proceedings of the Stockholm International
Music Acoustics Conference (Vol. 1, pp. 261 - 268). Estocolmo, Suecia: The Royal
Swedish Academy of Music (Publicación nº 46).
Shipp, T., Doherty, T., & Haglund, S. (1990). Physiologic factors in vocal vibrato produc-
tion. Journal of Voice, 4, 300 304.
-
Shipp, T., & Izdebski, C. (1975). Vocal frequency and vertical larynx positioning by singers
and nonsingers. Journal of the Acoustical Society of America, 58, 1104 - 1106.
Shonle, J. I., y Horan, K. E. (1980). The pitch of vibrato tones. Journal of the Acoustical
Siegwarth, H., & Scherer, K. (1995). Concomitantes acústicos de la expresión emocional en
el canto operístico: el caso de Lucia en Ardi gli incensi. Revista de la voz, 9,
249- 260.
Sirker, U. (1973). Objektive Frequenzmessung und subjektive Tonho¨henempfindung bei
Musikinstrumentkla¨ngen. Revista Sueca de Musicología, 55, 47-58.
126 Johan Sundberg
Sjo¨lander, P., & Sundberg, J. (2004). Spectrum effects of subglottal pressure variation in pro-
fessional baritone singers. Journal of the Acoustical Society of America, 115, 1270
1273.-
Slawson, A. W. (1968). Vowel quality and musical timbre as functions of spectrum envelope
and F0. Journal of the Acoustical Society of America, 43, 87 -101.
Smith, L. A., y Scott, B. L. (1980). Aumento de la inteligibilidad de las vocales cantadas.
Journal of the Acoustical Society of America,- 67, 1795 1797.
Stevens, S. S., y Davis, H. (1938). Hearing, its psychology and physiology. New York, NY:
Wiley.
Stumpf, C. (1926). Die Sprachlaute. Berlín, Alemania: Springer-Verlag.
Sundberg, J. (1970). Estructura formántica y articulación de vocales habladas y cantadas.
Folia Phoniatrica, 22,
- 28 48.
Sundberg, J. (1972). Producción y función del 'formante de canto'. En H. Glahn,
S. Sorenson, & P. Ryom (Eds.), Report of the 11th Congress of the International
Musicological Society, II (pp. 679 -688). Copenhague, Dinamarca: Editor Wilhelm
Hansen.
Sundberg, J. (1974). Interpretación articulatoria del 'formante de canto'. Journal of the
Sundberg, J. (1975). Técnica de formantes en una cantante profesional. Acustica, 32,
89-96.
Sundberg, J. (1977a). Canto y timbre. En Music, room, acoustics (pp. 57 81). -
Estocolmo, Suecia: Real Academia Sueca de Música (Publicación nº 17).
Sundberg, J. (1977b). Vibrato e identificación vocálica. Archivos de Acústica, 2, 257 - 266.
Sundberg, J. (1978a). Effects of the vibrato and the singing formant on pitch. Musicologica
Slovaca, 6, 51-69.
Sundberg, J. (1978b). Síntesis del canto. Revista sueca de musicología, 60(1),
107- 112.
Sundberg, J. (1989). Aspects of structure. En S. Nielse'n, & O. Olsson (Eds.), Structure and
perception of electroacoustic sound and music: Proceedings of the Marcus Wallenberg
Symposium in Lund, Sweden, August 1988 (pp.-33 42). Amsterdam, Países Bajos:
Excerpta Medica.
Sundberg, J. (1990). ¿Qué tienen de especial los cantantes? Journal of Voice, - 4, 107 119.
Sundberg, J. (1995). Acoustic and physioacoustics aspects of vocal vibrato. En P. H.
Dejonkere,
M. Hirano, & J. Sundberg (Eds.), Vibrato (pp. 35-62). San Diego, CA: Singular
Publishing Group.
Sundberg, J. (2001). Nivel y frecuencia central del formante del cantante. Journal of Voice,
15(2), 176-186.
Sundberg, J. (2009). Configuración articulatoria y afinación en una cantante soprano de
formación clásica . Journal of Voice,
- 23, 546 551.
Sundberg, J., Andersson, M., & Hultqvist, C. (1999). Effects of subglottal pressure variation
on professional baritone singers' voice sources. Journal of the Acoustical Society of
America, 105(3), 1965-1971.
Sundberg, J., y Askenfelt, A. (1983). Altura de la laringe y fuente de la voz: ¿existe una
relación? En J. Abbs, & D. Bless (Eds.), Fisiología de las cuerdas -vocales (pp. 307 316).
Houston, TX: College Hill.
Sundberg, J., Friberg, A., & Fryde'n, L. (1991). Secretos comunes de músicos y oyentes: An
analysis-by-synthesis study of musical performance. En P. Howell, R. West, &
I. Cross (Eds.), Representing musical structure (pp. 161 -197). Londres, Inglaterra:
Academic Press.
Sundberg, J., y Gauffin, J. (1982). Amplitude of the voice source fundamental and the
intelligibility of super pitch vowels. In R. Carlson, & B. Granstro¨m (Eds.), The repre-
sentation of speech in the peripheral auditory system, proceedings of a symposium
(pp. 223- 228). Amsterdam, Países Bajos: Elsevier Biomedical Press.
Sundberg, J., & Gramming, P. (1988). Spectrum factors relevant to phonetogram measure-
ment. Journal of the Acoustical Society of America, 83, 2352 - 2360.
Sundberg, J., Iwarsson, J., & Hagega˚rd, H. (1995). La expresión de las emociones de un
cantante en la interpretación cantada. En O. Fujimura, & M. Hirano (Eds.), Vocal fold
physiology: Voice quality -and control (pp. 217 232). San Diego, CA: Singular
Publishing Group.
Sundberg, J., La˜, F. M. B., & Himonides, E. (2011, junio). Es expresiva la entonación?
Póster presentado en el 40th Annual Symposium on Care of the Professional Voice,
Philadelphia, PA.
Sundberg, J., Prame, E., & Iwarsson, J. (1996). Replicabilidad y precisión de los patrones de
tono en cantantes profesionales. En P. J. Davis, & N. H. Fletcher (Eds.), Vocal fold
physiology, controlling complexity and chaos - (pp. 291 306). San Diego, CA: Singular
Publishing Group.
Sundberg, J., y Romedahl, C. (2009). Text intelligibility and the singer's formant-a rela-
tionship? Journal of Voice, 23, 539 - 545.
Sundberg, J., y Skoog, J. (1997). Dependence of jaw opening on pitch and vowel in singers.
Revista de la Voz, 11, 301-306.
Sundberg, J., y Thale'n, M. (2010). ¿Qué es el twang? Journal of Voice, 24, 654-660.
Titze, I. R. (1992). Interpretación acústica del perfil de alcance de la voz. Journal of Speech
and Hearing Research, 35, - 21 34.
van Besouw, R. M., Brereton, J., & Howard, D. M. (2008). Rango de afinación para tonos con
y sin vibrato. Music Perception, 26, 145 155. -
Vennard, W. (1967). Singing, the mechanism and the technic (2ª ed.). Nueva York, NY:
Fischer.
Vennard, W., Hirano, M., Ohala, J., & Fritzell, B. (1970-1971). A series of four electro-
myographic studies. The National Association of Teachers of Singing Bulletin, octubre
- diciembre 1970, 30 37; febrero
1970, 16 21; - - 26 32; mayo junio
marzo 1971, - -
1971, 22- 30
Vurma, A., y Ross, J. (2002). ¿Dónde está la voz de un cantante si se coloca hacia delante?
Journal of Voice, - 16(3), 383 391.
Weiss, R., Brown, W. S., Jr. y Morris, J. (2001). Singer's formant in sopranos: fact or fic-
tion? Journal of Voice, 15(4), 457 - 468.
Winckel, F. (1953). Physikalischen Kriterien fu¨r objektive Stimmbeurteilung. Folia
Phoniatrica (Separatum), 5, 232-252.
Winckel, F. (1967). Música, sonido y sensación: A modern exposition. New York, NY: Dover.
4 Intervalos y escalas
William Forde Thompson
Departamento de Psicología, Universidad Macquarie, Sydney, Australia
I. Introducción
Los sonidos que implican cambios de tono proceden de diversas fuentes y
proporcionan información útil sobre el entorno. Para los seres humanos, las fuentes
más destacadas de cambios de tono proceden del habla y la música. El habla incluye
patrones de tono ascendente y descendente que caracterizan la prosodia vocal. Estos
patrones señalan el estado emocional del hablante, proporcionan una fuente de
acento lingüístico e indican si el hablante está haciendo una pregunta o una
afirmación. En la música también se producen cambios continuos de tono, pero es
más frecuente que se produzcan cambios discretos de un nivel de tono a otro,
denominados intervalos. Las secuencias de intervalos caracterizan las melodías de la
música occidental y no occidental y pueden tener un importante significado
estructural, emocional y estético (Crowder, 1984; Narmour, 1983; Thompson,
2009).
Tanto en el habla como en la música, los cambios relativos en el tono son muy
informativos. De hecho, es posible que los cambios de tono en estos dos dominios se
procesen mediante mecanismos superpuestos (Juslin y Laukka, 2003; Patel, 2008;
Ross, Choi y Purves, 2007; Thompson, Schellenberg y Husain, 2004). La música
tiene la característica añadida de que enfatiza una colección de categorías de tono
discretas, reduciendo el continuo de frecuencias audibles a un número manejable de
elementos perceptivos y fomentando los cambios bruscos de tono. Las colecciones
de categorías de tonos discretos, o escalas, proporcionan un marco psico-lógico
dentro del cual la música puede ser percibida, organizada, comunicada y recordada.
Este capítulo examina la sensibilidad humana a las relaciones tonales y las
escalas musicales que nos ayudan a organizar estas relaciones. También se analizan
los sistemas de afinación, es decir, los medios por los que se crean y mantienen las
escalas y las relaciones tonales dentro de una determinada tradición musical. Entre
las cuestiones que se abordan en este capítulo se encuentran las siguientes ¿Cómo
procesa el sistema auditivo los intervalos tonales? ¿Tienen ciertos intervalos un
estatus perceptivo especial? ¿Cuál es la relación entre los intervalos formados por
tonos que suenan secuencialmente y los formados por tonos que suenan
simultáneamente? ¿Por qué la mayor parte de la música se organiza en torno a
escalas? ¿Existen similitudes entre las escalas utilizadas en los distintos sistemas
musicales de las distintas culturas? ¿Existe un sistema de afinación óptimo?

108 William Forde Thompson
II. Intervalos de tono

Las teorías sobre los intervalos de tono en la música se remontan al filósofo griego
jonio Pitágoras de Samos (570-495 - a.C.). Sus ideas están arraigadas en muchos
debates populares sobre música y han inspirado a algunos compositores a adoptar un
enfoque puramente matemático de la composición (Navia, 1990). Por supuesto, las
ideas de Pitágoras reflejan una explicación anticuada de los intervalos musicales que
carecía de los beneficios de los avances modernos en el estudio de la acústica y el
sistema auditivo (Partch, 1974). A Pitágoras se le atribuye el descubrimiento de que
el tono de una cuerda vibrante está directamente relacionado con su longitud
(suponiendo una tensión igual) y la inspiración de la idea de que los intervalos
musicales corresponden a longitudes de cuerda relacionadas entre sí por relaciones
enteras simples, como 2:1 (octava), 3:2 (quinta perfecta), 4:3 (cuarta perfecta) y 5:4
(tercera mayor).
Cuando la tensión se mantiene constante, la longitud de una cuerda está
inversamente relacionada con la frecuencia con la que vibra al pulsarla. Cuanto
mayor es la longitud de la cuerda, más lentamente se balancea hacia adelante y hacia
atrás al pulsarla, y menor es la frecuencia de las vibraciones sonoras que se
propagan al sistema auditivo. Además, como el tono está relacionado con la
frecuencia de vibración del sonido en una escala logarítmica, las relaciones de
frecuencias describen los mismos intervalos musicales independientemente de la
longitud absoluta de las cuerdas.
Galileo Galilei (1564-1642) y (de forma independiente) Marin Mersenne-(1588
1648) demostraron que la frecuencia del movimiento vibratorio, y no la longitud de
las cuerdas en sí, está legalmente asociada con el tono. Galileo Galilei propuso que
diferentes combinaciones de tonos dan lugar a movimientos regulares o irregulares
del tímpano, y conjeturó que la disonancia se produce cuando el tímpano se mueve
de forma irregular. Mersenne esbozó leyes para explicar cómo se pueden generar
tonos cada vez más altos aumentando la tensión de la cuerda y, por tanto, la
frecuencia a la que vibra (como en la afinación de una guitarra).
Estas y otras ideas de Pitágoras, Galileo y Mersenne sentaron las bases de los
modelos psicoacústicos contemporáneos de la música. Ahora sabemos que las
propiedades acústicas de los tonos están ligadas a complejos mecanismos del
sistema auditivo que configuran conjuntamente nuestra percepción y apreciación de
la forma melódica, la consonancia, la disonancia y la armonía (Helmholtz,
1877/1954). Pitágoras estaba en lo cierto al creer que ciertos intervalos tienen un
estatus especial, pero esto no es cierto porque los números constituyan la verdadera
naturaleza de todas las cosas. El estatus especial de ciertos intervalos surge
indirectamente, reflejando una compleja adaptación del sistema auditivo al entorno
acústico.
A. Intervalos simultáneos
Las combinaciones de tonos simultáneos son la base de la armonía musical. ¿Por
qué algunas combinaciones de tonos suenan mejor que otras? La preferencia por la
consonancia frente a la disonancia se observa en bebés con escasa exposición
4. Intervalos y escalas 109
postnatal a música culturalmente específica (Trainor, Tsang y Cheung, 2002;

Hannon y Trainor, 2007). Incluso los bebés
comparten esta inclinación por la consonancia frente a la disonancia (Chiandetti y

Vallortigara, 2011), aunque algunos animales no humanos están menos atentos a la
distinción (McDermott y Hauser, 2005). En definitiva, parece que los factores
sensoriales limitan suavemente las preferencias por la consonancia, que pueden
modificarse mediante el aprendizaje y la inculturación. La consonancia y la
disonancia desempeñan un papel crucial en la música de todas las culturas: mientras
que la disonancia suele asociarse a la tensión musical, la consonancia suele asociarse
a la relajación y la estabilidad (Butler y Daston, 1968; Vassilakis, 2005).
Los griegos ya advirtieron el atractivo estético de los intervalos consonantes.
Pitágoras intuyó que las combinaciones de tonos suenan consonantes si las
longitudes de las cuerdas que producen los tonos están relacionadas entre sí por
pequeñas proporciones enteras. Intrigado por esta correspondencia, defendió la idea
generalizada de que los números podían explicar el universo (Tenney, 1988).
Teorías más contemporáneas sostienen que la consonancia percibida de los
intervalos viene determinada por una serie de factores, como los sensoriales y
acústicos, la formación musical, las preferencias personales y la enculturación
(Cazden, 1945; Parncutt, 1989, 2006). Los resultados perceptivos de los factores
sensoriales y acústicos se denominan consonancia y disonancia sensorial o
psicoacústica; los efectos de la formación musical, las preferencias personales y la
inculturación se denominan consonancia y disonancia musical o tonal (Terhardt,
1984).
Desde los descubrimientos de Galileo y Mersenne, el avance más influyente en el
estudio de la acústica musical fue el de Helmholtz (1877/1954), que observó que los
intervalos consonantes (es decir, la consonancia sensorial) se caracterizan por la
ausencia de batido. El batido es un fenómeno acústico en el que tonos concurrentes
que son similares en frecuencia pero no idénticos entran y salen de fase, de forma
que la amplitud de la forma de onda sumada aumenta y disminuye en rápida
sucesión. Esta oscilación entre interferencia acústica constructiva y destructiva se
denomina batido y se produce a una velocidad determinada por la diferencia entre
las dos frecuencias. Por ejemplo, la combinación de las frecuencias 220 y 245 dará
lugar a 25 pulsaciones por segundo.
La presencia de latidos no conduce por sí misma a la disonancia. Los ritmos muy
lentos no suenan ni agradables ni desagradables. Helmholtz sostenía que la
disonancia es equivalente a la aspereza acústica, que se produce cuando los latidos
son tan rápidos que empiezan a mezclarse. La aspereza y la disonancia surgen
cuando la frecuencia de los latidos- aumenta a unos 20-30 latidos por segundo, lo que
ocurre cuando una frecuencia de unos 400 Hz se combina con otra frecuencia que
difiere en aproximadamente un semitono (Plomp y Levelt, 1965). A medida que
aumenta la separación entre dos frecuencias, aumenta - la frecuencia de los latidos,
pero más allá de los 20-30 latidos por segundo, los latidos se vuelven menos
prominentes y las dos frecuencias se perciben como tonos distintos. Los batimentos
desaparecen cuando el sistema auditivo deja de registrar interferencias constructivas
y destructivas.
Esta incapacidad del sistema auditivo para registrar modulaciones rápidas de la
amplitud de las ondas sonoras puede explicarse teniendo en cuenta la mecánica de la
membrana basilar y su respuesta al sonido. Los tonos puros (sonidos que constan de
una sola frecuencia) excitan regiones específicas de la membrana basilar: las
frecuencias altas provocan

vibración máxima de la membrana cerca de la ventana oval y las frecuencias bajas

provocan la vibración máxima de la membrana cerca del ápice (Von Be'ke'sy, 1949).
Dos tonos puros cercanos en frecuencia generan respuestas superpuestas en la
membrana basilar. Cuando este solapamiento tiene consecuencias perceptivas, se
dice que las frecuencias están dentro del mismo ancho de banda crítico
(Greenwood, 1961a, 1961b). Un solapamiento perceptivamente significativo en la
respuesta de la membrana basilar a frecuencias diferentes produce sensaciones de
latido, aspereza y disonancia sensorial. La aspereza alcanza un máximo cuando las
frecuencias de entrada están separadas entre un 30% y un 40% del ancho de banda
crítico (Greenwood, 1991).
La anchura de la banda crítica varía a lo largo de la gama de tonos audibles, tanto
si se mide en hercios como en semitonos. Para tonos por debajo de 400 Hz, la
anchura de la banda crítica varía de forma intermedia entre una escala de frecuencia
lineal (hercios) y una escala de frecuencia logarítmica (es decir, semitonos). Para
tonos superiores a 400 Hz, la anchura varía de una manera cercana a la logarítmica.
Como se ilustra en la figura 1, la disonancia sensorial debería ser evidente en una
gama de tonos más amplia (medida en semitonos) en los tonos graves que en los
agudos. Por ejemplo, un intervalo simultáneo de tercera mayor debería crear menos
disonancia sensorial cuando se toca en las notas agudas de un piano que cuando se
toca en las notas graves de un piano. Plomp y Levelt (1965) también observaron que
para las combinaciones de tonos puros, la disonancia sensorial sólo se produce para
pequeñas separaciones de frecuencia, como un semitono, y no es evidente para
intervalos mayores.
Sin embargo, los tonos puros no se dan en la naturaleza. Cuando se puntea una
cuerda, ésta vibra simultáneamente a múltiples frecuencias, dando lugar a una forma
de onda compleja. Esta forma de onda compleja se sigue percibiendo como un tono
unificado, y cada componente de frecuencia se denomina parcial (es decir, parte del
tono). La frecuencia de repetición más lenta, o frecuencia fundamental, se
complementa con una serie de frecuencias de vibración más altas que son
aproximadamente múltiplos de la frecuencia fundamental. Es decir, si la frecuencia
fundamental de una cuerda vibrante tiene el valor de f ciclos por segundo
100 Hz
Frecuencia
1 200 Hz del tono
inferior
400 Hz
Disonanci
a sensorial
600 Hz
1000 Hz
Pasos de escala Cuart Qui Octava

12-tet: o nta
Intervalo de frecuencia
Figura 1 Disonancia sensorial producida por ondas sinusoidales simultáneas. En la

región tonal superior, la disonancia se asocia principalmente a intervalos pequeños. En
la región tonal inferior, la disonancia se asocia tanto a intervalos pequeños como

grandes.
De Sethares (2005, p. 47).
(o hercios), entonces también tenderá a haber vibraciones de la cuerda en una o más

de las frecuencias 2f, 3f, 4f, 5f, y así sucesivamente, creando una forma de onda
compleja.
Estas frecuencias más altas no se oyen como tonos separados, sino que se
agrupan con la frecuencia fundamental y se oyen como una única entidad coherente.
Es decir, el sistema auditivo agrupa automáticamente los componentes de frecuencia
que son múltiplos enteros de una frecuencia fundamental común (Micheyl y
Oxenham, 2010). El tono de cualquier tono complejo corresponde a la tasa de
repetición global de la forma de onda compleja. La frecuencia de repetición suele
ser equivalente a la frecuencia fundamental y no se ve afectada por la presencia de
armónicos. También es la misma tanto si está presente la frecuencia fundamental
como si no, siempre que haya varios sobretonos. De hecho, muchos dispositivos de
reproducción portátiles son incapaces de reproducir frecuencias bajas y, sin
embargo, los oyentes de estos dispositivos rara vez se dan cuenta de que faltan
frecuencias fundamentales (McDermott y Oxenham, 2008).
Aunque los armónicos no suelen oírse como tonos individuales, contribuyen a dar
al tono su timbre o calidad de sonido característicos y son cruciales para comprender
la naturaleza de los intervalos musicales. La figura 2 ilustra los patrones de
armónicos evidentes en el espectro sonoro de una nota tocada con una flauta de pan
con una frecuencia fundamental de f 5 441 Hz y armónicos prominentes en las
frecuencias de 3f, 5f, 7f, 9f y 11f. Otros instrumentos se asocian a un patrón diferente
de armónicos. Las frecuencias más altas que son múltiplos exactos de la frecuencia
fundamental, denominadas sobretonos armónicos o parciales armónicos, están
implicadas en los intervalos más familiares de la música. En concreto, las distancias
entre los parciales armónicos son aproximadamente equivalentes a los intervalos
musicales más conocidos: la octava ( f a 2f ), la quinta (2f a 3f ), la cuarta (3f a 4f ),
la tercera mayor (4f a 5f ), la tercera menor (5f a 6f ), la segunda mayor (8f a 9f ) y la
sexta mayor (3f a 5f ).
Resulta tentador suponer que las relaciones de tono que se producen entre los
parciales de los tonos individuales se interiorizan de forma inconsciente y se
expresan artísticamente en forma de música y otras artes creativas. Por ejemplo,
Ross et al. (2007) propusieron que la preferencia humana por los intervalos más
comunes que se encuentran en la música surge de la experiencia con la forma en que
los formantes del habla modulan los armónicos laríngeos para crear
441
1322
2200
Magnitud
3095 4000
4840
0 1000 2000 3000 4000 5000 6000

Frecuencia en Hz
Figura 2 El espectro de una flauta de pan con una frecuencia fundamental a f 5 440 Hz y
parciales prominentes aproximadamente a 3f, 5f, 7f, 9f y 11f.

diferentes fonemas. Su enfoque consistió en analizar los espectros de las vocales del
habla neutra pronunciadas por hablantes de inglés americano y mandarín, y
comparar los armónicos con mayor intensidad dentro del primer y segundo
formantes. Este procedimiento dio como resultado una distribución de todas las
relaciones formante segundo/formante primero derivadas de los espectros de 8
vocales pronunciadas por hablantes de inglés americano y 6 vocales pronunciadas
por hablantes de mandarín. Por término medio, el 68% de las relaciones de
frecuencia extraídas coincidían con intervalos encontrados en la escala cromática.
En cambio, sólo el 36% de los pares de armónicos seleccionados al azar en la misma
gama de frecuencias coincidían con intervalos de la escala cromática. Esta
comparación ilustra que los intervalos musicales no están simplemente
correlacionados con los intervalos de tono de cualquier forma de onda armónica
(periódica), sino que reflejan un sesgo específico del habla. Este sesgo específico del
habla sugiere que "la preferencia humana por los intervalos específicos de la escala
cromática, subconjuntos de los cuales se utilizan en todo el mundo para crear
música, surge de la experiencia rutinaria de estos intervalos durante la comunicación
social" (Ross et al., 2007, p. 9854, véase también, Han, Sundararajan, Bowling,
Lake, & Purves, 2011).
Sin embargo, la mayoría de los investigadores creen que el uso generalizado de
ciertos intervalos en la música se ve favorecido por funciones básicas del sistema
auditivo. En primer lugar, Helmholtz (1877/1954) observó que el concepto de
rugosidad puede extenderse a combinaciones de tonos complejos, siendo la cantidad
total de disonancia igual a alguna combinación de la rugosidad generada por todos
los parciales que interactúan. Cuando se combinan tonos con espectros armónicos,
los intervalos consonantes como la octava y la quinta tienen muchos parciales en
común, y los que son únicos tienden a no ocurrir dentro de una banda crítica y, por
lo tanto, no dan lugar a rugosidad. Los tonos complejos que forman intervalos
disonantes, como la quinta disminuida (seis semitonos), tienen pocos parciales en
común, y algunos de sus parciales únicos caen dentro de la misma banda crítica,
dando lugar a batido y aspereza. Lo más significativo es que la tercera y cuarta
parciales del tono más grave de un intervalo tritono están a sólo un semitono de
distancia de la segunda y tercera parciales del tono más agudo de ese intervalo.
Plomp y Levelt (1965) calcularon los niveles previstos de consonancia y
disonancia para combinaciones de tonos formadas por seis parciales armónicos y
con el primer tono fijado en 250 Hz (véase también Hutchinson y Knopoff, 1978;
Kameoka y Kuriyagawa, 1969a, 1969b; Terhardt, 1974). Los resultados de estos
cálculos ilustran picos de consonancia en intervalos utilizados habitualmente en la
música occidental: tercera menor (5:6), tercera mayor (4:5), cuarta perfecta (3:4),
quinta perfecta (2:3), sexta mayor (3:5) y octava (1:2). Kameoka y Kuriyagawa
(1969a, 1969b) desarrollaron un algoritmo para estimar la cantidad total de
disonancia en díadas de tonos puros y complejos. Su modelo asumía que la
disonancia es aditiva y dependiente de la sonoridad, y se basaban en la ley de
potencia de significación psicológica para combinar los niveles de disonancia de
diferentes díadas de armónicos, obteniendo una medida final denominada
disonancia absoluta. Estos modelos matemáticos de la disonancia concuerdan
ampliamente con los juicios de disonancia, pero las predicciones se rompen cuando
se incluyen más o menos armónicos en el modelo (Mashinter, 2006; Vos, 1986).
Es posible que la rugosidad no sea el único factor determinante de la

consonancia. Carl Stumpf (1890, 1898) sugirió que la consonancia surge de la
fusión tonal -la tendencia a la
que las combinaciones de tonos se fusionen. Otro punto de vista relacionado es que
la consonancia se ve reforzada por la armonicidad, es decir, hasta qué punto los
componentes de frecuencia combinados en un intervalo coinciden con una serie
armónica única. Se cree que la armonicidad desempeña un papel importante en la
percepción del tono. Terhardt (1974) propuso que el sistema auditivo hace coincidir
cualquier conjunto de parciales entrantes, ya procedan de un solo tono o de
combinaciones de tonos, con la plantilla armónica más cercana. Si los parciales
coinciden con la serie armónica, el tono es inequívoco. A medida que la colección
de parciales se desvía de la armonicidad, el tono se vuelve más ambiguo.
Según Terhardt, las plantillas armónicas se desarrollan a través de la exposición
repetida a los espectros armónicos de los sonidos del habla, que predominan en el
entorno acústico a lo largo del desarrollo humano. Una posibilidad más general es
que la exposición repetida a cualquier estímulo acústico conduzca al desarrollo de
una plantilla para ese estímulo. Las plantillas de acordes, por ejemplo, podrían
desarrollarse incluso para combinaciones de tonos que no se alinean con una serie
armónica, siempre que esos acordes se encuentren repetidamente en el entorno
musical de una persona. Estas plantillas permitirían a los músicos entrenados
identificar acordes muy familiares y también podrían subyacer a la percepción de la
consonancia y la disonancia (McLachlan; 2011; véase también McLachlan y
Wilson, 2010).
Para el intervalo de octava, los parciales del tono más agudo coinciden con los
parciales pares del tono más grave. El resultado de esta combinación es un nuevo
tono complejo con una frecuencia fundamental igual a la del tono inferior original,
pero con un espectro de amplitud diferente y, por tanto, un timbre diferente. Esta
coincidencia de parciales explica por qué los tonos separados por una octava se
perciben como muy similares, un fenómeno conocido como equivalencia de octava
(Idson y Massaro, 1978; Kallman, 1982; Shepard, 1964).
El intervalo de octava es muy consonante y genera una fuerte sensación de tono
equivalente al tono inferior del intervalo. Los intervalos menos consonantes tienden
a generar sensaciones de tono más ambiguas. Thompson y Parncutt (1997)
modelaron las sensaciones de tono derivadas del intervalo de quinta perfecta, el
intervalo de tercera mayor y la tríada mayor (véase también Parncutt, 1989). Su
modelo asume que los intervalos simultáneos generan múltiples sensaciones de tono
que se extienden más allá de las frecuencias fundamentales de los tonos, reflejando
sobretonos, sensaciones de tonos subarmónicos y los efectos del enmascaramiento
auditivo. Estas sensaciones de tono varían en saliencia dependiendo del intervalo,
con la sensación de tono más saliente percibida como el tono (virtual) del complejo.
Las combinaciones de tonos que generan sensaciones de tono muy salientes e
inequívocas deberían conducir a una mayor fusión y, según Stumpf, a una mayor
consonancia. Las predicciones del modelo se compararon con las puntuaciones de
bondad de ajuste de los tonos de sondeo presentados inmediatamente después de los
intervalos. Los resultados indicaron una estrecha correspondencia entre las
predicciones y las puntuaciones, lo que confirma los supuestos básicos del modelo.
La mayoría de los investigadores creen que la armonicidad desempeña un papel
importante en la percepción del tono, pero el papel de la armonicidad en la
consonancia está menos claro. Uno de los problemas es que la armonicidad está
asociada a la ausencia de batido, por lo que cualquier asociación entre armonicidad y
consonancia puede explicarse por la cantidad de batido entre parciales. Para

desentrañar estos factores, McDermott, Lehr y Oxenham (2010)
examinaron las diferencias individuales en las puntuaciones de preferencia por el

ritmo y la armonicidad para determinar qué factor se correlaciona más con la
preferencia por la consonancia. Sorprendentemente, su medida de preferencia por el
ritmo no se correlacionó bien con las puntuaciones de preferencia por acordes
musicales consonantes y disonantes. Es decir, a los que les resultaba desagradable
batir no les disgustaban paralelamente los intervalos disonantes. En cambio, la
preferencia por la armonicidad se correlacionó bien con la preferencia por la
consonancia (véase también Plack, 2010).
Las pruebas neurocientíficas también son compatibles con la idea de que la
armonicidad influye en la consonancia, al menos en intervalos aislados. Bidelman y
Krishnan (2009) utilizaron potenciales relacionados con eventos para indexar la
consonancia percibida de nueve díadas musicales. Cada nota de la díada era un tono
complejo formado por seis armónicos (igual amplitud), y los intervalos de estímulo
variaban en tamaño de 0 a 12 semitonos (0, 1, 4, 5, 6, 7, 9, 11, 12). Las puntuaciones
de consonancia de los nueve intervalos también se obtuvieron calculando el número
de veces que un intervalo determinado fue seleccionado como "sonido más
agradable" de las 36 comparaciones por pares.
Los nueve estímulos se presentaron de forma dicotómica para evitar los efectos
del batido y otros efectos de procesamiento periférico, y para aislar las respuestas de
los mecanismos de tono centrales (tronco cerebral). A continuación, se midieron las
respuestas de seguimiento de frecuencia (FFR) del tronco encefálico en respuesta a
los nueve intervalos. La FFR refleja la actividad sincronizada en fase de una
población de elementos neuronales del mesencéfalo. Se caracteriza por una forma de
onda periódica que sigue los ciclos individuales del estímulo. Los FFR se analizaron
en función de su periodicidad neural: se calculó un valor de saliencia de tono neural
comparando la periodicidad neural de cada intervalo con una plantilla de periodo.
Este valor estima la fuerza relativa de los posibles tonos presentes en el FFR. Por
ejemplo, los espectros perfectamente armónicos dan lugar a valores de saliencia de
tono elevados. Los valores de saliencia de tono se alinearon estrechamente con las
puntuaciones de consonancia de los intervalos (r 5 0,81), lo que sugiere que la
consonancia está fuertemente correlacionada con la periodicidad neural. Los
intervalos disonantes parecen caracterizarse por una periodicidad neural menos
coherente.
En un estudio posterior, Bidelman y Krishnan (2011) utilizaron potenciales
relacionados con eventos para modelar la consonancia percibida de cuatro tríadas
musicales prototípicas: tríada mayor, tríada menor, tríada disminuida y tríada
aumentada. Una vez más, los valores de saliencia del tono predijeron con exactitud
las valoraciones de consonancia y disonancia de los estímulos. Los investigadores
argumentaron que los períodos de tono armónicamente relacionados producen un
alto grado de coherencia en su representación neural, lo que conduce a altos niveles
de saliencia de tono. Por el contrario, las tríadas disonantes evocan una periodicidad
neural menos coherente y una menor prominencia del tono. Sin embargo, hay que
tener en cuenta que las tríadas con una alta prominencia tonal también son muy
comunes y, por lo tanto, familiares. Una mayor familiaridad puede dar lugar a
valoraciones de consonancia más altas y a un procesamiento más eficiente del
contenido periódico (McLachlan, 2011).
Los parciales que están relacionados armónicamente tienden a fusionarse, pero la
fusión también se ve influida por otros factores, como las características

coincidentes de inicio y desplazamiento. Cuando dos tonos diferentes se combinan
para formar un intervalo, la fusión también aumenta cuando los tonos tienen
parciales en común. En el caso de los tonos armónicos complejos, los efectos de la
rugosidad están correlacionados tanto con la periodicidad como con la fusión, por lo
que la relativa
Las contribuciones de estos factores a la consonancia están entrelazadas. Una forma

de evaluar la importancia de la fusión independientemente de la periodicidad es
investigar la consonancia de los intervalos que se forman combinando tonos
inarmónicos. Al manipular los componentes espectrales de los tonos artificiales, se
pueden crear intervalos que suenen disonantes entre tonos armónicos pero
consonantes entre t o n o s inarmónicos.
Por ejemplo, conspidffieffir un tono complejo consistpinffigffi de dos parciales inarmónicos en
frecuencias f y 2f (donde la distancia de 2f corresponde a un tritono, o 6
semitonos en la escala cromática igualmente temperada). El espectro en sí es
inharmónico: para la mayoría de los oyentes no da lugar a una sensación clara de
tono y suena algo parecido a un carillón. No obstante, como se muestra en la figura
3, si este repique tritonal se combina con otro repique tritonal a distancias de tono
progresivamente divergentes, la curva disonante teórica mostrará mínimos en 0
semitonos, 6 semitonos (el intervalo tritonal) y 12 semitonos (la octava). Para estos
tamaños de intervalo, la rugosidad o batido entre parciales es mínima. Así, la
ausencia de rugosidad en sí misma puede conducir a la percepción de consonancia,
incluso para espectros que son inarmónicos y dan lugar a sensaciones de tono
ambiguas.
Entre intervalos aislados, la consonancia sensorial puede verse reforzada por la
fusión tonal, la armonicidad y la ausencia de aspereza y batido. Otros factores
pueden contribuir a aspectos sutiles de la percepción de los intervalos, como la
distinción emocional entre terceras mayores y menores (Cook, 2007). Sin embargo,
la música rara vez implica la presentación de intervalos aislados, y la influencia de
estos factores en la consonancia se complica cuando los intervalos se consideran en
un contexto musical. David Huron observó que J. S. Bach tendía a evitar la fusión
tonal cuando perseguía (presumiblemente) la independencia perceptiva de las voces
contrapuntísticas. En primer lugar, se suelen evitar los intervalos simultáneos que
tienen más probabilidades de fusionarse, como octavas, cuartas y quintas (Huron,
1991a). La estrategia compositiva de evitar los intervalos consonantes no conlleva
un mayor riesgo de disonancia porque se anima a los oyentes a prestar atención a la
estructura horizontal.
En segundo lugar, cuando los intervalos consonantes son inevitables entre
distintas voces contrapuntísticas, tienden a ser asincrónicos (Huron, 2008). Esta
estrategia compositiva se emplea porque resulta difícil escuchar los componentes
individuales de un acorde en el que
1
Disonanci
a sensorial
0
0 1 2 3 4 5 6 7 89 10 11 12
Semitonos
Figura 3 Curva de disonancia de un espectro inarmónico con parciales en f y p2f. ffiffiLos
mínimos son evidentes en 1,21 (entre 3 y 4 semitonos) y 1,414 (un tritono).
con onsets y offsets sincrónicos (Demany y Ramos, 2005). Si hay demasiados

intervalos consonantes con onsets sincrónicos, puede producirse una fusión entre
tonos que deberían oírse como parte de voces melódicas diferentes, lo que reduce su
independencia perceptiva.
Como comentaron Wright y Bregman (1987), los mecanismos de fusión tonal
(estructura vertical o armónica) pueden funcionar en oposición a los mecanismos de
segregación del flujo auditivo que promueven la agrupación perceptiva de tonos a lo
largo del tiempo (estructura horizontal o melódica). Evitar la fusión tonal puede
utilizarse para fomentar la percepción de la estructura horizontal (voicing), y
reforzar la estructura horizontal (por ejemplo, restringiendo las líneas melódicas a
intervalos pequeños) puede utilizarse para suprimir la disonancia potencial que
podría producirse entre voces simultáneas en la música polifónica (para un debate
más extenso, véase Bregman, 1990, Capítulo 5). Tales efectos llevan a la
sorprendente conclusión de que el grado en que un intervalo dado se percibe como
disonante depende de lo bien integrados que estén los tonos constituyentes en las
respectivas voces melódicas (Huron, 1991b). Wright (1986) ha argumentado que el
aumento histórico de la disonancia percibida en la música corresponde menos a un
aumento de la prevalencia de armonías disonantes que a una reducción de los
esfuerzos para "prepararse" para los momentos disonantes enfatizando la estructura
horizontal.
¿Puede evitarse realmente la fusión entre intervalos simultáneos haciendo
hincapié en la estructura horizontal? Las pruebas electrofisiológicas sugieren que las
melodías simultáneas se representan por separado en la polifonía a dos voces,
independientemente de la formación musical (Fujioka, Trainor, Ross, Kakigi y
Pantev, 2005). Es decir, las fuerzas de flujo auditivo que apoyan el procesamiento
melódico o "voicing" pueden inhibir la fusión de los intervalos simultáneos que se
forman cuando se combinan las voces (Huron, 2001). Sin embargo, la fusión tonal
no puede evitarse por completo. A medida que se añaden más voces en polifonía,
existe una tendencia a que algunas de las combinaciones tonales simultáneas se
fusionen, lo que lleva a subestimar el número de voces independientes (Huron,
1989, véase también Parncutt, 1993). En la homofonía, se enfatiza la fusión tonal,
pero la investigación aún tiene que establecer si este énfasis puede inhibir por
completo el procesamiento melódico.
B. Intervalos secuenciales
Los intervalos formados por la sucesión de dos tonos -también llamados intervalos
melódicos o secuenciales- son la base de la melodía. La melodía, a su vez,
desempeña un profundo papel en la música. Los intervalos secuenciales grandes,
cuando van seguidos de un cambio de dirección, constituyen la base de las melodías
de "relleno" (Meyer, 1973), y los "saltos" melódicos se perciben como puntos de
acento melódico (Boltz y Jones, 1986; Jones, 1987). Por el contrario, las melodías
que consisten en una secuencia de pequeños intervalos suenan coherentes y
cohesionadas (Huron, 2001).
Las secuencias de intervalos melódicos constituyen la "huella dactilar" de la
música, y los casos de infracción de los derechos de autor suelen centrarse en la
melodía y rara vez en los atributos armónicos, rítmicos o tímbricos
- de la música
(Cronin, 1997-1998; Frieler & Riedemann, 2011; Mu¨llensiefen & Pendzich, 2009).
En la conocida acción judicial de Keith Prowse Music (KPC) contra George
Harrison, alegando infracción de los derechos de autor de su exitosa canción "My
Sweet Lord", los argumentos jurídicos cruciales giraban en torno a
una secuencia de dos intervalos descendentes. Los intervalos descendentes se habían

utilizado en una canción popular anterior, "He's So Fine", de los Chiffons, junto con
otros detalles melódicos (Southall, 2008).
Los intervalos secuenciales tienen funciones sustancialmente diferentes en la
música que los intervalos simulta- neos. En el modelo musical de implicación-
realización de Eugene Narmour (1990, 1992), todos los patrones de intervalos
secuenciales pueden clasificarse en un conjunto de estructuras melódicas básicas.
Dado que cualquier intervalo melódico puede evocar una "implicación" para
posibles continuaciones, el tono que sigue a un intervalo puede interpretarse como
una "realización" que cumple o niega la implicación interválica inicial. A medida
que se desarrolla una melodía, el patrón de cumplimiento y negación de las
expectativas interválicas da forma a la percepción de la estructura por parte del
oyente (para una revisión y evaluación del modelo, véase Thompson, 1996).
Narmour propuso varios principios de implicación melódica, que han sido evaluados
en una amplia gama de estudios empíricos (por ejemplo, Cuddy & Lunney, 1995;
Krumhansl, 1995a, 1995b; Pearce & Wiggins, 2006; Schellenberg, 1996, 1997;
Schellenberg, Adachi, Purdy, & McKinnon, 2002; Thompson, Balkwill, &
Vernescu, 2000; Thompson, Cuddy, & Plaus, 1997; Thompson & Stainton, 1998).
Aunque se han cuestionado los detalles de los principios de Narmour, los datos
empíricos apoyan en general las hipótesis esenciales del modelo de implicación-
realización.
Los mecanismos subyacentes a los intervalos secuenciales y simultáneos
interactúan y se solapan. La estructura horizontal (melódica) puede utilizarse para
atenuar el nivel percibido de disonancia potencial en la armonía en curso, y los
propios intervalos melódicos connotan distintos niveles de consonancia y disonancia
aunque no den lugar a asperezas ni batimentos. De hecho, el uso más antiguo de los
términos consonancia y disonancia se refería a intervalos melódicos sucesivos
(Tenney, 1988).
En la música, el tamaño de los intervalos secuenciales suele ser menor que el de
los intervalos simultáneos. La figura 4 muestra un histograma de la proporción
relativa de
Frecuencia de aparición, %.
40
30
20
10
0
0 1 2 3 4 5 6 7 8 910 11 12
Tamaño del intervalo, semitonos
Figura 4 Histograma que muestra la aparición relativa de intervalos de tono de distintos

tamaños en las melodías occidentales (clásica y rock: barras blancas; folk, barras oscuras).
De Vos y Troost (1989).
diferentes tamaños de intervalos de tono en las melodías occidentales, e indica que

los-intervalos pequeños (1 2 semitonos) predominan en la música clásica, rock y
folk. Esta característica de los intervalos secuenciales surge porque las melodías son
un tipo de flujo auditivo y están sujetas a los principios de segregación del flujo
auditivo (Bregman, 1990). Los intervalos secuenciales de una melodía suelen
componerse de forma que los tonos que los componen se perciben dentro de la
misma corriente auditiva (Huron, 2001).
Los mecanismos neuronales que sustentan las secuencias auditivas aún no se
conocen del todo, pero cualquier modelo exhaustivo tendría que tener en cuenta
tanto la segregación primitiva como la basada en esquemas, incluido el papel de la
atención (Carlyon, 2004). Bidet-Caulet y Bertrand (2009) propusieron que las
secuencias auditivas están determinadas por la separación de las poblaciones
neuronales activadas por tonos sucesivos. Si las respuestas a dos tonos sucesivos
superan un determinado umbral de activación dentro de la misma población
neuronal, se percibe una corriente; si las respuestas a los dos tonos superan este
umbral de activación en poblaciones neuronales no superpuestas, se oyen dos
corrientes (véase también, Micheyl et al., 2007).
En un contexto musical, es probable que en la percepción y apreciación de los
intervalos melódicos influyan tanto los mecanismos que sustentan la secuencia
auditiva como los mecanismos subyacentes a la consonancia y la fusión para los
intervalos simultáneos. Los tonos que se fusionan bien como simultaneidad también
tienden a funcionar bien cuando se tocan en secuencia. Por ejemplo, el intervalo
simultáneo más consonante -una octava- suele aparecer melódicamente, como en las
dos primeras notas de la canción "Over the Rainbow" o "The Christmas Song"
(Castañas asándose en una hoguera). El segundo intervalo más consonante -una
quinta- aparece de forma destacada en la canción infantil "Twinkle Twinkle" y
"Scarborough Fair"; la tercera mayor aparece melódicamente en "The Itsy-Bitsy
Spider"; la sexta mayor en "My Bonnie"; y la cuarta perfecta en "Oh Tannenbaum".
Esta coincidencia sugiere que los mecanismos que apoyan la consonancia y la
disonancia en intervalos simultáneos pueden activarse cuando los tonos de esos
intervalos se reproducen en secuencia. Las respuestas neuronales al tono inicial de
un intervalo melódico pueden perdurar más allá del desplazamiento de ese tono (es
decir, en la memoria de trabajo) e interactuar con las respuestas neuronales a un tono
posterior. Las combinaciones de tonos secuenciales no pueden dar lugar a golpes y
asperezas físicas, excepto en entornos altamente resonantes, como las iglesias. Sin
embargo, la actividad neural combinada de tonos secuenciales que se producen
dentro de la memoria de trabajo podría estar potencialmente sujeta a detectores de
periodicidad. Una explicación alternativa es que la exposición persistente a
intervalos simultáneos consonantes genera expectativas y preferencias por esos
intervalos desde el punto de vista melódico.
Una característica que distingue la percepción de los intervalos simultáneos y
secuenciales es que los intervalos secuenciales se codifican (al menos) de dos
maneras: como una magnitud de cambio de tono y como un contorno de tono. La
magnitud de los intervalos secuenciales se conserva con gran eficacia en la memoria
a largo plazo para melodías familiares (Attneave y Olsen, 1971; Dowling y Bartlett,
1981), pero se conserva peor en la memoria para melodías nuevas (Dowling, 1978).
El contorno del tono (la dirección del cambio de una nota a otra a lo largo del
tiempo) destaca en las melodías nuevas (Dowling y Fujitani, 1970; Edworthy,

1985). Los niños y los bebés también se basan principalmente en el contorno cuando
escuchan y recuerdan melodías.
(Chang & Trehub, 1977; Morrongiello, Trehub, Thorpe, & Capodilupo, 1985; Pick,
Palmer, Hennessy, & Unze, 1988; Trehub, Bull, & Thorpe, 1984).
A menudo se sugiere que los mecanismos que subyacen al procesamiento de la
melodía pueden estar implicados en dominios distintos de la música, como la
entonación del habla (Ilie y Thompson, 2006, 2011; Miall y Dissanayake, 2003;
Patel, 2003, 2008; Thompson et al., 2004; Thompson y Quinto, 2011). Ilie y
Thompson (2006, 2011) descubrieron que las manipulaciones de atributos acústicos
básicos como la intensidad, la altura tonal y el ritmo (tempo) tienen consecuencias
emocionales similares tanto si se imponen a estímulos musicales como orales.
Thompson et al. (2004) demostraron que la administración de 1 año de clases de
piano a una muestra de niños conducía a un aumento de la sensibilidad a las
connotaciones emocionales de la prosodia del habla. Por último, existe una
convergencia de datos estadísticos sobre los cambios de tono que se producen en el
habla y las melodías. Por ejemplo, Patel, Iversen y Rosenberg (2006) compararon la
variabilidad media del tono en el habla y las canciones populares francesas e
inglesas. La variabilidad del tono de una sílaba a otra del francés hablado era
significativamente menor que la del inglés hablado, y se observó una diferencia
paralela en las canciones populares francesas e inglesas.
Los sustratos neurales para procesar el contorno y el tamaño del intervalo parecen
ser diferentes (Liegeois-Chauvel, Peretz, Babei, Laguitton y Chauvel, 1998; Peretz y
Coltheart, 2003; Schuppert, Munte, Wieringa y Altenmuller, 2000). Esta visión de la
modularidad se ve respaldada por los hallazgos de deficiencias selectivas en la
capacidad de reconocimiento musical tras una lesión cerebral o entre individuos con
dificultades congénitas (véase el capítulo 13 de este volumen). Sin embargo, estas
disociaciones tienen implicaciones ambiguas. Por ejemplo, el procesamiento preciso
de intervalos exactos puede depender del funcionamiento correcto de múltiples
cálculos, de modo que el daño a cualquiera de ellos conduce a una percepción de
intervalos deficiente. La percepción del contorno puede implicar menos cálculos o
cálculos menos precisos y, por lo tanto, puede ser menos susceptible de deterioro
tras una lesión cerebral. Por otra parte, si la extracción del contorno tiene una
aplicación más amplia que la extracción del tamaño del intervalo (por ejemplo, en la
percepción de la prosodia del habla), entonces puede ser robusta a la degradación,
dando lugar a disociaciones aparentes entre el contorno y el tamaño del intervalo
después de una lesión cerebral.
McDermott, Lehr y Oxenham (2008) aportaron pruebas de que la capacidad de
extraer el contorno es una propiedad general del sistema auditivo. Presentaron a los
participantes una secuencia de cinco tonos seguida de una segunda secuencia que se
transponía hacia arriba o hacia abajo en el tono. Los cinco tonos variaban en uno de
tres atributos acústicos: tono (como en una melodía), timbre e intensidad. La tarea
consistía en juzgar si el patrón de variación (contorno) de los dos estímulos era igual
o diferente. Uno de los resultados fue que los contornos de timbre e intensidad se
reconocían igual de bien que los contornos de tono, lo que sugiere que el tono
relativo no es más que un ejemplo de una sensibilidad general a la información
relacional en el entorno acústico. Además, los participantes podían asignar
contornos de tono a contornos similares en timbre o intensidad, una capacidad que
también puede extenderse a los contornos visuales (Prince, Schmuckler y
Thompson, 2009; Schmuckler, 2004). Es decir, los aumentos de brillo e intensidad
se escucharon de forma similar a los aumentos de tono, pero de forma diferente a las
disminuciones de tono (véase también Neuhoff, Kramer y Wayand, 2002). Estos
resultados sugieren que el contorno está representado por un código general que
permite comparar
entre distintos atributos acústicos. Esta representación general probablemente

recibiría información de mecanismos de detección de cambios sintonizados con
atributos específicos del sonido.
Con respecto al tono, Demany, Semal y Pressnitzer (2011) demostraron que se
activan dos tipos de mecanismos de detección de cambios cuando se presentan
secuencias de tonos al sistema auditivo. Un mecanismo implica una comparación
implícita de la información de tono realizada por detectores de cambio de frecuencia
automáticos y sensibles a la dirección, y puede contribuir a una representación del
contorno del tono. El otro implica comparaciones explícitas de tonos y es sensible a
la magnitud de un cambio de frecuencia (tamaño del intervalo). Ambos mecanismos
pueden estar implicados en la formación de representaciones mentales de melodías
(véase también Demany, Pressnitzer y Semal, 2009).
En vista del destacado papel de los intervalos de tono en la música, cabe suponer
que el sistema auditivo tiene una capacidad especializada para comparar dos sonidos
diferentes en función del tono. Para evaluar esta posibilidad, McDermott, Keebler,
Micheyl y Oxenham (2010) examinaron la precisión de la percepción de intervalos
mediante una sencilla tarea de dis- criminación. La agudeza de intervalo se evaluó
para tres atributos auditivos: tono, brillo (timbre) y volumen. A continuación, se
definieron los umbrales de intervalo en relación con las unidades de diferencia
apenas perceptible (JND) para ese atributo (calculada como la JND para la
discriminación del tamaño del intervalo dividida por la JND para la discriminación
de los niveles individuales del atributo). Sin embargo, cuando la agudeza de
intervalo se calculó de este modo, fue peor para el tono que para los atributos de
brillo y volumen. La razón principal de este resultado es que el JND para el tono era
muy bajo, y mucho más bajo que para el brillo y el volumen. No obstante, el
resultado sugiere que el sistema auditivo puede no estar diseñado específicamente
para discriminar intervalos melódicos per se, sino que tiene propiedades especiales
que permiten una resolución fina del tono. De hecho, incluso para los participantes
con formación musical, los umbrales de intervalo de tono eran generalmente
superiores a un semitono.
Si los oyentes son incapaces de discriminar intervalos que difieren en un
semitono, ¿cómo se perciben y recuerdan las melodías? Cambiar el tono de una sola
nota de una melodía es muy perceptible, incluso cuando sólo altera el tono original
en un semitono. Hace varias décadas, Dowling (1978) sugirió que las melodías
desconocidas no se codifican como una secuencia de intervalos, sino como un
contorno melódico unido a una escala subyacente. Sólo en el caso de las melodías
familiares se retienen los tamaños de intervalo, y los mecanismos que permiten su
retención en la memoria son objeto de la construcción actual de modelos (Deutsch,
1999; Capítulo 7, este volumen). Dada la compleja arquitectura neural del sistema
auditivo, la abstracción de intervalos específicos es factible (Deutsch, 1969). Sin
embargo, para los oyentes musicalmente ingenuos, la capacidad de percibir y
discriminar intervalos melódicos puede surgir de cálculos y habilidades menos
específicos, como la sensibilidad de grano grueso al tamaño del intervalo o la
distancia de tono general, la percepción del contorno, la capacidad de inferir una
escala subyacente y la discriminación de tono de grano fino. Desentrañar estas
capacidades es un reto importante para la construcción de modelos y el diseño de
estudios sobre la percepción de intervalos.
La naturaleza intrigante y compleja de la percepción de intervalos fue subrayada

por una serie de experimentos realizados en nuestro laboratorio (Russo y Thompson,
2005a, 2005b;
Thompson, Peter, Olsen y Stevens (2012); Thompson y Russo, 2007; Thompson,

Russo y Livingstone, 2010). Estos estudios ilustran que el tamaño percibido de los
intervalos melódicos iso- lados depende de una serie de factores contextuales como
el tiempo, la intensidad, la altura tonal general e incluso las señales visuales
procedentes de los músicos que producen los intervalos. Russo y Thompson (2005a)
presentaron intervalos secuenciales ascendentes y descendentes a los oyentes, que
valoraron el tamaño de cada intervalo en una escala de 1 a 5. El centroide espectral
(el brillo de un intervalo) se determinó en función de la intensidad del sonido. El
centroide espectral (el brillo del timbre) de cada tono componente del intervalo se
manipuló para crear condiciones congruentes e incongruentes. En la condición
congruente, el centroide espectral de los dos tonos del intervalo reflejaba el tono de
dichos tonos. Por ejemplo, en la condición de intervalo ascendente, el tono inicial
tenía un centroide espectral más bajo y el segundo tono tenía un centroide espectral
más alto. En la condición incongruente, el centroide espectral de los dos tonos del
intervalo entraba en conflicto con el tono de dichos tonos. Por ejemplo, en la
condición de intervalo ascendente, el primer tono tenía un centroide espectral más
alto y el segundo tono tenía un centroide espectral más bajo. Las valoraciones del
tamaño del intervalo se vieron influidas por el timbre de los tonos componentes, con
valoraciones significativamente más altas para las condiciones congruentes que para
las incongruentes. Los resultados sugieren que el tono y el timbre se perciben de
forma no independiente (Garner, 1974; Melara y Marks, 1990), de modo que las
valoraciones del tamaño del intervalo se ven influidas perceptualmente por el
contexto tímbrico. Una implicación relacionada es que los juicios sobre el tamaño
del intervalo implican un proceso general de evaluación de la distancia psicológica
entre tonos.
En otro estudio, Russo y Thompson (2005b) pidieron a participantes
musicalmente entrenados y no entrenados que proporcionaran estimaciones de
magnitud del tamaño de los intervalos melódicos presentados en un registro de tono
alto o bajo, utilizando una escala de 1 a 100. Los intervalos ascendentes y
descendentes se crearon utilizando tonos que diferían entre sí entre 50 céntimos
(medio semitono) y 2.400 céntimos (dos octavas). Se crearon intervalos ascendentes
y descendentes utilizando tonos que diferían entre sí entre 50 centésimas (la mitad
de un semitono) y 2400 centésimas (dos octavas). A continuación, se indicó a los
participantes que debían asignar a los intervalos más pequeños y más grandes
valores de 1 y 100, respectivamente. Las estimaciones del tamaño del intervalo
dependían tanto de la altura tonal como de la dirección del intervalo. Los intervalos
ascendentes se consideraban más grandes que los descendentes cuando se
presentaban en un registro de tono alto, pero los descendentes se consideraban más
grandes que los ascendentes cuando se presentaban en un registro de tono bajo. Una
interpretación de esta interacción está relacionada con el hallazgo de que los oyentes
esperan un movimiento de tono interválico hacia el centro del registro de tono
(Huron, 2006; von Hippel y Huron, 2000). Un movimiento inesperado (alejado del
centro del registro de tono) puede percibirse como más destacado que el movimiento
hacia un evento esperado, lo que conduce a estimaciones más altas del tamaño del
intervalo.
También se observaron efectos significativos del entrenamiento musical. En los
intervalos de hasta una octava, los oyentes con formación musical diferenciaron
mejor el tamaño de los intervalos que los oyentes sin formación. En este intervalo,
sólo los oyentes entrenados juzgaron el tamaño del intervalo de forma coherente con
una asignación logarítmica de la frecuencia fundamental. En el caso de los
intervalos superiores a una octava, los oyentes entrenados y los no entrenados
mostraron una menor diferenciación de los tamaños de intervalo, y ninguno de los
grupos juzgó los intervalos de acuerdo con un mapeo logarítmico de la frecuencia
fundamental. En otras palabras, los efectos de la formación musical no se
observaron en los intervalos superiores a una octava, sino que se limitaron a los
intervalos que aparecen con frecuencia en la música.
Esta divergencia de los juicios sobre el tamaño del intervalo con respecto a la
escala logarítmica es una reminiscencia de los primeros estudios psicofísicos que
condujeron a la escala mel. Stevens, Volkmann y Newman (1937) definieron un
tono puro de 1000 Hz a 40 dB por encima del umbral como 1000 mels, y el tono en
mels de otras frecuencias se determinó pidiendo a participantes no entrenados
musicalmente que ajustaran un tono puro de comparación hasta que se percibiera
como la mitad de la altura de tono de un tono estándar (método de fraccionamiento).
La escala mel y la escala logarítmica son aproximadamente equivalentes por debajo
de 500 Hz, pero divergen por encima de 500 Hz, donde los tamaños de intervalo
perceptualmente equivalentes (en m e l s ) abarcan relaciones de frecuencia
progresivamente más pequeñas (véase también Beck y Shaw, 1961; Greenwood,
1997; Stevens y Volkmann, 1940).
El contexto tonal también afecta a la valoración de las relaciones tonales.
Krumhansl (1979) pidió a los oyentes que juzgaran la similitud entre pares de tonos
presentados inmediatamente después de contextos musicales que definían la
tonalidad. Al centrarse en las puntuaciones de similitud en lugar de en el tamaño del
intervalo o las etiquetas categóricas, fue posible obtener influencias en la percepción
del intervalo que no son evidentes para otros tipos de juicios. El patrón de
valoraciones reveló que un contexto musical afecta en gran medida a la relación
psicológica entre tonos. Los pares de tonos tomados de la tríada tónica de la
tonalidad definida (primer, tercer o quinto grado de una escala mayor) se juzgaron
como estrechamente relacionados. Sin embargo, cuando los mismos intervalos no
eran miembros de la tríada tónica, la similitud percibida entre los tonos era menor.
La similitud también se veía afectada por el orden en que se presentaban los tonos.
Los tonos menos relacionados con la tonalidad (por ejemplo, los tonos no
diatónicos) se juzgaron más similares a los tonos estables dentro de la tonalidad (por
ejemplo, los miembros de la tríada tónica) que en el orden temporal inverso, lo que
ilustra una especie de efecto prototipo. En resumen, los intervalos se perciben de
distintas maneras dependiendo de su función dentro de un contexto tonal subyacente
y no dependen únicamente de factores psicoacústicos. Los modelos geométricos del
tono también implican que una descripción psicológica completa de las relaciones
de tono requiere múltiples dimensiones (véase también Deutsch, 1969, 1992;
Capítulo 7, este volumen; Krumhansl, 1990; Krumhansl y Kessler, 1982;
Shepard, 1964, 1982a, 1982b, 2011).
A menudo se ha sugerido que las melodías implican movimiento (Boltz, 1998;
Jones, Moynihan, MacKenzie, & Puente, 2002; Repp, 1993; Shepard, 2011; Shove
& Repp, 1995), y los intervalos melódicos se describen a menudo utilizando
metáforas basadas en el movimiento, como subir y bajar. ¿Tienen los intervalos
melódicos cualidades motrices? Según la teoría de la codificación común, las áreas
de movimiento del cerebro pueden activarse si la música se percibe en términos de
acciones subyacentes o asociadas (Leman, 2009; Overy & Molnar-Szakacs, 2009;
Prinz, 1996; Thompson & Quinto, 2011; Zatorre, Chen, & Penhune, 2007).
Investigaciones recientes en nuestro laboratorio dirigidas por Paolo Ammirante
han demostrado que los cambios de tono interactúan con los mecanismos de
sincronización en el sistema motor (Ammirante y Thompson, 2010, 2012;
Ammirante, Thompson y Russo, 2011). En estos estudios se utilizó un paradigma de
continuación del golpeteo, en el que los participantes golpeaban en sincronía con
una señal de ritmo y luego intentaban continuar golpeando a la misma velocidad una
vez que se retiraba la señal de ritmo. Para examinar el papel de los cambios de tono
en el sistema motor, cada golpe en la fase de continuación activaba un tono sonoro.
Los tonos de estos tonos se manipulaban para formar patrones melódicos. Cambios
de tono
afectaba sistemáticamente al tiempo de las pulsaciones siguientes. Cuando un tono

desencadenado implicaba un movimiento melódico más rápido (saltos melódicos
más grandes dentro de la misma cantidad de tiempo), el intervalo entre pulsaciones
(ITI) que iniciaba el tono era más corto (pulsaciones más rápidas); cuando un tono
desencadenado implicaba un movimiento melódico más lento, el ITI era más largo.
Es decir, el "movimiento" melódico implícito derivado de intervalos de diferentes
tamaños se reflejaba en el tiempo de las acciones.
Mi investigación sobre las expresiones faciales de los músicos también sugiere el
papel del movimiento en la percepción de los intervalos (Thompson y Russo, 2007;
Thompson, Russo y Livingstone, 2010; Thompson, Russo y Quinto, 2008). Este
trabajo indica que la percepción de los intervalos melódicos se ve afectada
significativamente por las expresiones faciales de los músicos que producen dichos
intervalos. Thompson et al. (2010) pidieron a los participantes que observaran a un
músico cantando un intervalo melódico y que juzgaran el tamaño de ese intervalo en
una escala de 1 a 7. Sólo se mostraba la cara del músico. Sólo se veía la cara del
músico. Primero confirmamos que las expresiones faciales por sí solas, incluso sin
sonido disponible, podían transmitir información fiable sobre el tamaño del intervalo
melódico que se estaba cantando (véase también Thompson y Russo, 2007). A
continuación, se manipularon las señales visuales y auditivas de forma que la señal
visual tomada de un intervalo cantado grande se sincronizara con la señal auditiva
tomada de un intervalo cantado pequeño, y viceversa. Los resultados confirmaron
que tanto los canales auditivos como los visuales influían en la valoración del
tamaño del intervalo. Las mediciones faciales revelaron que los músicos realizaban
una serie de movimientos sutiles de la cabeza y las cejas, a los que los participantes
eran muy sensibles. Otras manipulaciones confirmaron que la información visual
procedente de los cantantes se tiene en cuenta de forma automática e inconsciente a
la hora de evaluar el tamaño del intervalo. Estos resultados subrayan la naturaleza
compleja y multimodal de la percepción musical y sugieren que los juicios analíticos
de las categorías de intervalos pueden proporcionar una comprensión limitada de la
experiencia musical (véase también Makeig, 1982).
C. Límites y precisión de la inclinación relativa

Las relaciones tonales desempeñan un papel fundamental en la percepción y la
interpretación musical: son percibidas y recordadas fácilmente por oyentes con o sin
formación musical, y la capacidad de producir intervalos convencionales en un
instrumento musical es una habilidad básica que los músicos adquieren al principio
de su formación. ¿Hasta qué punto son capaces los oyentes de discernir los
intervalos y los músicos de producirlos con precisión? ¿Tienen algunos intervalos un
estatus psicológico especial?
Uno de los límites más básicos de la percepción de intervalos es la región del
tono. En el extremo inferior del espectro audible, los intervalos son difíciles de
distinguir porque muchos parciales de tonos individuales caen dentro de la misma
banda crítica, dando lugar a sensaciones de tono indistintas o "retumbantes". En el
centro de la gama audible, los tonos individuales dan lugar a sensaciones de tono
claras y los intervalos se extraen fácilmente. Los tonos evocados por tonos
complejos son más claros cuando la fundamental se encuentra en una región

centrada en 300 Hz (Terhardt, Stoll y Seewann, 1982a, 1982b). Esta región de
claridad del tono puede influir en la práctica musical. Huron (2001) señaló que la
media
en un amplio corpus de música occidental y no occidental es aproximadamente Dx4 ,

que está muy cerca de la región que evoca las sensaciones de tono más claras.
En el extremo superior del espectro, especialmente más allá de unos 5000 Hz, las
relaciones de tono vuelven a ser indistintas (Attneave y Olson, 1971; Ohgushi y
Hatoh, 1992; Semal y Demany, 1990). Una explicación de esta pérdida de tono
relativo es que la codificación temporal del tono subyace a la percepción de la
música, y no la codificación espectral o de "lugar". La codificación temporal del
tono -el disparo en fase de las neuronas auditivas a la forma de onda del estímulo- se
produce hasta unos 5 kHz, que coincide con el límite superior del tono relativo
(Moore, 2004; van Noorden, 1982). La codificación de lugar -que está relacionada
con el lugar de máxima excitación por tonos en la membrana basal- permite la
discriminación del tono en un mayor rango de frecuencias. Por lo tanto, por encima
de 5 kHz, donde la codificación temporal está ausente pero se mantiene la
codificación de lugar, los oyentes siguen siendo capaces de ordenar los tonos en una
escala de bajo a alto, pero son incapaces de diferenciar intervalos específicos o
escuchar secuencias de tonos como señales musicales (Houtsma, 1984; Semal y
Demany, 1990; Oxenham [Capítulo 1, este volumen] ofrece un amplio debate sobre
las teorías de lugar y temporal de la percepción del tono).
Se han adoptado varios métodos psicofísicos para explorar los límites y la
precisión de la percepción de intervalos musicales, como revisa ampliamente Burns
(1999, véase también Zarate, Ritson, & Poeppel, 2012). Houtsma (1968) adoptó una
tarea de discriminación por comparación emparejada para estimar las JND en el
tamaño de los intervalos musicales. En esta tarea, a los participantes se les presentan
dos intervalos y deben indicar cuál es mayor (elección forzada de dos alternativas).
El tono del primer tono se aleatorizó para obligar a los participantes a basar sus
respuestas en el tamaño del intervalo en lugar de en los valores absolutos del tono.
La JND media para la octava fue de 16 céntimos, y las JND para otros intervalos de
la escala cromática oscilaron entre 13 y 26 céntimos.
En el método de ajuste, se presenta a los individuos un par de tonos, en secuencia
o simultáneamente. Uno de los tonos es fijo y el otro puede ajustarse. Se indica a los
participantes que ajusten el tono variable de forma que el tono de los dos tonos
coincida con un intervalo determinado. Por ejemplo, se puede pedir a un participante
que ajuste el tono variable de forma que el intervalo entre los dos t o n o s sea de una
octava.
Los poseedores de tonos relativos son bastante consistentes a través de ajustes
repetidos. Para octavas secuenciales o simultáneas, la desviación estándar media
intrasujeto de los ajustes repetidos es de aproximadamente 10 centésimas si los dos
tonos son sinusoidales y menor si son tonos complejos (Burns, 1999; Sundberg &
Lindquist, 1973; Terhardt, 1969; Ward, 1954). Basándose en sus propias
investigaciones y en una revisión de las mismas, Burns (1999) llegó a la conclusión
de que cuando los individuos ajustan los tonos para producir un intervalo objetivo,
existe una tendencia a comprimir los intervalos pequeños de cuatro semitonos o
menos (ajuste más estrecho que igual temperado) y a estirar los intervalos grandes
de ocho semitonos o más. Sin embargo, estos efectos dependen del intervalo preciso
de que se trate. Por ejemplo, la compresión se observa claramente para el intervalo
de segunda menor ascendente y descendente (Vurma y Ross, 2006), pero no para el
intervalo de segunda mayor (Loosen, 1993; Ross, 1984). La inclinación a comprimir
o estirar intervalos también depende de la región de frecuencia en la que se toca el

intervalo (Rosner, 1999).
El fenómeno del estiramiento de la octava ha sido objeto de especial atención

(Burns, 1999; Dowling y Harwood, 1986). Los intervalos definidos por la relación
de frecuencia de 2:1 se perciben como más pequeños que una octava, y los
intervalos que se consideran instancias exactas de la octava se caracterizan por
relaciones de frecuencia ligeramente superiores a 2:1. Este efecto es más evidente en
los intervalos secuenciales que en los simultáneos (Burns, 1999; Dowling y
Harwood, 1986). Este efecto es más evidente en los intervalos secuenciales que en
los simultáneos (Burns, 1999), se observa en todas las culturas (Burns, 1974) y se ha
confirmado mediante diversas técnicas psicofísicas (Dobbins y Cuddy, 1982;
Hartmann, 1993). Aunque se han propuesto varias explicaciones (p. ej., Ohgushi,
1983; Terhardt, 1971; Young, 1952), el fenómeno aún no se ha comprendido del
todo.
En la interpretación musical, la habilidad técnica y las intenciones expresivas
determinan si los intervalos se interpretan con precisión (Vurma y Ross, 2006). En
el caso de los instrumentos de tono variable, como el violín, la interpretación
musical implica un proceso continuo de ajuste de los tonos de la música. Estos
ajustes, denominados entonación, suelen tener como objetivo la reproducción
precisa de los intervalos anotados, pero los intervalos pueden comprimirse o
estirarse intencionadamente con fines expresivos. Algunos géneros, como la música
romántica, permiten un uso significativo de la entonación expresiva, mientras que
otros géneros se asocian a una gran precisión de la entonación. Por ejemplo,
Hagerman y Sundberg (1980) informaron de que la precisión media de la entonación
en una muestra de canciones de barbería de expertos era inferior a 3 centésimas.
El impacto estético de comprimir o estirar los intervalos se produce sin interferir
en la identidad esencial de dichos intervalos. Este resultado es posible
principalmente porque los oyentes esperan los tamaños de intervalo que suelen
interpretar los músicos y no los tamaños de intervalo precisos definidos por la
afinación de igual temperamento (Vurma y Ross, 2006). Otro factor es que los
oyentes con formación musical perciben los intervalos de forma categórica (Burns,
1999; Burns y Ward, 1978). Dos observaciones apoyan esta afirmación. En primer
lugar, cuando los intervalos se ajustan en pequeñas cantidades para ser más
pequeños o más grandes, las funciones de identificación de los oyentes entrenados
musicalmente tienden a mostrar límites de categoría nítidos. Por ejemplo, si se
presenta una serie de intervalos intermedios entre una segunda mayor y una tercera
menor, los oyentes tienden a percibir una presentación repetida del intervalo más
pequeño, seguida de un cambio abrupto en la categoría del intervalo y, a
continuación, una presentación repetida del intervalo más grande. En segundo lugar,
si el tamaño de dos intervalos difiere en una cantidad fija (por ejemplo, 30
céntimos), se discriminarán mejor si se perciben dentro de categorías de intervalo
diferentes (por ejemplo, tercera menor y tercera mayor) que si se perciben dentro de
la misma categoría de intervalo (dos instancias de una tercera mayor).
Siegel y Siegel (1977) utilizaron la estimación de la magnitud para examinar la
percepción categórica de los intervalos melódicos. Seis músicos proporcionaron
estimaciones de magnitud de 13 intervalos melódicos que variaban en tamaño desde
aproximadamente 6 a 8 semitonos en incrementos de 0,2 semitonos. Todos los
participantes identificaron intervalos afinados con una precisión superior al 95%.
Sin embargo, sus estimaciones de magnitud revelaron una capacidad desigual para
discriminar intervalos. Las estimaciones de magnitud del tamaño del intervalo no

aumentaron en proporción con la magnitud del estímulo, sino que mostraron pasos
discretos correspondientes a las categorías de intervalo. También juzgaron que el
63% de los intervalos eran
estar "afinados" a pesar de que la mayoría de ellos (,75%) estaban

desafinados con respecto a la afinación de igual temperamento.
La percepción categórica también se ha observado para intervalos simultáneos.
Zatorre (1983) presentó a siete músicos intervalos simultáneos consistentes en tonos
puros en un rango de 100 centésimas que abarcaba desde una tercera menor (300
centésimas) hasta una tercera mayor (400 centésimas). El estudio adoptó un para-
digma de elección forzada de dos alternativas, así como un paradigma de
identificación de escala de puntuación. Se observaron efectos de límite de categoría
en el sentido de que la discriminación era mejor para los pares situados en el límite
entre dos categorías de intervalos que para los pares de intervalos situados cerca de
los extremos del continuo de estímulos (véase también Zatorre y Halpern, 1979).
Estos resultados ilustran que existen regiones a lo largo del continuo de tamaño de
intervalo en las que la discriminación de intervalos simultáneos es mayor, y estas
regiones están asociadas con la presencia de límites de categoría a lo largo de este
continuo.
A primera vista, las pruebas de la percepción categórica de los intervalos
musicales parecen análogas a los resultados obtenidos para los fonemas del habla,
pero existen diferencias notables. Lo más significativo es que las categorías del
habla aparecen muy pronto en el desarrollo (Eimas, Siqueland, Jusczyk y Vigorito,
1971) y los bebés muestran sensibilidades perceptivas para los límites de los
fonemas que ni siquiera se utilizan en el lenguaje de sus padres (Eimas y Corbit,
1973; Streeter, 1976). En cambio, las categorías de intervalos musicales parecen
surgir sólo tras una experiencia o entrenamiento musical explícito. Dadas estas
diferencias, es prematuro concluir que son los mismos mecanismos los que
subyacen a los efectos categoriales en la música y en el habla.
Los investigadores también han examinado la capacidad de participantes
entrenados musicalmente para identificar intervalos de forma aislada o en un
contexto musical. Taylor (1971) presentó a los participantes 25 intervalos
cromáticos ascendentes y descendentes, incluido el unísono. Los intervalos se
presentaron aislados e incrustados en una melodía. Las tasas de error fueron más
altas cuando los intervalos se presentaron en un contexto melódico que cuando se
pre sentaron de forma aislada. Además, la tasa de error no estaba correlacionada con
la intensidad tonal subjetiva de las melodías. Estos resultados son sorprendentes,
dado que los contextos musicales deberían permitir que los intervalos se codificaran
como distancias musicales (por ejemplo, cuarta perfecta) y como grados de escala en
una escala subyacente (por ejemplo, de tónica a subdominante). Además, el
entrenamiento musical mejora la codificación neuronal de los intervalos musicales
(Lee, Skoe, Kraus y Ashley, 2009), y la mayor parte del tiempo dedicado durante el
entrenamiento musical implica trabajar y atender a contextos musicales completos.
Por último, no se observa una ventaja para los intervalos aislados cuando se adoptan
otras técnicas de medición (Rakowski, 1990). En resumen, los resultados sobre
discriminación e identificación de intervalos parecen depender del método de
evaluación.
Una cuestión que rodea a todos los estudios de discriminación e identificación de
intervalos es si es razonable utilizar la afinación de igual temperamento como
estándar para clasificar los intervalos como afinados o desafinados, cuando se sabe
que la entonación expresiva rara vez se alinea con precisión con los intervalos
definidos por la afinación de igual temperamento. France`s (1958/1988) comparó las

tasas de detección de dos tipos de intervalos desafinados en un contexto musical. En
una condición, los intervalos mal afinados se contraían o expandían con respecto a la
afinación de temperamento igual de una manera consistente con las expectativas
basadas en mediciones de entonación tomadas de la música interpretada. En la
condición
En la otra condición, los intervalos desafinados se contraían o ampliaban en contra

de las expectativas basadas en dichas mediciones. Los participantes fueron más
precisos a la hora de detectar intervalos mal sintonizados en la segunda condición.
Este hallazgo pone de manifiesto la dificultad de establecer una norma absoluta para
definir los errores de afinación. Como demostraron los estudios psicoacústicos de
Rakowski, los intervalos melódicos son entidades psicológicas y sus identidades
están asociadas a una serie de valores (Rakowski, 1976, 1982, 1985a, 1985b, 1990,
1994).
III. Escalas y sistemas de afinación

Los intervalos melódicos también son fundamentales para las escalas, el conjunto de
tonos discretos utilizados en la mayor parte de la música de todas las culturas.
¿Cuáles son las funciones de las escalas? Los seres humanos pueden distinguir más
de 200 tonos dentro de una octava en el rango medio de la audición, pero los tonos
utilizados en la música suelen limitarse a un pequeño número de categorías. Las
escalas dividen el continuo de tonos en un número discreto y manejable de
elementos que se utilizan repetidamente. Existe una gran diversidad de escalas en las
distintas culturas musicales, pero la mayoría se construyen a partir de cinco a siete
elementos por octava y permiten la formación de uno o más intervalos consonantes,
como la octava, la quinta y la cuarta. Muchas también permiten diferenciar hasta una
docena de tamaños de intervalo diferentes dentro de cada octava. La escala
diatónica, por ejemplo, permite la formación de intervalos melódicos de 1 a 12
semitonos en cualquier octava. La presencia de distinciones precisas y significativas
entre los tamaños de los intervalos es una propiedad única de la música. Otros
atributos del sonido, como el timbre y la intensidad, no se representan formalmente
en términos de distancias entre ejemplares.
El concepto de escala puede definirse desde los puntos de vista físico,
matemático y psicológico. Desde una perspectiva física, se refiere al conjunto de
tonos que pueden producirse en un instrumento musical dado un determinado
sistema de afinación. Desde u n a p e r s p e c t i v a matemática, se puede utilizar
una descripción teórica de grupos de conjuntos de tonos como forma de evaluar los
recursos disponibles para cualquier sistema de tonos, como la división de la octava
en 12 tiempos iguales (Balzano, 1977, 1980, 1982). Desde una perspectiva
psicológica, una escala se refiere a una representación mental de regularidades en el
tono que se activa cuando se escucha música. Tal representación determinaría, por
ejemplo, si los tonos entrantes se perciben como gramaticales. También ayuda a los
oyentes a determinar las distintas funciones de los tonos en una melodía, facilitando
así su codificación en la memoria.
Tanto los oyentes entrenados como los no entrenados extraen fácilmente la escala
subyacente de la música, incluso después de sólo unos pocos tonos (Cohen, 1991).
Sin embargo, no está claro si esta capacidad para inferir la escala subyacente
desempeña un papel significativo durante la audición musical, ya que prácticamente
todas las personas aprenden desde una edad temprana a cantar las escalas de su
cultura musical. Es posible que las escalas sólo tengan importancia cognitiva en la
medida en que los oyentes interioricen la frecuencia de aparición de los tonos en una
tonalidad establecida (Oram y Cuddy, 1995; Krumhansl, 1985, 1990). Dentro de un
marco de aprendizaje estadístico, no es necesario asumir que existe un proceso

especializado en el cerebro que categoriza los tonos entrantes como miembros o no
miembros de una escala. En su lugar, los circuitos neuronales que responden al tono
se desarrollan de un modo que refleja
la probabilidad de aparición de tonos y clases de tonos. Las notas de escala son más
frecuentes que las que no lo son, por lo que son más esperadas y se procesan con
mayor eficacia.
Utilizando la desconocida escala Bohlen-Pierce, Loui, Wessel y Hudson Kam
(2010) crearon gramáticas musicales a partir de las cuales se compusieron melodías.
Hace varias décadas, Heinz Bohlen diseñó la escala Bohlen-Pierce para que fuera
distinta de las escalas occidentales, pero diera lugar a una sensación de tonalidad. Se
expuso a los participantes
- a melodías durante 25 30 minutos y luego se les evaluó el
reconocimiento, la generalización y el aprendizaje estadístico. El aprendizaje
estadístico se evaluó pidiendo a los participantes que calificaran la bondad de ajuste
de los tonos de sondeo que seguían a las melodías de la nueva gramática. Tanto los
participantes entrenados musicalmente como los no entrenados pudieron reconocer
melodías individuales con gran precisión y generalizaron sus conocimientos a
nuevas melodías compuestas a partir de la misma gramática. Las puntuaciones de
los tonos sonda correspondían a la frecuencia de aparición de diferentes tonos, lo
que ilustra la sensibilidad a las propiedades estadísticas de las melodías.
En un artículo que marcó un hito, Dowling (1978) hizo hincapié en la
importancia psicológica de las escalas. Presentó a los participantes una melodía
objetivo seguida de una melodía de comparación y les pidió que indicaran si las
melodías eran iguales o diferentes. Las melodías de comparación eran de tres tipos:
(a) transposiciones exactas de la melodía objetivo; (b) transposiciones que se
ajustaban a la escala y el contorno de la melodía objetivo pero implicaban cambios
en los intervalos precisos implicados (es decir, respuestas tonales), o (c) estímulos
de comparación atonales. Los estímulos objetivo coincidían con transposiciones
exactas o respuestas tonales, pero rara vez se confundían con estímulos de
comparación atonal. Basándose en estos hallazgos y otros relacionados, Dowling
propuso que las melodías nuevas se representan principalmente por la escala y el
contorno, más que por los intervalos precisos implicados.
La mayoría de las escalas occidentales y no occidentales permiten la formación
de intervalos consonantes. Combinando notas de la escala diatónica mayor, se
pueden crear intervalos como octava, quinta, cuarta, tercera y sexta. Estos intervalos
son consonantes principalmente porque están representados en los espectros de
formas de onda periódicas complejas, incluida la voz humana y muchos
instrumentos musicales. A su vez, cuando dos tonos con espectros armónicos
complejos se combinan a distancias de tono variables, se producen mínimos locales
de disonancia y máximos de fusión cuando la distancia entre los tonos coincide con
la distancia entre los parciales de los espectros individuales.
La entonación justa (afinación) se utiliza para crear escalas que optimicen la
consonancia entre los tonos de la escala. Dada la primera nota de la escala, o tónica,
la entonación justa optimiza la consonancia en los intervalos afinando otras notas de
la escala de forma que sus frecuencias fundamentales se relacionen con la de la
tónica mediante pequeñas proporciones enteras: octava (2:1), quinta (3:2), cuarta
(4:3), tercera mayor (5:4), tercera menor (6:5), sexta mayor (5:3) y sexta menor
(8:5). Una limitación de las escalas de entonación justa es que son imposibles de
lograr en su totalidad: si el sexto grado de escala se afina según la relación de 8:5,
entonces la inter- valación entre los grados de escala segundo y sexto no será
coherente con la relación deseada de 3:2. Una segunda limitación de las escalas de
entonación justa es que son inherentemente específicas de la tonalidad. Funcionan

bien en la tonalidad en la que está afinada la escala, y en tonalidades relacionadas,
pero suenan desagradables cuando se tocan en tonalidades distantes. Por ejemplo, en
una tonalidad de Do
escala mayor creada por afinación justa, un acorde de Fa mayor tiene un intervalo
de quinta de 722 centésimas (aproximadamente 20 centésimas más que una quinta
afinada justa). Por supuesto, este problema afecta principalmente a los instrumentos
de afinación fija, como los teclados, en los que la afinación de las notas individuales
no puede ajustarse para adaptarse a una nueva tonalidad.
Pitágoras intentó construir una escala musical completa subiendo y bajando
sucesivamente de quinta en quinta. Subiendo desde un tono inicial un intervalo de
quinta perfecta 12 veces se obtiene un nuevo tono con una nueva frecuencia
fundamental que se relaciona con la del tono inicial mediante la relación (342)12 .
Estos 12 pasos ascendentes conducen de nuevo a la clase de tono del tono inicial en
un sistema igual temperado (7 octavas más alto), pero no en entonación justa.
Cuando el tono definido por (342)12 se transpone siete octavas hacia abajo, la
relación se convierte en 5314414524288, o 23 cents sostenido del unísono. Este
intervalo se denomina coma pitagórica y se ilustra en la figura 5. La afinación en
temperamento igual consiste en distribuir esta discrepancia por igual entre los 12
tonos de la escala cromática. Las diferencias entre la afinación con temperamento
igual y la entonación justa son sutiles, pero normalmente pueden ser detectadas por
oyentes atentos. La popularidad de la escala temperada igual entre los músicos
occidentales altamente cualificados plantea dudas sobre el papel central de la
pulsación en la disonancia (véase también McDermott et al., 2010).
El temperamento igual y la afinación justa están diseñados para maximizar el
número de intervalos consonantes entre sonidos con espectros armónicos, incluida la
voz humana y muchos instrumentos musicales. Sin embargo, varios tipos de
instrumentos musicales tienen timbres inarmónicos, como los gongs, las campanas,
los tambores, los cuencos tibetanos y los bloques de madera. Para la mayoría de los
oyentes occidentales, las sensaciones tonales de los instrumentos armónicos son más
claras que las de los inarmónicos, pero ambos tipos de instrumentos pueden afinarse
sistemáticamente.
Los espectros de los instrumentos que predominan en una cultura musical
influyen en cómo se afinan esos instrumentos y, por tanto, en las escalas que se
asocian a la música. Sethares (2005) observó una estrecha correspondencia entre los
intervalos, las escalas y las propiedades espectrales de los instrumentos. En las
tradiciones que se basan principalmente en instrumentos con espectros inarmónicos,
las escalas musicales tienden a ser muy diferentes de las escalas diatónicas mayores
y menores occidentales, precisamente porque permiten la formación de los
intervalos que se encuentran dentro de los espectros de esos instrumentos
inarmónicos.
Figura 5 La espiral de quintas, que ilustra que no se

A E puede crear una escala completa afinando
* progresivamente los tonos utilizando la relación de
* * B
frecuencias 3:2. Después de 12 quintas perfectas, el
D *
B
F C* * nuevo tono está ligeramente desplazado
*
*E F de la clase de tono original en una cantidad conocida
G G* * como coma pitagórica.
**A
D*
C *
*A
F*
El bonang es un instrumento musical utilizado en el gamelán javanés y consiste

en una colección de pequeños gongs. Según Sethares (2005), cuando el espectro de
un bonang se combina con un tono armónico, genera una curva de disonancia con
mínimos cercanos a los pasos de una escala idealizada de slendro, una de las dos
escalas esenciales de la música gamelán. Otro instrumento utilizado en la música
gamelán, el saron, consta de siete barras de bronce colocadas sobre un marco
resonante. Cuando el espectro de un saron se combina con un tono armónico, genera
una curva de disonancia con mínimos cercanos a los peldaños de una escala pelog,
la otra escala esencial de la música gamelán.
Basándose en estas observaciones, Sethares (2005) argumentó que los
instrumentos musicales coevolucionaron con los sistemas de afinación y las escalas.
Los instrumentos musicales que se tocan combinados entre sí deben afinarse de
forma que se puedan combinar, y este enfoque de la afinación da lugar a las escalas
que conforman la estructura musical. Una vez establecido un sistema de afinación,
una tradición musical también puede apoyar nuevos instrumentos que tengan
propiedades espectrales coherentes con ese sistema de afinación. Este proceso de
coevolución explica por qué las escalas del gamelán y sus timbres instrumentales,
tan singulares, rara vez se combinan con las escalas de la música occidental.
En las tradiciones que emplean principalmente instrumentos con espectros
armónicos, los sistemas de afinación que favorecen la formación de intervalos
consonantes también son compatibles con las escalas pentatónicas (seis notas) y
heptatónicas (siete notas, diatónicas). Según algunos investigadores y teóricos, esta
correspondencia explica por qué las escalas pentatónicas y heptatónicas mayores y
menores son las más utilizadas en la música occidental, india, china y árabe de los
últimos siglos (Gill & Purves, 2009; Sethares, 2005).
Gill y Purves (2009) observaron que los intervalos componentes de las escalas
más utilizadas a lo largo de la historia y en todas las culturas son los que presentan
una mayor similitud espectral global con una serie armónica. Se evaluó el grado de
similitud de los intervalos derivados de posibles escalas con una serie armónica. La
similitud se expresó como el porcentaje de frecuencias armónicas que la díada tiene
en común con una serie armónica definida por el máximo común divisor de las
frecuencias armónicas de la díada.
Por ejemplo, si el tono superior de un intervalo tiene parciales a 300, 600 y 900
Hz, y el tono inferior tiene parciales a 200, 400 y 600 Hz (una quinta perfecta),
entonces el mínimo común divisor es 100 Hz. Una serie armónica con una
frecuencia fundamental a 100 Hz y el parcial más alto a 900 Hz (coincidente con el
partial más alto de la díada) tiene nueve parciales. De esos nueve parciales, seis se
encuentran en la díada. Por lo tanto, el porcentaje de similitud entre la díada y una
serie armónica es 100(649) 5 67%.
Sólo se analizaron los intervalos que pueden producirse dentro de un rango de
una octava, y todos los intervalos que pueden formarse dentro de una escala
determinada contribuyeron por igual al valor de similitud de esa escala. Dado que el
tono es un continuo y que existe un número infinito de escalas posibles, las notas de
la escala se limitaron a 60 tonos posibles dentro de un rango de una octava,
separados entre sí por aproximadamente 20 centésimas (una quinta parte de un
semitono). A partir de estos 60 tonos posibles, se analizaron todas las escalas
posibles de cinco tonos (pentatónicas) y siete tonos (heptatónicas). El resultado
fueron 455.126 posibles escalas pentatónicas y más de 45 millones de escalas

heptatónicas.
Entre este gran número de escalas posibles, las más parecidas a la serie armónica
son las que más se han utilizado en todas las culturas y a lo largo de la historia.
Los autores propusieron que existe una preferencia biológica por las series ar-
mónicas, y que esta preferencia se refleja en las escalas que se utilizan en la música.
Sin embargo, una explicación con menos suposiciones es que las propiedades
espectrales de los instrumentos utilizados en una tradición musical influyen en las
escalas que se utilizan (Sethares, 2005). Dado que una elevada proporción de
instrumentos producen sonidos periódicos, incluida la voz humana, la mayoría de las
escalas permiten intervalos que tienen propiedades espectrales similares a la serie
armónica (y, por lo tanto, son poco disonantes). Sin embargo, tradiciones como la
música gamelán javanesa, que utilizan instrumentos inarmónicos, tienen escalas
muy diferentes. Las escalas slendro y pelog permiten intervalos que no son similares
a la serie armónica pero que son predecibles a partir de las propiedades espectrales
de los instrumentos utilizados en esa tradición.
IV. Visión general

Los cambios relativos de tono son importantes fuentes de información tanto en la
música como en el habla. A diferencia del habla, la música se centra en un conjunto
de tonos discretos. Las combinaciones simultáneas y secuenciales de estos tonos son
muy frecuentes en la música y tienen un gran significado. Los intervalos
simultáneos difieren en el nivel de consonancia y disonancia que producen. Los
intervalos consonantes, como la octava y la quinta, tienen muchos parciales en
común, y los que son únicos rara vez se encuentran dentro de una banda crítica y no
dan lugar a asperezas. Los factores sensoriales limitan las preferencias por los
intervalos musicales, pero las preferencias tempranas también pueden modificarse
mediante el aprendizaje y la enculturación (véase también Guernsey, 1928;
McLachlan, 2011).
Los intervalos secuenciales son la base de la melodía. Mientras que los intervalos
simultáneos están limitados por procesos relacionados con la consonancia, la
disonancia y la fusión, los intervalos secuenciales están sujetos a las limitaciones del
flujo auditivo. La música genera interacciones significativas entre estos tipos de
intervalos: la fusión entre intervalos simultáneos puede evitarse enfatizando la
estructura horizontal, permitiendo a los oyentes percibir voces individuales en la
música polifónica y reduciendo cualquier disonancia potencial entre tonos
concurrentes.
Los mecanismos que subyacen al procesamiento de la melodía pueden estar
implicados en ámbitos distintos de la música, como la entonación del habla. De
hecho, la capacidad de extraer el contorno puede ser una propiedad general del
sistema auditivo. Aún no está claro si la percepción de intervalos tiene un estatus
especial en el sistema auditivo. Nuestras percepciones de las distancias tonales en
los intervalos son susceptibles a una amplia gama de influencias externas, como el
timbre, el registro tonal, la dirección del cambio tonal, el contexto tonal y las señales
visuales procedentes de los intérpretes. Los intervalos también varían en la
interpretación cuando se utilizan instrumentos de afinación variable. Estos cambios
dependen tanto de las habilidades técnicas como de las intenciones expresivas de los
intérpretes. La entonación expresiva es detectable, pero no tiende a alterar la
categoría de intervalo percibida.

Las escalas permiten distinguir con precisión los tamaños de los intervalos. Los
oyentes entrenados y no entrenados son muy sensibles a las escalas e incluso pueden
cantar una escala subyacente después de
escuchar sólo unas pocas notas musicales. Sin embargo, durante la audición musical,
la comprensión de las escalas puede ser menos importante que los mecanismos de
aprendizaje estadístico. Dado que el desarrollo de las escalas depende de los timbres
de los instrumentos, no existe una escala o sistema de afinación ideal. Para la música
que enfatiza los instrumentos con espectros armónicos, las escalas tienden a permitir
la formación de intervalos como la octava, la quinta y la tercera, intervalos que
también se encuentran en los espectros armónicos de los sonidos periódicos. Para la
música que enfatiza los instrumentos con espectros inarmónicos, las escalas
permiten otros intervalos que reflejan esos espectros. No obstante, la mayoría de las
escalas a lo largo de la historia y a través de las culturas son predecibles a partir de
la serie armónica, lo que refleja la prevalencia de los espectros armónicos en los
instrumentos musicales, incluida la voz humana.
Agradecimientos
Agradezco a Richard Parncutt, Neil McLachlan y Catherine Greentree sus útiles comentarios,
sugerencias y ayuda editorial.
Referencias
Ammirante, P., & Thompson, W. F. (2010). Melodic accent as an emergent property of tonal
motion. Empirical Musicology Review, 5, 94 - 107.
Ammirante, P., & Thompson, W. F. (2012). Continuation tapping to triggered melodies: motor
resonance effects of melodic motion. Experimental Brain Research, 216(1), 51 - 60.
Ammirante, P., Thompson, W. F., & Russo, F. A. (2011). Ideomotor effects of pitch in
-
continuation tapping. Revista trimestral de Psicología Experimental, 64, 381 393.
Attneave, F., y Olson, R. K. (1971). Pitch as medium: a new approach to psychophysical scaling.
American Journal of Psychology, 84, 147 166. -
Balzano, G. J. (1977). On the bases of similarity of musical intervals [Resumen]. Journal of
the Acoustical Society of America, 61, S51.
Balzano, G. J. (1980). The group-theoretic description of 12-fold and microtonal pitch systems.
Computer Music Journal, 4(4), 66-84.
Balzano, G. J. (1982). The pitch set as a level of description for studying musical pitch
perception. En M. Clynes (Ed.), Music, mind and brain (pp. 321 - 351). Nueva York, NY:
Plenum.
Beck, J., & Shaw, W. A. (1961). La escala de tono por el método de estimación de magnitud.
American Journal of Psychology, 74, 242-251.
Bidelman, G. M., & Krishnan, A. (2009). Neural correlates of consonance, dissonance, and
the hierarchy of musical pitch in the human brainstem. The Journal of Neuroscience, 29,
-
13165 13171.
Bidelman, G. M., & Krishnan, A. (2011). Brainstem correlates of behavioral and
compositional preferences of musical harmony. Neuroreport, - 22(5), 212 216.
Bidet-Caulet, A., & Bertrand, O. (2009). Mecanismos neurofisiológicos implicados en la
- 3, 182 191.
organización perceptiva auditiva. Frontiers in Neuroscience,
Boltz, M. (1998). Tempo discrimination of musical patterns: effects due to pitch and rhythmic
structure. Perception & Psychophysics, 60, 1357-1373.
Boltz, M., y Jones, M. R. (1986). ¿La recursividad de reglas facilita la reproducción de

melodías?
Si no es así, ¿qué lo hace? Psicología cognitiva, 18,
- 389 431.
Bregman, A. S. (1990). Análisis de escenas auditivas: La organización perceptiva del sonido.
Cambridge, MA: The MIT Press.
Burns, E. M. (1974). Octave adjustment by non-western musicians [resumen]. Journal of the
Acoustical Society of America, 56, S25 - S26.
Burns, E. M. (1999). Intervalos, escalas y afinación. En D. Deutsch (Ed.), The psychology of
- New York, NY: Academic Press.
music (2ª ed., pp. 215 264).
Burns, E. M., y Ward, W. D. (1978). Categorical perception-phenomenon or epiphenome-
non: evidence from experiments in the perception of melodic musical intervals. Journal
-
of the Acoustical Society of America, 63, 456 468.
Butler, J. W., & Daston, P. G. (1968). Musical consonance as musical preference: a cross-
cultural study. Journal of General Psychology, 79, 129 - 142.
Carlyon, R. P. (2004). Cómo separa sonidos el cerebro. Trends in Cognitive Science, 10,
465- 471.
Cazden, N. (1945). Consonancia y disonancia musicales: un criterio cultural. Journal of
Aesthetics and Art Criticism, 4(1), 3 -
11.
Chang, H.-W., & Trehub, S. E. (1977). Auditory processing of relational information by young
infants. Journal of Experimental Child Psychology, 24(2), 324 331. -
Chiandetti, C., y Vallortigara, G. (2011). A los pollitos les gusta la música consonante.
Psychological Science,-22(10), 1270 1273. doi:10.1177/0956797611418244
Cohen, A. J. (1991). Tonality and perception: musical scales primed by excerpts from the Well
Tempered Clavier of J. S. Bach. Psychological Research, 28, 255 270. -
Cook, N. D. (2007). Harmony perception: harmoniousness is more than the sum of interval
consonance. Music Perception, 27, 25 - 41.
Cronin, C. (1997 1998).
- Concepts of melodic similarity in music-copyright infringement suits.
Computing in Musicology, 11, 187 209. -
Crowder, R. G. (1984). Percepción de la distinción mayor/menor: I. fundamentos históricos y
teóricos . Psychomusicology: Música, mente y cerebro, 4, 3 12. -
Cuddy, L. L., & Lunney, C. A. (1995). Expectancies generated by melodic intervals: percep-
tual judgements of continuity. Perception & Psychophysics, 57, 451 462. -
Demany, L., Pressnitzer, D., & Semal, C. (2009). Tuning properties of the auditory
frequency-shift detectors. Journal of the Acoustical Society of America, 126, 1342- 1348.
Demany, L., y Ramos, C. (2005). On the binding of successive sounds: perceiving shifts in
-
nonperceived pitches. Journal of the Acoustical Society of America, 117, 833 841.
Demany, L., Semal, C., & Pressnitzer, D. (2011). Implicit versus explicit frequency compari-
sons: two mechanisms of auditory change detection. Journal of Experimental
Psychology: Human Perception and Performance, 37, 597 - 605.
Deutsch, D. (1969). Reconocimiento musical. Psychological Review, 76, - 300 307.
Deutsch, D. (1992). Paradojas del tono musical. Scientific American, 267, 88 95. -
Deutsch, D. (1999). El procesamiento de las combinaciones de tonos. En D. Deutsch (Ed.),
The psychology of music (2ª- ed., pp. 349 411). Nueva York, NY: Academic Press.
Dobbins, P. A., y Cuddy, L. L. (1982). Octave discrimination: an experimental confirmation
of the "stretched" subjective octave. Revista de la Sociedad Acústica de América, 72,
411- 415.
Dowling, W. J. (1978). Scale and contour: two components of a theory of memory for melo-
dies. Psychological Review, 85, 341 - 354.
Dowling, W. J., y Bartlett, J. C. (1981). The importance of interval information in long-term
memory for melodies. Psychomusicology, 1, 30-49.
Dowling, W. J., y Harwood, D. L. (1986). Music cognition. Nueva York, NY: Academic Press.
Dowling, W. J., y Fujitani, D. S. (1970). Contour, interval, and pitch recognition in memory
-
for melodies. Journal of the Acoustical Society of America, 49, 524 531.
Edworthy, J. (1985). Intervalo y contorno en el procesamiento de la melodía. Percepción musical,
2,
375- 388.
Eimas, P. D., y Corbit, J. D. (1973). Adaptación selectiva de detectores de rasgos lingüísticos.
-
Eimas, P. D., Siqueland, E. R., Jusczyk, P., & Vigorito, J. (1971). Speech perception in infants.
Science, 171, 303 306. -
France`s, R. (1988). La perception de la musique (W. J. Dowling, Transl.). Hillsdale, NJ:
Erlbaum. (Obra original publicada en 1958)
Frieler, K., y Riedemann, F. (2011). ¿Es probable la creación independiente en la música pop?
Musica Scientiae, 15, 17 - 28.
Fujioka, T., Trainor, L. J., Ross, B., Kakigi, R., & Pantev, C. (2005). Codificación automática
de melodías polifónicas en músicos y no músicos. Journal of Cognitive Neuroscience,
17, 1578 1592. -
Garner, W. R. (1974). El procesamiento de la información y la estructura. Potomac, MD:
Erlbaum. Gill, K. Z., y Purves, D. (2009). A biological rationale for musical scales. PLoS
ONE, 4(12),
e8144. doi:10.1371/journal.pone.0008144
Greenwood, D. D. (1961a). Auditory masking and the critical band. Journal of the Acoustical
Greenwood, D. D. (1961b). Ancho de banda crítico y las coordenadas de frecuencia de la
membrana basilar . Journal of the Acoustical Society of America, 33, - 1344 1356.
Greenwood, D. D. (1991). Critical bandwidth and consonance in relation to cochlear
frequency-position coordinates. Revista de la Sociedad Acústica de América, 54,
64- 208.
Greenwood, D. D. (1997). The Mel Scale's disqualifying bias and a consistency of pitch-
difference equisections in 1956 with equal cochlear distances and equal frequency ratios.
Hearing Research, 103, 199 224. -
Guernsey, M. (1928). El papel de la consonancia y la disonancia en la música. American
Journal of Psychology,- 40, 173 204.
Hagerman, B., y Sundberg, J. (1980). Fundamental frequency adjustments in barbershop
singing. Journal of Research in Singing, 4, 1 -17.
Han, S., Sundararajan, J., Bowling, D. L., Lake, J. y Purves, D. (2011). Co-variación de la
tonalidad en la música y el habla de diferentes culturas. PLoS ONE, 6, e20160.
doi:10.1371/journal.pone.0020160
Hannon, E. E., y Trainor, L. J. (2007). Music acquisition: effects of enculturation and formal
training on development. Trends in Cognitive Science, 11, 466 472. -
Hartmann, W. M. (1993). Sobre el origen de la octava melódica ampliada. Journal of the
Helmholtz, H. (1954). On the sensations of tones (A. J. Ellis, Trans.). New York, NY: Dover.
(Obra original publicada en 1877)
Houtsma, A. J. M. (1968). Discrimination of frequency ratios [Resumen]. Journal of the
Acoustical Society of America, 44, 383.
Houtsma, A. J. M. (1984). Pitch salience of various complex sounds. Percepción musical, 1,
296- 307.
Huron, D. (1989). Voice denumerability in polyphonic music of homogenous timbres. Music
Perception, 6, 361-382.
Huron, D. (1991a). Consonancia tonal versus fusión tonal en sonoridades polifónicas. Music
Perception, 9, 135 -154.
Huron, D. (1991b). Reseña de "auditory scene analysis: the perceptual organization of sound"
de Albert S. Bregman. Psychology of Music, 19, 77 82. -
Huron, D. (2001). Tono y voz: una derivación de las reglas de conducción de la voz a partir de
-
principios perceptivos . Music Perception, 19, 1 64.
Huron, D. (2006). Dulce anticipación: La música y la psicología de la expectación. Boston,
MA: MIT Press. (ISBN-13:978-0-262-58278-0)
Huron, D. (2008). Preparación asíncrona de intervalos tonalmente fusionados en música
polifónica.
Revista de Musicología Empírica, 3(1), - 11 21.
Hutchinson, W., y Knopoff, L. (1978). El componente acústico de la consonancia occidental.
Interface, 7, 1 -
29.
Idson, W. L., y Massaro, D. W. (1978). A bidimensional model of pitch in the recognition of
melodies. Perception & Psychophysics, 14, 551 565. -
Ilie, G., y Thompson, W. F. (2006). A comparison of acoustic cues in music and speech for
three dimensions of affect. Music Perception, 23, 319 -329.
Ilie, G., & Thompson, W. F. (2011). Experiential and cognitive changes following seven
-
minutes exposure to music and speech. Music Perception, 28, 247 264.
Jones, M. R. (1987). Dynamic pattern structure in music: recent theory and research.
Jones, M. R., Moynihan, H., MacKenzie, N., & Puente, J. (2002). Temporal aspects of
- 13, 313 319.
stimulus- driven attending in dynamic arrays. Psychological Science,
Juslin, P. N., y Laukka, P. (2003). Comunicación de emociones en la expresión vocal y la
interpretación musical: ¿diferentes canales, mismo código? Psychological Bulletin, 129,
770- 814.
Kallman, H. (1982). Octave equivalence as measured by similarity ratings. Perception &
Psychophysics, 32, 37 - 49.
Kameoka, W., y Kuriyagawa, M. (1969a). Consonance theory part I: consonance of dyads.
-
Kameoka, W., & Kuriyagawa, M. (1969b). Consonance theory part II: Consonance of com-
plex tones and its calculation method. Journal of the Acoustical Society of America, 45,
1460- 1469.
Krumhansl, C. L. (1979). La representación psicológica del tono musical en un contexto tonal.
-
Krumhansl, C. L. (1985). Perceiving tonal structure in music. American Scientist, 73,
371- 378.
Krumhansl, C. L. (1990). Fundamentos cognitivos del tono musical. Nueva York, NY:
Oxford University Press.
Krumhansl, C. L. (1995a). Efectos del contexto musical sobre la similitud y la expectación.
Systematische Musikwissenschaft [Musicología sistemática], 3, 211-250.
Krumhansl, C. L. (1995b). Psicología musical y teoría de la música: problemas y perspectivas.
Music Theory Spectrum, 17, 53 - 90.
Krumhansl, C. L., y Kessler, E. J. (1982). Tracing the dynamic changes in perceived tonal
organization in a spatial representation of musical keys. Psychological Review, 89,
334- 368.
Lee, K. M., Skoe, E., Kraus, N., & Ashley, R. (2009). Selective subcortical enhancement of
-
musical intervals in musicians. The Journal of Neuroscience, 29, 5832 5840.
Leman, M. (2009). Embodied music cognition and mediation technology. Cambridge, MA:
MIT Press.
Liegeois-Chauvel, C., Peretz, I., Babei, M., Laguitton, V., & Chauvel, P. (1998). Contribution
of different cortical areas in the temporal lobes to music processing. Brain, 121, 1853
1867. -
Loosen, F. (1993). Intonation of solo violin performance with reference to equally tempered,
Pythagorean, and just intonations. Journal of the Acoustical Society of America (Revista
de la Sociedad Acústica de América), 93,
525- 539.
Loui, P., Wessel, D. L., & Hudson Kam, C. L. (2010). Humans rapidly learn grammatical
structure in a new musical scale. Music Perception, 27, 377 388. -
Makeig, S. (1982). Percepción afectiva versus analítica de los intervalos musicales. En M.
Clynes (Ed.), Music, mind, and brain: The neuropsychology of music (pp. - 227 250).
Nueva York, NY: Plenum.
Mashinter, K. (2006). Cálculo de la disonancia sensorial: Algunas discrepancias derivadas de
los modelos de Kameoka & Kuriyagawa, y Hutchinson & Knopoff. Empirical
Musicology Review,
- 1, 65 84.
McDermott, J., y Hauser, M. D. (2005). The origins of music: innateness, uniqueness, and
evolution. Music Perception, 23, 29 - 59.
McDermott, A. J., Keebler, M. V., Micheyl, C., & Oxenham, A. J. (2010). Musical intervals
and relative pitch: frequency resolution, not interval resolution, is special. Journal of the
Acoustical Society of America, 128, 1943 1951. -
McDermott, J. H., Lehr, A. J., & Oxenham, A. J. (2008). ¿Es el tono relativo específico del tono?
Psychological Science, 19, 1263 - 1271.
McDermott, J. H., Lehr, A. J., & Oxenham, A. J. (2010). Las diferencias individuales revelan la
base de la consonancia. Current Biology, 20, 1035 - 1041.
McDermott, J. H., y Oxenham, A. J. (2008). Music perception, pitch, and the auditory system.
Current Opinion in Neurobiology, 18, 1 12. -
McLachlan, N. M. (2011). Un modelo neurocognitivo de reconocimiento y segregación de tonos.
Journal of the Acoustical Society of America, 130, 2845 2854.-
McLachlan, N. M., & Wilson, S. W. (2010). El papel central del reconocimiento en la percepción
auditiva: un modelo neurobiológico. Psychological Review, 117, 175 196. -
Melara, R. D., y Marks, L. E. (1990). Interaction among auditory dimensions: timbre, pitch,
and loudness. Perception & Psychophysics, 48, 169 - 178.
Meyer, L. B. (1973). Explicación de la música: Ensayos y exploraciones. Berkeley, CA:
University of California Press.
Miall, D. S., y Dissanayake, E. (2003). The poetics of babytalk. Human Nature, 14, 337 - 364.
Micheyl, C., Carlyon, R. P., Gutschalk, A., Melcher, J. R., Oxenham, A. J., & Rauschecker,
J. P., et al. (2007). The role of auditory cortex in the formation of auditory streams.
Investigación sobre la audición,- 229, 116 131.
Micheyl, C., & Oxenham, A. J. (2010). Pitch, harmonicity and concurrent sound segregation:
psychoacoustical and neurophysiological findings. Hearing Research, 266, 36 - 51.
Moore, B. C. J. (2004). An introduction to the psychology of hearing (5ª ed.). London,
England: Elsevier Academic Press.
Morrongiello, B. A., Trehub, S. E., Thorpe, L. A., & Capodilupo, S. (1985). Children's
perception of melodies: the role of contour, frequency and rate of presentation. Journal
of Experimental Child Psychology, 40, 279 - 292.
Mu¨llensiefen, D., & Pendzich, M. (2009). Decisiones judiciales sobre plagio musical y el
valor predictivo de los algoritmos de similitud. Musicae Scientiae, Foro de debate, 4B,
257- 295.
Narmour, E. (1983). Beyond Schenkerism. Chicago, IL: University of Chicago Press.
Narmour, E. (1990). El análisis y la cognición de estructuras melódicas básicas. Chicago, IL:

University of Chicago Press.
Narmour, E. (1992). El análisis y la cognición de la complejidad melódica. Chicago, IL:
University of Chicago Press.
Navia, L. E. (1990). Pitágoras: An annotated biography. New York, NY: Garland.
Neuhoff, J. G., Kramer, G. y Wayand, J. (2002). El tono y el volumen interactúan en las
visualizaciones auditivas: ¿pueden perderse los datos en el mapa? Journal of
-
Experimental Psychology: Applied, 8, 17 25.
Ohgushi, K. (1983). El origen de la tonalidad y una posible explicación del fenómeno de
ampliación de la octava. Journal of the Acoustical Society of America, 73, 1694 1700.
Ohgushi, K.,
- y Hatoh, T. (1992). El tono musical de los tonos de alta frecuencia. En Y. Cazals,
L. Demany, & K. Horner (Eds.), Auditory physiology and perception. Oxford, Inglaterra:
Pergamon Press.
Oram, N., y Cuddy, L. L. (1995). Responsiveness of Western adults to pitch distributional
information in melodic sequences. Psychological Research, 57, 103 118.-
Overy, K., & Molnar-Szakacs, I. (2009). Estar juntos en el tiempo: la experiencia musical y el
sistema de neuronas espejo . Music Perception, 26, - 489 504.
Parncutt, R. (1989). La armonía: Un enfoque psicoacústico. Berlín, Alemania: Springer-
Verlag. (ISBN 3-540-51279-9; 0-387-51279-9)
Parncutt, R. (1993). Pitch properties of chords of octave-spaced tones. Contemporary Music
Review, 9, 35 -50.
Parncutt, R. (2006). Comentario sobre el artículo de Keith Mashinter "Calculating sensory
dissonance: Some discrepancies arising from the models of Kameoka & Kuriyagawa,
and Hutchinson & Knopoff". Empirical Musicology Review, 1, 201 - 203.
Partch, H. (1974). Génesis de una música (2ª ed.). Nueva York, NY: Da Capo.
Patel, A. D. (2003). Lenguaje, música y cerebro. Nature Neuroscience, 6, 674 681. - Patel, A.
D. (2008). Music, language, and the brain (Música, lenguaje y cerebro). New York, NY:
Oxford University Press.
Patel, A. D., Iversen, J. R., & Rosenberg, J. C. (2006). Comparación del ritmo y la melodía
del habla y la música: el caso del inglés británico y el francés. Journal of the Acoustical
Pearce, M. T., & Wiggins, G. A. (2006). Expectación en la melodía: la influencia del contexto
y el aprendizaje. Music Perception, 23,
- 377 405.
Peretz, I., y Coltheart, M. (2003). Modularity of music processing. Nature Neuroscience, 6,
688- 691.
Pick, A. D., Palmer, C. F., Hennessy, B. L., & Unze, M. G. (1988). Percepción infantil de
ciertas propiedades musicales: escala y contorno. Journal of Experimental Child
Psychology, 45(1), 28.
Plack, C. J. (2010). Consonancia musical: la importancia de la armonicidad. Current Biology,
20
(11), R476- R478. doi:10.1016/j.cub.2010.03.044
Plomp, R., & Levelt, W. J. M. (1965). Consonancia tonal y ancho de banda crítico. Journal of
the Acoustical Society of America, 38, 548 -560.
Prince, J. B, Schmuckler, M. A., & Thompson, W. F. (2009). Cross-modal melodic contour
similarity. Canadian Acoustics, 37, 35 -49.
Prinz, W. (1996). Percepción y planificación de la acción. Revista Europea de Psicología, 9,
129- 154.
Rakowski, A. (1976). Afinación de intervalos musicales aislados. Journal of the Acoustical
Society of America, 59, S50.
Rakowski, A. (1982). Disonancia psicoacústica en intervalos de tonos puros: disparidades y

hallazgos comunes. En C. Dahlhaus, & M. Krause (Eds.), Tiefenstruktur der Musik-(pp.
51 67). Berlín, Alemania: Technische Universita¨t Berlin.
Rakowski, A. (1985a). La percepción de los intervalos musicales por los estudiantes de
-
música. Boletín del Consejo de Investigación en Educación Musical, 85, 175 186.
Rakowski, A. (1985b). Deviations from equal temperament in tuning isolated musical inter-
vals. Archives of Acoustics, 10, 95 -
104.
Rakowski, A. (1990). Intonation variants of musical intervals in isolation and in musical con-
texts. Psychology of Music, 18, 60 -72.
Rakowski, A. (1994). Tendencia de los músicos a estirar intervalos melódicos mayores que la
octava.
Journal of the Acoustical Society of America, 96, 3301.
Repp, B. (1993). Music as motion: a synopsis of Alexander Truslit's Gestaltung und
Bewegung in der Musik. Psicología de la música, 21, 48 - 72.
Rosner, B. S. (1999). Estiramiento y compresión en la percepción de intervalos musicales.
Ross, J. (1984). Medición de intervalos melódicos en música interpretada: algunos resultados.
En J. Ross (Ed.), Simposio: Modelos computacionales de audición y visión: Resúmenes
(pp. 50-52). Tallin, Estonia: Academia de Ciencias de la RSS de Estonia.
Ross, D., Choi, J., & Purves, D. (2007). Intervalos musicales en el habla. Actas de la
Academia Nacional de Ciencias , 104, 9852 - 9857.
Russo, F., & Thompson, W. F. (2005a). The subjective size of melodic intervals over a two-
octave range. Psychonomic Bulletin and Review, 12, 1068 1075.-
Russo, F. A., & Thompson, W. F. (2005b). An interval size illusion: extra pitch influences on
the perceived size of melodic intervals. Perception & Psychophysics, 67,
559- 568.
Schellenberg, E. G. (1996). Expectancy in melody: tests of the implication-realization model.
Cognición, 58, 75-125.
Schellenberg, E. G. (1997). Simplifying the implication-realization model of melodic expec-
tancy. Music Perception, 14, 295 - 318.
Schellenberg, E. G., Adachi, M., Purdy, K. T., & McKinnon, M. C. (2002). Expectancy in
melody: tests of children and adults. Journal of Experimental Psychology: General, 131,
511 537.-
Schmuckler, M. A. (2004). Tono y estructuras de tono. En J. Neuhoff (Ed.), Ecological
psychoacoustics (pp. 271 - 315). San Diego, CA: Elsevier Science.
Schuppert, M., Munte, T. M., Wieringa, B. M., & Altenmuller, E. (2000). Receptive amusia:
evidence for cross-hemispheric neural networks underlying music processing strategies.
Brain, 123, 546 -559.
Semal, C., y Demany, L. (1990). El límite superior del tono "musical". Percepción musical, 8,
165- 175.
Sethares, W. A. (2005). Tuning, timbre, spectrum, scale (2ª ed.) Londres, Inglaterra: Springer-
Verlag. (ISBN: 1-85233-797-4)
Shepard, R. N. (1964). Circularity in judgments of relative pitch. Journal of the Acoustical
Society of America, 36, 2345 - 2353.
Shepard, R. N. (1982a). Aproximaciones geométricas a la estructura del tono musical.
Psychological Review, 89, 305 - 333.
Shepard, R. N. (1982b). Representaciones estructurales del tono musical. En D. Deutsch (Ed.),
- 390). New York, NY: Academic Press.
The psychology of music (1ª ed., pp. 343
Shepard, R. N. (2011). La búsqueda de un psicólogo cognitivo de las bases estructurales de la
cognición musical. Psychomusicology: Música, mente y cerebro, 20, 130-157.
Shove, P., y Repp, B. (1995). Music motion and performance. Theoretical and empirical
perspectives. En J. Rink (Ed.), The practice of performance: Studies in musical interpre-
tation (pp. 55 -83). Cambridge, Inglaterra: Cambridge University Press.
Siegel, J. A., & Siegel, W. (1977). Categorical perception of tonal intervals: musicians can't
-
tell sharp from flat. Perception & Psychophysics, 21, 399 407.
Southall, B. (2008). Pop goes to court. London, England: Omnibus Press. (ISBN: 978.1.84772.113.6)
Stevens, S. S., & Volkmann, J. (1940). The relation of pitch to frequency: a revised scale.
American Journal of Psychology, 53, 329 - 353.
Stevens, S. S., Volkmann, J., & Newman, E. B. (1937). A scale for the measurement of the
psychological magnitude pitch. Journal of the Acoustical Society of America, - 8, 185 190.
Streeter, L. A. (1976). Language perception of 2-month-old infants shows effects of both innate
mechanisms and experience. Nature, 259, 39 41. -
Stumpf, K. (1890). Tonpsychologie (Vol. 2). Leipzig, Alemania: Verlag S. Hirzel.
Stumpf, K. (1898). Konsonanz und dissonanz. Beitra¨ge zur Akustik Musikwissenschaft, 1,
1-108.
Sundberg, J., y Lindquist, J. (1973). Musical octaves and pitch. Journal of the Acoustical
Taylor, J. A. (1971). Perception of melodic intervals within melodic context (Tesis doctoral
inédita ). Universidad de Washington, Seattle.
Tenney, J. (1988). A history of consonance and dissonance. Nueva York, NY: Excelsior.
Terhardt, E. (1969). Oktavspreizung und Tonhohen der Schieflung bei Sinustonen. Acustica,
22, 348- 351.
Terhardt, E. (1971). Pitch shifts of harmonics, an explanation of the octave enlargement
phenomenon. Actas del 7º Congreso Internacional de Acústica, 3, 621 624. -
Terhardt, E. (1974). Tono, consonancia y armonía. Journal of the Acoustical Society of
America, 55, 1061 - 1069.
Terhardt, E. (1984). The concept of musical consonance: a link between music and psycho-
acoustics. Music Perception, 1, 276 - 295.
Terhardt, E., Stoll, G., & Seewann, M. (1982a). Tono de señales complejas según la teoría del
tono virtual: pruebas, ejemplos y predicciones. Journal of the Acoustical Society of
America, 71(3), 671 678. -
Terhardt, E., Stoll, G., & Seewann, M. (1982b). Algorithm for extraction of pitch and pitch
salience from complex tonal signals. Journal of the Acoustical Society of America, 71(3),
679-688.
Thompson, W. F. (1996). Eugene Narmour: The Analysis and Cognition of Basic Melodic
Structures (1990) y The Analysis and Cognition of Melodic Complexity (1992): A review
and empirical assessment. Journal of the American Musicological Society, 49(1), 127-145.
Thompson, W. F. (2009). Música, pensamiento y sentimiento: Comprender la psicología de
la música. Nueva York, NY: Oxford University Press. (ISBN 978-0-19-537707-1)
Thompson, W. F., Balkwill, L. L., & Vernescu, R. (2000). Expectancies generated by recent
exposure to melodic sequences. Memory & Cognition, 28, 547 555. -
Thompson, W. F., Cuddy, L. L., & Plaus, C. (1997). Expectancies generated by melodic
intervals: evaluation of principles of melodic implication in a melody-completion task.
Thompson, W. F., & Parncutt, R. (1997). Perceptual judgments of triads and dyads: assess-
ment of a psychoacoustic model. Music Perception, 14(3), 263 280. -
Thompson, W. F., Peter, V., Olsen, K. N., & Stevens, C. J. (2012). The effect of intensity on
relative pitch. Quarterly Journal of Experimental Psychology. Advance online
publication. doi:10.1080/17470218.2012.678369
Thompson, W. F., y Quinto, L. (2011). Música y emoción: Consideraciones psicológicas. En

P. Goldie, & E. Schellekens (Eds.), The aesthetic mind: Filosofía y psicología (pp. 357
-
375). Oxford, England: Oxford University Press.
Thompson, W. F., y Russo, F. A. (2007). Facing the music. Psychological Science, 18, 756-757.
Thompson, W. F., Russo, F. A., & Livingstone, S. L. (2010). Facial expressions of singers
influence perceived pitch relations. Psychonomic Bulletin and Review, 17, 317 - 322.
Thompson, W. F., Russo, F. A., & Quinto, L. (2008). Audio-visual integration of emotional
cues in song. Cognition & Emotion, 22(8), 1457 - 1470.
Thompson, W. F., Schellenberg, E. G., & Husain, G. (2004). Decoding speech prosody: do
music lessons help? Emotion, 4, 46 - 64.
Thompson, W. F., & Stainton, M. (1998). Expectancy in Bohemian folk song melodies: eval-
uation of implicative principles for implicative and closural intervals. Music Perception,
15, 231- 252.
Trainor, L. J., Tsang, C. D., & Cheung, V. H. W. (2002). Preference for sensory consonance
-
in 2- and 4-month old infants. Music Perception, 20, 187 194.
Trehub, S. E., Bull, D. y Thorpe, L. A. (1984). Infants' perception of melodies: the role of
melodic contour. Child Development, 55(3), 821 - 830.
Van Noorden, L. (1982). Two channel pitch perception. En M. Clynes (Ed.), Music, mind,
and brain: The neuropsychology of music. New York, NY: Plenum Press.
Vassilakis, P. (2005). Rugosidad auditiva como medida de expresión musical. Selected
Reports in Ethnomusicology, 12, 119 - 144.
Von Be'ke'sy, G. (1949). Sobre la curva de resonancia y el período de decaimiento en varios
puntos de
la partición coclear. Journal of the Acoustic Society of America, 21, 245 254.
-
von Hippel, P., y Huron, D. (2000). ¿Por qué los saltos preceden a la inversión? The effect of
-
tessitura on melodic structure. Music Perception, 18(1), 59 85.
Vos, J. (1986). Índices de pureza de quintas temperadas y terceras mayores. Music Perception,
- 3,
221 258.
Vos, P. G., y Troost, J. M. (1989). Ascending and descending melodic intervals: statistical
-
findings and their perceptual relevance. Music Perception, 6, 383 396.
Vurma, A., y Ross, J. (2006). Producción y percepción de intervalos musicales. Music Perception,
23, 331 344. -
Ward, W. D. (1954). Subjective musical pitch. Journal of the Acoustical Society of America,
26, 369- 380.
Wright, J. K. (1986). Percepción auditiva de objetos: Contrapunto en un nuevo contexto (Tesis de
máster).
Montreal, Canadá: Universidad McGill.
Wright, J. K., y Bregman, A. S. (1987). Auditory stream segregation and the control of
dissonance in polyphonic music. Contemporary Music Review, 2, 63 92. -
Young, R. W. (1952). Inarmonicity of plain wire piano strings. Journal of the Acoustical
Zarate, J. M., Ritson, C. R., & Poeppel, D. (2012). Pitch-interval discrimination and musical
expertise: ¿Es el semitono un límite perceptual? Journal of the Acoustical Society of
America, 132, 984 - 993.
Zatorre, R. J. (1983). Category-boundary effects and speeded sorting with a harmonic
musical-interval continuum: evidence for dual processing. Journal of Experimental
Psychology: Human Perception and Performance, 9, 739 - 752.
Zatorre, R. J., Chen, J. L., & Penhune, V. B. (2007). When the brain plays music: auditory-
motor interactions in music perception and production. Nature Reviews Neuroscience, 8,
-
547 558.
Zatorre, R. J. y Halpern, A. R. (1979). Identificación, discriminación y adaptación selectiva
de intervalos musicales simultáneos. Perception & Psychophysics, 26, 384-395.
5 Paso absoluto
Diana Deutsch
Departamento de Psicología, Universidad de California, San Diego, La Jolla,
California
I. Introducción
En el verano de 1763, la familia Mozart se embarcó en la famosa gira por Europa
que consolidó la reputación de Wolfgang, de 7 años, como prodigio musical. Justo
antes de partir, apareció una carta anónima en el Augsburgischer Intelligenz-Zettel
en la que se describían las extraordinarias habilidades del joven compositor. La carta
incluía el siguiente pasaje:
Además, vi y oí cómo, cuando le hacían escuchar en otra habitación, le daban

notas, ahora agudas, ahora graves, no sólo en el pianoforte, sino también en
cualquier otro instrumento imaginable, y él daba con la letra del nombre de la nota
en un instante. De hecho, cuando oía sonar una campana, un reloj o incluso un
reloj de bolsillo, era capaz en el mismo momento de nombrar la nota de la
campana o del reloj.
Este pasaje proporciona una buena caracterización de la afinación absoluta (PA) -

también conocida como afinación perfecta-, la capacidad de nombrar o producir una
nota de una afinación determinada en ausencia de una nota de referencia. Los
poseedores del PA nombran las notas musicales tan fácil y rápidamente como la
mayoría de la gente nombra los colores, y generalmente lo hacen sin un
entrenamiento específico. Esta capacidad es muy poco frecuente en Norteamérica y
Europa, y su prevalencia en la población general se estima en menos de uno de cada
10.000 (Bachem, 1955; Profita y Bidder, 1988; Takeuchi y Hulse, 1993). Debido a
su rareza y a que se sabe que un número considerable de compositores e intérpretes
de talla mundial la poseen, la PA se considera a menudo una capacidad
desconcertante que sólo se da en individuos excepcionalmente dotados. Sin
embargo, su génesis y características no están claras, y recientemente han sido
objeto de numerosas investigaciones.
En contraste con la rareza del PA, la capacidad de nombrar relaciones entre notas
es muy común entre los músicos. La mayoría de los músicos entrenados no tienen
dificultad en nombrar el patrón ascendente D-Fx como una tercera mayor, E-B
como una quinta perfecta, y así sucesivamente. Además, cuando se les da el nombre
de una de estas notas, por lo general no tienen difi-
La mayoría de los músicos, al menos en las culturas occidentales, son incapaces de
nombrar una nota cuando se les presenta de forma aislada. Sin embargo, la mayoría
de los músicos, al menos en las culturas occidentales, son incapaces de nombrar una
nota cuando se presenta de forma aislada.

142 Diana Deutsch
La rareza de AP nos plantea un enigma. Podemos tomar como analogía la

denominación de los colores: Cuando etiquetamos un color como rojo, no lo
hacemos comparándolo con otro color (como el azul) y determinando la relación
entre ambos; el proceso de etiquetado es directo e inmediato. También hay que tener
en cuenta que para nombrar una nota hay que elegir entre sólo 12 posibilidades: las
12 notas de la octava (Figura 1). Esta tarea debería ser trivial para los músicos, que
suelen pasar miles de horas leyendo partituras, tocando las notas que leen y
escuchando las notas que tocan. Además, la mayoría de la gente no tiene dificultades
para nombrar melodías conocidas, aunque esta tarea es considerablemente más
compleja que nombrar una sola nota. Parece, por tanto, que la falta de PA es análoga
a la anomia cromática (Geschwind y Fusillo, 1966), en la que los pacientes pueden
reconocer y discriminar colores, pero no pueden asociarlos con etiquetas verbales
(Deutsch, 1987, 1992; Deutsch, Kuyper y Fisher, 1987).
II. PA implícito
Siguiendo este razonamiento, no es sorprendente que la mayoría de las personas
posean una forma implícita de PA, aunque sean incapaces de nombrar las notas que
están juzgando. Esto se ha demostrado de varias maneras. Una de ellas es la
paradoja del tritono, una ilusión musical en la que las personas juzgan la altura
relativa de los tonos en función de su posición en el círculo de la clase tonal, aunque
no sean conscientes de ello. Además, las personas que no poseen PA a menudo
pueden juzgar si una pieza musical conocida se está tocando en la tonalidad correcta,
y sus reproducciones de melodías conocidas también pueden reflejar PA implícitos.
A. La paradoja del tritono

La paradoja del tritono fue descrita por primera vez por Deutsch (1986). El patrón
básico que produce esta ilusión consiste en dos tonos presentados secuencialmente
que están relacionados por una media octava (o tritono). Se emplean tonos Shepard,
de modo que sus nombres de nota (clases de tono) están claramente definidos, pero
son ambiguos en cuanto a la octava en la que se encuentran. Por ejemplo, un tono
puede ser claramente un La, pero en principio podría ser
C
Figura 1 El círculo de la clase de paso.
B C
A D
A D
G E
G F
F
5. Paso absoluto 143
A de concierto, o el A una octava por encima, o el A una octava por debajo. Cuando
se toca uno de estos pares de tonos (por ejemplo, Do seguido de Fax), algunos
oyentes escuchan un patrón ascendente, mientras que otros escuchan uno
descendente. Sin embargo, cuando se toca un par de tonos diferente (por ejemplo,
Sol seguido de Dox), el primer grupo de oyentes puede oír un patrón descendente y
el segundo grupo uno ascendente. Es importante destacar que, para un oyente
determinado, las clases de tonos suelen ordenarse con respecto a la altura de forma
sistemática: Los tonos de una región del círculo de clases tonales se oyen más altos
y los de la región opuesta, más bajos (Figura 2). Esto ocurre incluso
cuando las envolventes espectrales de los tonos se promedian en diferentes
posiciones a lo largo del continuo de frecuencias, controlando así los efectos
espectrales (Deutsch, 1987, 1992, 1994; Deutsch et al., 1987; Deutsch, Henthorn y
Dolson, 2004b; Giangrande, 1998; Repp y Thompson, 2010). Por tanto, al
experimentar la paradoja del tritono, los oyentes deben referirse a las clases de tono
de los tonos al juzgar sus alturas relativas, invocando así una forma implícita de PA.
La misma conclusión se deriva de las percepciones de los oyentes de ilusiones
relacionadas que implican patrones de dos partes; por ejemplo, la paradoja melódica
(Deutsch, Moore y Dolson, 1986) y la paradoja del semitono (Deutsch, 1988). Estas
paradojas de la percepción del tono se describen en los capítulos 6 y 7.
B. Identificación y producción de tonos

Como un reflejo más del PA implícito, los músicos que no poseen PA a veces
comentan que pueden identificar la tonalidad en la que se toca una pieza (Sergeant,
1969; Spender, 1980). Para explorar esta afirmación, Terhardt y Ward (1982) y
Terhardt y Seewann (1983) reclutaron a sujetos musicalmente alfabetizados, la
mayoría de los cuales no eran poseedores de PA, y les presentaron extractos de
preludios de Bach que
100 100
Patrón oído descendente (%)
80 80
60 60
40 40
20 20
0 0
CCDDEFFGGAAB CCDDEFFGGAAB
Clase de tono del primer tono
Figura 2 La paradoja del tritono percibida por dos sujetos. Los gráficos muestran los
porcentajes de juicios de que un par de tonos formaba un patrón descendente, en función de la
clase de tono del primer tono del par. Los juicios de ambos sujetos mostraron relaciones
ordenadas con las posiciones de los tonos a lo largo del círculo de la clase de tono, mostrando
144 Diana Deutsch
que estaban empleando el tono absoluto implícito al hacer estos juicios.

estaban en la tonalidad original o transpuestas en distintas cantidades. Los sujetos

fueron capaces de juzgar en gran medida si los fragmentos estaban o no en la
tonalidad original. En concreto, Terhardt y Seewann (1983) descubrieron que la gran
mayoría de los sujetos lograba un rendimiento de identificación significativo en
general, y que casi la mitad de ellos era capaz de distinguir la tonalidad nominal de
las transposiciones de un semitono. En otro estudio, Vitouch y Gaugusch (2000)
presentaron a sujetos no poseedores de PA el primer preludio en Do mayor de Bach
en varios días sucesivos. En cada ocasión, la pieza se presentaba en la tonalidad
correcta o transpuesta en un semitono, y los sujetos eran capaces de determinar más
allá del azar si estaban escuchando la versión original o la transpuesta (véase
también Gussmack, Vitouch y Gula, 2006).
Schellenberg y Trehub (2003) descubrieron un efecto aún más general al
presentar a estudiantes universitarios no seleccionados canciones conocidas de
programas de televisión, y observaron que los estudiantes podían discriminar por
encima del azar si una canción había sido transpuesta uno o dos semitonos (véase
también Trehub, Schellenberg y Nakata, 2008).
Smith y Schmuckler (2008) llevaron a cabo otro experimento para evaluar la
prevalencia del PA implícito en la población general. El tono de llamada telefónica
en Norteamérica consiste en dos tonos a 350 y 440 Hz; ha sido omnipresente
durante décadas, por lo que la mayoría de los norteamericanos han estado expuestos
al sonido en miles de ocasiones. Los no poseedores de AP escucharon el tono de
llamada y varias versiones con el tono desplazado, y clasificaron cada ejemplo como
"normal", "más alto de lo normal" o "más bajo de lo normal". Aunque los juicios de
los sujetos reflejaban una sensibilidad más amplia que la que existe entre los
poseedores de PA, nunca pudieron juzgar como "más alto de lo normal" un tono que
había sido transpuesto tres semitonos.
El PA implícito se produce incluso en etapas muy tempranas de la vida, antes de
que se adquiera el habla. Así lo demostraron Saffran y Griepentrog (2001), quienes
descubrieron que los bebés de 8 a 9 meses eran más propensos a seguir patrones de
tonos absolutos que relativos al realizar una tarea de aprendizaje estadístico.
Las tareas de producción han confirmado la presencia de PA implícita en la
población general. Halpern (1989) pidió a sujetos no seleccionados por su formación
musical que tararearan o cantaran las primeras notas de melodías conocidas en dos
días distintos, y descubrió que la variabilidad intra-sujeto de los rangos de tono de
sus interpretaciones era muy baja. En otro estudio, Levitin (1994) hizo que los
sujetos eligieran un CD que contuviera una canción popular con la que estuvieran
familiarizados y que luego reprodujeran la canción tarareando, silbando o cantando.
Las canciones habían sido interpretadas por una sola banda musical, por lo que
presumiblemente se habían escuchado en una sola tonalidad. Al comparar los tonos
de las primeras notas producidas por los sujetos con los equivalentes en el CD,
Levitin descubrió que, cuando se les probaba con dos canciones diferentes, el 44%
de los sujetos se situaba a menos de dos semitonos del tono correcto para ambas
canciones. En otro estudio, Bergeson y Trehub (2002) hicieron que las madres
cantaran la misma canción a sus hijos en dos sesiones separadas por al menos una
semana y, según las estimaciones de los jueces, los rangos de tono en las distintas
sesiones se desviaban por término medio menos de un semitono.
146 Diana Deutsch
III. Génesis de AP
Dado que el PA es poco frecuente en el mundo occidental, ha habido muchas
especulaciones sobre su génesis. Se dividen en tres categorías generales: en primer
lugar, que la capacidad puede adquirirse en cualquier momento mediante la práctica
intensiva; en segundo lugar, que se trata de un rasgo inherente que se manifiesta en
cuanto surge la oportunidad; y en tercer lugar, que la mayoría de las personas tienen
el potencial de adquirir PA, pero para que este potencial se materialice, necesitan
estar expuestas a tonos en asociación con sus nombres de nota durante un periodo
crítico al principio de la vida. Los tres puntos de vista han sido defendidos
enérgicamente por varios investigadores.
A. La hipótesis de la práctica
Se han hecho varios intentos de adquirir PA en la edad adulta mediante la práctica
extensiva y, en general, han producido resultados negativos o poco convincentes
(Cuddy, 1968; Gough, 1922; Heller & Auerbach, 1972; Meyer, 1899; Mull, 1925;
Takeuchi & Hulse, 1993; Ward, 1999; Wedell, 1934). Un hallazgo inusualmente
positivo fue descrito por Brady (1970), un músico que había comenzado a estudiar
piano a los 7 años y que se examinó a sí mismo en un estudio de un solo caso.
Practicó con cintas de entrenamiento durante unas 60 horas y consiguió una tasa de
aciertos del 65% (97% teniendo en cuenta los errores de semitono). Aunque
impresionante, el hallazgo único de Brady subestima la extrema dificultad de
adquirir el PA en la edad adulta, en contraste con su adquisición sin esfuerzo, y a
menudo inconsciente, en la primera infancia.
B. La hipótesis genética
La opinión de que el PA es un rasgo hereditario ha tenido encendidos defensores
durante muchas décadas (Athos et al., 2007; Bachem, 1940, 1955; Baharloo,
Johnston, Service, Gitschier, & Freimer, 1998; Baharloo, Service, Risch, Gitschier,
& Freimer, 2000; Gregersen, Kowalsky, Kohn, & Marvin, 1999, 2001; Profita &
Bidder, 1988; Revesz, 1953; Theusch, Basu, & Gitschier, 2009). Un argumento a
favor de este punto de vista es que la capacidad suele aparecer a una edad muy
temprana, incluso cuando el niño ha tenido poca o ninguna formación musical
formal. Los poseedores de la PA suelen comentar que han tenido esta habilidad
desde que tienen uso de razón (Carpenter, 1951; Corliss, 1973; Takeuchi, 1989). A
título personal, aún recuerdo mi asombro al descubrir, a la edad de 4 años, que otras
personas (incluso adultos) eran incapaces de nombrar las notas que se estaban
tocando en el piano sin mirar qué tecla se estaba tocando. Es de suponer que ya
había recibido alguna formación musical, pero era mínima.
Otro argumento a favor de la visión genética es que el PA tiende a darse en
familias (Bachem, 1940, 1955; Baharloo et al., 1998, 2000; Gregersen et al., 1999,
2001; Profita & Bidder, 1988; Theusch et al., 2009). Por ejemplo, en una encuesta
realizada a 600 músicos, Baharloo et al. (1998) descubrieron que los poseedores de
PA autodeclarados tenían cuatro veces más probabilidades que los no poseedores de
informar de que un miembro de la familia poseía PA.

148 Diana Deutsch
Sin embargo, el argumento de la agregación familiar no es sólido. La probabilidad

de adquirir PA depende estrechamente de la edad temprana de la formación musical
(Sección III,C), y es probable que los padres que proporcionan a un hijo lecciones
tempranas de música proporcionen también lecciones tempranas a sus otros hijos.
De hecho, Baharloo et al. (2000) han demostrado que la propia formación musical
temprana es familiar. Además, es de esperar que los bebés que nacen en familias en
las que hay poseedores de PA escuchen con frecuencia notas musicales junto con
sus nombres a una edad temprana, y así tengan la oportunidad de adquirir tales
asociaciones a una edad muy temprana, durante el periodo en el que aprenden a
nombrar los valores de otros atributos, como el color.
Otro argumento a favor de una contribución genética (o al menos innata) al PA se
refiere a sus fundamentos neurológicos. Como se describe en la Sección VI, existen
pruebas fehacientes de que los poseedores de PA tienen un circuito cerebral
estructurado de manera única (Bermúdez y Zatorre, 2009b; Keenan, Thangaraj,
Halpern y Schlaug, 2001; Loui, Li, Hohmann y Schlaug, 2011; Oechslin, Meyer y
Ja¨ncke, 2010; Ohnishi et al, 2001; Schlaug, Ja¨ncke, Huang, & Steinmetz, 1995;
Schulze, Gaab, & Schlaug, 2009; Wilson, Lusher, Wan, Dudgeon, & Reutens, 2009;
Zatorre, Perry, Beckett, Westbury, & Evans, 1998), aunque el papel de la
neuroplasticidad en el desarrollo de este circuito aún está por resolver.
Otros argumentos a favor de una contribución genética al PA se han centrado en
su prevalencia en diversos grupos étnicos. Gregersen et al. (1999, 2001), en una
encuesta realizada a estudiantes de programas de música de educación superior en
Estados Unidos, descubrieron que un alto porcentaje de estudiantes de Asia Oriental
afirmaban poseer PA. Sin embargo, Henthorn y Deutsch (2007), en un nuevo
análisis de los datos de Gregersen et al. (2001), descubrieron que, teniendo en cuenta
sólo a los encuestados con una infancia temprana en Norteamérica, la prevalencia
del PA no difería entre los encuestados de Asia Oriental y los caucásicos. Sin
embargo, esta prevalencia era significativamente mayor entre los encuestados que
habían pasado su primera infancia en Asia Oriental y no en Norteamérica. Por lo
tanto, un factor o factores ambientales deben haber sido determinantes en los
resultados de Gregersen et al. Como se argumenta más adelante (Sección IV,D),
existen pruebas sólidas de que el tipo de lengua hablada por el oyente influye en
gran medida en la predisposición a adquirir PA.
Otras pruebas con respecto a la hipótesis genética se refieren a las distribuciones
de las puntuaciones de PA que se han encontrado en diversos estudios. Athos et al.
(2007) administraron una prueba de PA basada en Internet y obtuvieron respuestas
de más de 2.000 participantes autoseleccionados. Las puntuaciones no se distribuían
de forma continua y parecían ser bimodales, por lo que los autores concluyeron que
los poseedores de PA constituyen una población genéticamente distinta. Sin
embargo, el 44% de los participantes en este estudio se calificaron como poseedores
de PA, un porcentaje muy superior al de la población general, por lo que la
autoselección y otros problemas relacionados con la recopilación de datos en
Internet sin restricciones hacen que estos resultados sean difíciles de interpretar.
Evitando el problema de las pruebas basadas en la Web, Bermúdez y Zatorre
(2009a) buscaron sujetos musicalmente entrenados con y sin PA y los sometieron a
pruebas en el laboratorio. Cuando se comprobó formalmente si tenían PA, algunos
sujetos obtuvieron un nivel de precisión muy alto, mientras que otros obtuvieron
resultados casuales. Sin embargo, el rendimiento de un número significativo de

sujetos se situó entre estos dos extremos, lo que demuestra una vez más que el PA
no es un rasgo de todo o nada. Sin embargo, como los sujetos
150 Diana Deutsch
fueron autoseleccionados, la distribución de las puntuaciones halladas en este

estudio también es equívoca en su interpretación.
Para evitar el problema de la autoselección, Deutsch, Dooley, Henthorn y Head
(2009) llevaron a cabo un estudio de prueba directa para evaluar la prevalencia del
PA entre los alumnos de primer y segundo curso de la Escuela de Música Thornton
de la Universidad del Sur de California. Los alumnos fueron examinados en clase y
no fueron autoseleccionados. La figura 3 muestra la distribución de las puntuaciones
entre los 176 sujetos que eran caucásicos no hablantes de lengua materna, junto con
la distribución hipotética de las puntuaciones basada en el azar. Como puede
observarse, las puntuaciones de la mayoría de los sujetos eran coherentes con el
azar, con una distribución ligeramente elevada en el extremo superior; sin embargo,
las puntuaciones de una proporción significativa de sujetos estaban por encima del
azar pero por debajo de los criterios generalmente aceptados para el PA. Otros
estudios han confirmado que una proporción significativa de la población está en el
límite de poseer PA (Athos et al., 2007; Baharloo et al., 1998; Deutsch, Le, Shen, &
Li, 2011; Dooley & Deutsch, 2010; Itoh, Suwazono, Arao, Miyazaki, & Nakada,
2005; Loui et al., 2011; Miyazaki, 1990; Oechslin et al., 2010; Rakowski &
Morawska-Bungeler, 1987; Wilson et al., 2009).
Volviendo a la cuestión genética, dado que la mayoría de los rasgos humanos
complejos presentan una distribución continua en forma de campana, en la que los
individuos excepcionales ocupan la cola de la curva (Drayna, 2007), las
distribuciones de las puntuaciones encontradas en los tests de PA son realmente
inusuales, aunque no estrictamente bimodales. Esto podría reflejar una contribución
genética a la predisposición a adquirir PA. Sin embargo, cabe esperar que otros
factores, que se describirán más adelante, también sesguen dichas distribuciones. En
última instancia, la demostración de una contribución genética a la PA está
pendiente del descubrimiento de un gen o una proteína.
100
Puntuaciones AP en idiomas
no hablados Chance
80
Porcentaje de sujetos
60
40
20
10 20 30 40 50 60 70 80 90 100
Porcentaje correcto
Figura 3 Distribución del tono absoluto en una población de hablantes de lenguas no

monótonas. La línea continua muestra la distribución de las puntuaciones obtenidas en una
prueba de tono absoluto entre estudiantes que no hablan ninguna lengua en un estudio a gran
escala realizado en un conservatorio de música estadounidense. La línea discontinua muestra
la distribución hipotética de las puntuaciones esperadas a partir del azar. Adaptado de

Deutsch, Dooley, et al. (2009).
152 Diana Deutsch
genes que contribuyen a este rasgo. Como paso en esta dirección, Theusch et al.
(2009) han aportado pruebas preliminares de un vínculo en todo el genoma en el
cromosoma 8 en familias con ascendencia europea que incluyen poseedores de AP.
C. La hipótesis del periodo crítico

Un gran número de estudios han señalado una asociación entre la posesión de PA y
la edad temprana de inicio de la formación musical (Bachem, 1940; Baharloo et al.,
1998, 2000; Deutsch, Henthorn, Marvin, & Xu, 2006; Deutsch, Dooley, et al., 2009;
Deutsch et al., 2011; Dooley & Deutsch, 2010, 2011; Gregersen et al., 1999; Lee &
Lee, 2010; Levitin & Rogers, 2005; Miyazaki, 1988; Miyazaki & Ogawa, 2006;
Profita &
Bidder, 1988; Sergeant, 1969; Takeuchi, 1989; Takeuchi & Hulse, 1993; van
Krevelen, 1951; Vitouch, 2003; Ward, 1999). Aunque muchos de estos estudios se
han realizado con un número reducido de sujetos, también se han llevado a cabo
estudios a gran escala sobre esta cuestión. Algunos de ellos han sido encuestas, en
las que los encuestados declaraban mediante autoinforme si poseían o no PA. Por
ejemplo, Baharloo et al. (1998), en una encuesta realizada a 600 músicos,
descubrieron que el 40% de los que habían comenzado su formación musical a la
edad de 4 años declaraban
- tener PA; esto contrastaba con el 27% de - los que habían
comenzado su formación a la edad de -4 a 6 años, el 8% de los que habían
comenzado su formación a la edad de 6 a 9 años y el 4% de los que habían
comenzado su formación a la edad de 9 a 12 años. (Como advertencia, debemos
señalar que aunque la correlación con la edad de inicio de la formación musical
encontrada aquí es impresionante, es probable que los porcentajes absolutos de
posesión de PA derivados de autoinformes de encuestados autoseleccionados sean
exagerados). Además, Gregersen et al. (1999), en una encuesta realizada a más de
2000 estudiantes de música, observaron que los poseedores de PA autodeclarados
habían comenzado su formación musical a una edad media de 5,4 años.
La dependencia de la edad de inicio de la formación musical indicada en estas
encuestas se ha confirmado en estudios de prueba directa a gran escala. Deutsch et
al. (2006) administraron una prueba de AP a 88 estudiantes del Conservatorio Central
de Música de Pekín y a 115 estudiantes de la Escuela de Música Eastman, utilizando
una puntuación de al menos el 85% de aciertos como criterio de posesión de AP.
Los alumnos fueron examinados en clase, sin autoselección dentro de la población
objetivo. Como se verá más adelante, hubo un gran efecto de la lengua, ya que el
grupo de Pekín estaba formado por hablantes de mandarín y el de Eastman por
hablantes de lenguas no monótonas como el inglés. Sin embargo, también hubo un
efecto sistemático de la edad de inicio de la formación musical. - En el caso de los
hablantes de lenguas no tonales, el 14% de los que habían empezado
- a estudiar a los
4-5 años cumplía el criterio, mientras que el 6% de los que habían empezado a
estudiar a los 6-7 años lo hacía, y ninguno de los que habían-empezado a estudiar a
los 8 años o más lo hacía. En el caso de los hablantes de lenguaje tonal,
- el 60% de
los que habían empezado el entrenamiento - musical a los 4 - 5 a ñ o s cumplían
el criterio, frente al 55% de los que habían empezado a los 6 - 7 años y el 42% de
los que habían empezado a los 8-9 años. Otros estudios de prueba directa a gran
escala han confirmado la correlación entre la edad de inicio de la formación y la
posesión de PA (Deutsch, Dooley, et al., 2009; Deutsch et al., 2011; Lee & Lee,
2010), y se discuten en la Sección IV,D.
Otros estudios que señalan la importancia de la exposición temprana a las notas
musicales y sus nombres han implicado la realización de pruebas a niños. Russo,
Windell y Cuddy (2003)
154 Diana Deutsch
entrenaron a niños y adultos para identificar una sola nota de entre un conjunto de
siete notas posibles, y descubrieron que a la tercera semana de entrenamiento, la
precisión de identificación
- de los niños de 5 a 6 años superaba la de un grupo de
adultos. En otro estudio, Miyazaki y Ogawa (2006) examinaron a niños de la
Escuela de Música Yamaha de Japón y descubrieron que sus puntuaciones en la
identificación de tonos aumentaban notablemente de los 4 a los 7 años.
D. Influencia del tipo de formación musical

Se suele suponer que los métodos de entrenamiento musical de "solfeo fijo"
favorecen más el desarrollo del PA que los métodos de "solfeo móvil". En los
sistemas de do fijo, los símbolos de solfeo (do, re, mi, etc.) definen tonos reales,
equivalentes a do, dox,
D, etc. En cambio, en los sistemas de do móvil, los símbolos de solfe`ge son
se utilizan para definir las funciones de los tonos en relación con una tónica,
mientras que los nombres de las letras (Do, Dox, Re, etc.) se utilizan para definir los
tonos reales. Uno de los argumentos que se han esgrimido a favor de los métodos de
método fijo es que el PA está más extendido en algunos países en los que la
enseñanza del método fijo es bastante común, como Japón, mientras que el PA es
poco común en algunos países en los que la enseñanza del método fijo es bastante
común, como Japón.
otros países, como Inglaterra, en los que es más común el entrenamiento con el
método del "moveable-do". Sin embargo, en otros países en los que también es
habitual el entrenamiento con el método del "do fijo", como Francia, la prevalencia
del PA vuelve a ser escasa, por lo que el argumento a favor del entrenamiento con el
método del "do fijo" basado en la prevalencia del PA en unos pocos países
seleccionados es problemático.
Gregersen et al. (2001) observaron que una elevada proporción de asiáticos
orientales declaraban tener PA, pero reconocieron que el entrenamiento en el
método del do fijo por sí solo no podía explicar sus resultados. Sin embargo,
observaron que era más probable que los poseedores de PA hubieran recibido
entrenamiento de do fijo que de do móvil. Lamentablemente, los autores no tuvieron
en cuenta la edad de inicio de la formación musical en su análisis, por lo que sus
resultados podrían reflejar una edad más temprana de inicio de las clases de música
entre los que habían recibido formación en el método de ejecución fija.
Peng, Deutsch, Henthorn, Su y Wang (en prensa) realizaron un estudio de prueba
directa a gran escala con 283 estudiantes de primer y segundo curso de los
departamentos de música de tres universidades del sur de China: Universidad
Normal del Sur de China, Universidad de Estudios Extranjeros de Guangdong y
Universidad Tecnológica del Sur de China. Una vez más, los alumnos fueron
examinados en clase y los sujetos no fueron autoseleccionados. Se les administró la
misma prueba AP que en Deutsch et al. (2006), y se les pidió que escribieran el
nombre de cada nota cuando la oyeran. Según su preferencia, podían responder por
el nombre de la letra (C, Cx, D, etc.), lo que indicaba una formación de movimiento,
o por
nombre de la solfe`ge (do, do-sharp, re, etc.) que indica la formación fija-do. La
Se obtuvo un efecto de la edad de inicio y, curiosamente, también se obtuvo un gran
efecto a favor del entrenamiento de moveable-do. En el caso de los sujetos con una
edad de inicio de 9 años o menos, el porcentaje de aciertos en la prueba de AP entre
los sujetos de moveable-do era casi el doble que entre los sujetos de fixed-do. Otro
dato interesante es que un número mucho mayor de sujetos respondieron utilizando
nombres de letras que nombres de solfe`ge en el caso del método fijo, lo que indica
que los métodos de entrenamiento de moveable-do están muy extendidos en China,
donde la prevalencia del PA también es alta.
156 Diana Deutsch
Un punto más convincente con respecto al tipo de formación musical es que los
niños a los que primero se les enseña a tocar en instrumentos transpositores e s t á n
en clara desventaja para la adquisición del PA. Por ejemplo, un Do anotado en un Bw
clarinete se toca como la nota Bw en lugar de C, y un C anotado en una trompa F es
tocada como la nota Fa. Tales discrepancias entre las notas vistas y las sonadas
se esperaría que desalentara la adquisición de PA. Además, en el estudio de Peng et
al. (en prensa) que acabamos de describir, los sujetos que habían sido entrenados
con instrumentos musicales de estilo occidental superaron sustancialmente a los que
habían sido entrenados con música folclórica o vocal.
IV. AP y procesamiento del habla

Varias líneas de evidencia indican la existencia de un vínculo entre el PA y el
procesamiento del habla. En primer lugar, al experimentar la paradoja del tritono, las
percepciones varían en función del idioma o dialecto al que ha estado expuesto el
oyente, sobre todo en la infancia. En segundo lugar, los periodos críticos para la
adquisición del PA y del habla tienen calendarios notablemente similares. En tercer
lugar, las pruebas neuroanatómicas apuntan a la existencia de estructuras cerebrales
comunes que subyacen al procesamiento del PA y del habla. En cuarto lugar, la
prevalencia del PA es muy alta entre los hablantes de lenguas tonales, en las que el
tono interviene de forma decisiva en la determinación del significado léxico.
A. Pruebas de la paradoja de Tritón

Una de las pruebas que apuntan a una relación entre el PA y el habla es la paradoja
del tritono (Deutsch, 1986, 1991, 1992; Deutsch, Henthorn y Dolson, 2004b; Deutsch
et al., 1987; Deutsch, North y Ray, 1990). Como se ha descrito anteriormente, los
juicios de este patrón muestran relaciones sistemáticas con las posiciones de los
tonos a lo largo del círculo de la clase de tono, aunque los oyentes no puedan
nombrar los tonos que están juzgando. Otras investigaciones han demostrado que la
forma de esta relación varía con el idioma o dialecto al que ha estado expuesto el
oyente (Chalikia y Leinfelt, 2000; Chalikia, Norberg y Paterakis, 2000; Chalikia y
Vaid, 1999; Dawe, Platt y Welsh, 1998; Deutsch, 1991, 1994; Deutsch et al, 2004b;
Giangrande, 1998; Ragozzine y Deutsch, 1994), y también se correlaciona con el
rango de tonos de la voz del oyente (Deutsch et al., 1990, 2004b), que a su vez varía
en función del idioma o dialecto del hablante (Dolson, 1994; Deutsch et al., 2004b;
Deutsch, Le, Shen y Henthorn, 2009). La paradoja del tritono, por tanto, proporciona
un ejemplo de PA implícito que está estrechamente relacionado con el
procesamiento fonológico del habla.
B. Periodos críticos para AP y Speech

El etiquetado verbal de los tonos implica necesariamente el lenguaje, y esto lleva a
la conjetura de que el periodo crítico para la adquisición del PA podría estar
vinculado al de la adquisición del habla. Lennenberg (1967) señaló que los adultos y
los niños pequeños

158 Diana Deutsch
adquieren una segunda lengua de formas cualitativamente distintas. Después de la

pubertad, dicha adquisición es autoconsciente y laboriosa, y una segunda lengua que
se adquiere en la edad adulta se habla generalmente con un "acento extranjero"
(véase también Scovel, 1969; Patkowski, 1990). El aspecto de la segunda lengua
más difícil de adquirir es el fonológico. Joseph Conrad es un ejemplo famoso.
Aprendió inglés a los 18 años y, tras unos años de práctica, produjo algunas de las
mejores obras de la literatura inglesa; sin embargo, su acento extranjero era lo
suficientemente fuerte como para impedirle dar conferencias públicas en inglés.
Desde la publicación del libro de Lennenberg, se han realizado numerosos
estudios sobre el periodo crítico para la adquisición del habla (Doupe y Kuhl, 1999;
Johnson y Newport, 1989; Newport, 1990; Newport, Bavelier y Neville, 2001;
Sakai, 2005). Se ha observado que algunos niños que habían estado aislados
socialmente en una etapa temprana de su vida y que más tarde fueron colocados en
un entorno normal no adquirieron un habla normal (Curtiss, 1977; Lane, 1976). Los
estudios sobre la recuperación del habla tras una lesión cerebral proporcionan
pruebas aún más convincentes: Se ha comprobado que el pronóstico de recuperación
es más positivo si la lesión se produjo antes de los 6 años, menos positivo entre los 6
y los 8 años, y extremadamente malo después de la pubertad (Bates, 1992; Dennis &
Whitaker, 1976; Duchowny et al., 1996; Varyha-Khadem et al., 1997; Woods,
1983).
El proceso de adquisición de la PA es muy similar al de la adquisición del habla.
Como ya se ha señalado, la PA es extremadamente difícil de desarrollar en la edad
adulta; sin embargo, cuando los niños pequeños adquieren esta capacidad, lo hacen
sin esfuerzo y, a menudo, sin un entrenamiento específico. Esta correspondencia
entre los calendarios sugiere que ambas capacidades pueden estar subservidas por un
mecanismo cerebral común. En particular, aunque existen periodos críticos para
otros aspectos del desarrollo, como para las columnas de dominancia ocular en el
córtex visual de los gatos (Hubel y Wiesel, 1970), la impronta en los patos (Hess,
1973) y la localización auditiva en las lechuzas (Knudsen, 1988), no se ha
demostrado que otros periodos críticos tengan una correspondencia similar con el
habla y el lenguaje (véase también Trout, 2003). Podemos observar que, mientras
que el habla se adquiere normalmente en los 2 primeros años de vida, las clases
formales de música sólo pueden iniciarse cuando el niño es más maduro. Por lo
tanto, extrapolando hacia atrás la edad en la que se puede iniciar razonablemente el
entrenamiento musical formal, podemos conjeturar que si a los niños se les da la
oportunidad de asociar tonos con palabras significativas durante el periodo crítico
para la adquisición del habla, podrían desarrollar fácilmente la circuitería neural
subyacente al PA en ese momento (Deutsch, 2002).
C. Pruebas neuroanatómicas
Otro argumento a favor de la asociación entre el PA y el lenguaje se refiere a sus
correlatos neuroanatómicos. Una región de especial importancia en este sentido es el
planum temporale (PT) izquierdo, una zona del lóbulo temporal que corresponde al
núcleo del área de Wernicke y que interviene de forma crítica en el procesamiento
del habla. Se ha descubierto que el PT es asimétrico hacia la izquierda en la mayoría
de los cerebros humanos (Geschwind y Levitsky, 1968). Schlaug et al. (1995)
informaron por primera vez de que esta asimetría es mayor entre los poseedores del
PA que entre los no poseedores, y este hallazgo ha sido seguido en varios estudios.
En un experimento que apoya específicamente una asociación
160 Diana Deutsch
entre el PA, el TP izquierdo y el habla, Oechslin et al. (2010) descubrieron que los
poseedores de PA mostraban una activación significativamente mayor en el TP
izquierdo y las áreas circundantes cuando participaban en el procesamiento
segmentario del habla. Además, Loui et al. (2011) observaron que la posesión de PA
estaba asociada con una mayor conectividad de la materia blanca entre las regiones
que sirven a la percepción auditiva y la categorización en el lóbulo temporal
superior izquierdo, regiones que se consideran responsables de la catego- rización de
los sonidos del habla (Hickok y Poeppel, 2007). Los subestratos neuroanatómicos de
la PA se analizan con más detalle en la Sección VI.
D. AP y Tono Lenguaje
El argumento de la relación entre el PA y el lenguaje se ve reforzado por la
consideración de las lenguas tonales, como el mandarín, el cantonés, el vietnamita y
el tailandés. En las lenguas tonales, las palabras adquieren significados
arbitrariamente diferentes según los tonos en que se pronuncian. El tono léxico se
define tanto por la altura del tono ("registro") como por el contorno. Por ejemplo, la
palabra "ma" en mandarín significa "madre" cuando se pronuncia en el primer tono,
"cáñamo" en el segundo, "caballo" en el tercero y un reproche en el cuarto. Por
tanto, cuando un hablante de mandarín oye la palabra "ma" pronunciada en el primer
tono y le atribuye el significado de "madre", está asociando un tono concreto -o una
combinación de tonos- con una etiqueta verbal. Análogamente, cuando un poseedor
de PA oye la nota Fx
y atribuye la etiqueta "Fx", también está asociando un tono concreto con un
etiqueta verbal.
Los sustratos cerebrales que subyacen al procesamiento del tono léxico parecen
solaparse con los del procesamiento de los fonemas en el habla. Aunque la
comunicación de la prosodia y la emoción involucra preferentemente al hemisferio
derecho tanto en hablantes de lenguas tonales como no tonales (Edmondson, Chan,
Siebert y Ross, 1987; Gorelick y Ross, 1987; Hughes, Chan y Su, 1983; Ross, 1981;
Tucker, Watson y Heilman, 1977), el procesamiento del tono léxico es
principalmente una función del hemisferio izquierdo. Por ejemplo, se han observado
deficiencias en la identificación del tono léxico en pacientes afásicos con daño
cerebral en el lado izquierdo (Gandour y Dardarananda, 1983; Gandour et al., 1992;
Moen y Sundet, 1996; Naeser y Chan, 1980; Packard, 1986). Además, los hablantes
normales de lenguas tonales muestran una ventaja del oído derecho en la escucha
dicótica de tonos léxicos (Van Lancker y Fromkin, 1973) y muestran una activación
del hemisferio izquierdo en respuesta a dichos tonos (Gandour, Wong y Hutchins,
1998).
Estas líneas de evidencia implican que cuando los hablantes de lenguaje tonal
perciben y producen tonos y contornos de tono que significan palabras
significativas, están implicados los circuitos del hemisferio izquierdo. A partir de las
pruebas sobre los periodos críticos para la adquisición del habla, podemos suponer
que estos circuitos se desarrollan muy pronto en la vida, durante el periodo en el que
los bebés adquieren otras características del habla (Doupe y Kuhl, 1999; Kuhl,
Williams, Lacerda, Stevens y Lindblom, 1992; Werker y Lalonde, 1988). Por lo tanto,
podemos conjeturar que si los tonos se asocian con palabras significativas en la
infancia, el hemisferio izquierdo apoya la asociación entre tonos y etiquetas verbales

que sirve a la PA. También podemos conjeturar que si los individuos no tienen la
oportunidad de formar tales asociaciones en la infancia o en la niñez temprana, les
resultará muy difícil hacer PA.
162 Diana Deutsch
más tarde en la vida. Esta línea de razonamiento podría explicar la presencia de PA

implícito combinado con la ausencia de PA explícito en hablantes de lenguas no
tonales (véase también Rakowski y Miyazaki, 2007).
Según esta línea de razonamiento, se conjeturó además que los hablantes de
lenguas tonales emplean plantillas de PA precisas y estables al enunciar palabras.
Como prueba de esta conjetura, Deutsch, Henthorn y Dolson (1999, 2004a) dieron a
hablantes nativos de vietnamita una lista de palabras para que las leyeran en voz alta
en dos días distintos. A continuación, para cada palabra pronunciada, tomamos
estimaciones del tono a intervalos de 5 ms y, a partir de estas estimaciones,
obtuvimos un tono medio para cada palabra. A continuación, para cada sujeto, se
calculó la diferencia entre el tono medio de cada palabra leída en voz alta en dos
días distintos y se calculó la media de estas diferencias entre las palabras de la lista.
Al comparar estos promedios entre días, se observó que la mayoría de los sujetos
mostraban diferencias de tono medias inferiores a 0,5 semitonos.
En otro experimento, presentamos a los hablantes de mandarín una lista de
palabras que contenían los cuatro tonos del mandarín para que las leyeran en voz
alta en dos días distintos. Comprobamos que un tercio de los sujetos mostraban
diferencias de tono medias entre días de menos de 0,25 semitonos y que los
hablantes de mandarín eran tan coherentes entre días como en la repetición inme-
diata. Sin embargo, un grupo de control de angloparlantes fue significativamente
menos coherente al enunciar una lista de palabras en inglés en dos días distintos. A
partir de esto, concluimos que los hablantes de lenguas con tono y sin tono
procesaban los niveles absolutos de tono del habla de formas cualitativamente
diferentes, y específicamente que el AP está implicado en el procesamiento del tono
léxico.
Burnham y Brooker (2002) llegaron a una conclusión relacionada a partir de un
estudio en el que hablantes de lenguas no tonales discriminaron pares de tonos
tailandeses que se pre sentaron como habla, habla filtrada y sonidos de violín. En
todas las condiciones, los poseedores de PA superaron a los no poseedores en la
discriminación léxica de tonos. Los autores concluyeron que el nivel de tono
absoluto era una pista importante para la identificación de los tonos tailandeses, y
conjeturaron que el rendimiento superior de los poseedores de PA se debía a que
habían adquirido PA durante el periodo crítico relacionado con el habla.
Siguiendo en esta línea, podemos conjeturar que los hablantes del lenguaje tonal
adquieren PA para los tonos musicales como si éstos fueran los tonos de un segundo
lenguaje tonal. Basándonos en los estudios sobre la adquisición de una segunda
lengua (Johnson & Newport, 1989; Newport, 1990; Newport et al., 2001;
Patkowski, 1990; Scovel, 1969), cabría esperar que los hablantes de un lenguaje
tonal adquirieran el PA para la música con mayor destreza en la primera infancia, y
que dicha destreza disminuyera a medida que aumentara la edad de inicio del
entrenamiento musical, estabilizándose en torno a la pubertad. Sin embargo, también
cabría esperar que la prevalencia global del PA fuera mayor entre los hablantes de
lenguas tonales. En relación con esto, observamos que los hablantes de lenguas
tonales adquieren los tonos de una nueva lengua tonal con más facilidad que los
hablantes de lenguas no tonales; véase Wayland y Guion (2004).
Para examinar la hipótesis de que el PA es más frecuente entre los hablantes de
lenguaje tonal, Deutsch et al. (2006) llevaron a cabo un estudio de prueba directa a
gran escala de dos grupos de estudiantes de conservatorio de música. El primer

grupo estaba formado por 115 estudiantes de primer año que cursaban una
asignatura obligatoria en la Eastman School of Music; todos ellos eran
164 Diana Deutsch
hablantes de lenguas no fónicas. El segundo grupo estaba formado por 88

estudiantes de primer año que cursaban una asignatura obligatoria en el
Conservatorio Central de Música de Pekín (China); todos ellos hablaban mandarín.
Los alumnos fueron examinados en clase y no hubo autoselección entre la población
de sujetos. Tanto los hablantes de lengua tonal como los de lengua no tonal
mostraron efectos ordenados de la edad de inicio de la formación; sin embargo, los
hablantes de lengua tonal obtuvieron puntuaciones sustancialmente más altas que los
hablantes de lengua no tonal, para todos los niveles de edad de inicio de la
formación.
En otro estudio de prueba directa a gran escala sin autoselección de sujetos,
Deutsch et al. (2011) administraron la misma prueba de PA a 160 estudiantes de
primer y segundo curso del Conservatorio de Música de Shanghái. En la Figura 4 se
representa el porcentaje medio de aciertos para cada subgrupo de edad de inicio, y
puede observarse que el nivel de rendimiento en este caso fue muy alto. Los que
habían comenzado su formación musical a los 5 años o antes mostraron una media
del 83% de aciertos sin tener en cuenta los errores de semitono, y del 90% de
aciertos
- teniendo en cuenta los errores de semitono. Los que habían empezado a
estudiar a los 6-9 años mostraron una media del 67% de aciertos sin tener en cuenta
los errores de semitono y del 77% de aciertos teniendo en cuenta los errores de
semitono. Los que habían empezado a entrenar a partir de los 10 años mostraron una
media del 23% de aciertos sin tener en cuenta los errores de semitono y del 34% de
aciertos teniendo en cuenta los errores de semitono.
Lee y Lee (2010) confirmaron la alta prevalencia del PA entre los hablantes de
mandarín en una prueba directa de 72 estudiantes de música de la Universidad
Normal Nacional de Taiwán, utilizando una prueba similar en construcción a la
empleada por Deutsch et al. (2006), pero empleando tres timbres diferentes: piano,
viola y tono puro. Aunque encontraron el efecto esperado de la edad de inicio de la
formación musical, el 72% de los sujetos alcanzaron una precisión global del 85%
de aciertos en los tonos de piano.
100 0
80
Porcentaje correcto
60
40
20
Figura 4 Porcentaje medio de

5 aciertos
6~9 en una prueba 10 de tono
Eda absoluto entre los alumnos de un
d de estudio a gran escala realizado
inici en el Conservatorio de Música
o de de Shanghai, en función de la
la
form edad de inicio de la formación
ació musical. Todos los sujetos
n hablaban mandarín. La línea
musi continua muestra el rendimiento
cal sin tener en cuenta los errores de
semitono, y la línea de puntos
muestra el rendimiento teniendo
en cuenta los errores de
semitono.
Datos de Deutsch, Le, et al. (2011).
166 Diana Deutsch
Los hallazgos de Deutsch et al. (2006, 2011) y de Lee y Lee (2010) concuerdan
con la conjetura de que la adquisición del PA está sujeta a un periodo crítico
relacionado con el habla, y que para los hablantes de lenguas tonales, este proceso
implica el mismo circuito neural que interviene en la adquisición de los tonos de una
segunda lengua tonal. Sin embargo, también se puede considerar la hipótesis
alternativa de que las diferencias de prevalencia entre estos grupos sean de origen
genético. Para decidir entre estas dos explicaciones, Deutsch, Dooley, et al. (2009)
llevaron a cabo un estudio de prueba directa en 203 estudiantes de primer y segundo
curso de la Escuela de Música Thornton de la Universidad del Sur de California,
utilizando la misma prueba AP que se había utilizado anteriormente, y de nuevo sin
autoselección entre la población objetivo.
Los sujetos se dividieron en cuatro grupos: Los del grupo no tonal eran
caucásicos y sólo hablaban la lengua no tonal. El resto de los sujetos eran de
ascendencia étnica de Asia Oriental, y ambos progenitores hablaban una lengua
tonal de Asia Oriental. Los del grupo tono muy fluido informaron de que hablaban
una lengua tonal "con mucha fluidez". Los del grupo de los tonos bastante fluidos
decían que hablaban u n a l e n g u a t o n a l " c o n b a s t a n t e
f l u i d e z ". Aquellos en el grupo de tono no fluido reportaron "Puedo entender
el idioma, pero no lo hablo con fluidez."
La figura 5 muestra el porcentaje medio de respuestas correctas en la prueba de
PA para cada grupo lingüístico. Como en el caso anterior, se observa un claro efecto
de la edad de inicio de la formación musical. Sin embargo, también hubo un efecto
abrumadoramente fuerte de la fluidez del lenguaje tonal, manteniendo constante el
origen étnico: los sujetos que hablaban un lenguaje tonal con mucha fluidez
mostraron un rendimiento notablemente alto, muy superior al de los caucásicos que
no hablaban un lenguaje tonal, y también muy superior al de los sujetos de Asia
oriental que no hablaban un lenguaje tonal con fluidez. El efecto de la lengua se
manifestaba incluso de forma muy precisa: El rendimiento del grupo que hablaba el
tono con mucha fluidez era significativamente más alto que el de cada uno de los
otros grupos por separado; el rendimiento del grupo que hablaba el tono con
bastante fluidez era significativamente más alto que el del grupo que no hablaba el
tono, y también más alto que el del grupo que no hablaba el tono. Además, el
rendimiento del grupo no fluente (genéticamente asiático) no difería
significativamente del grupo no fluente (genéticamente caucásico). En un análisis de
regresión en el que sólo se tuvo en cuenta a los sujetos de ascendencia étnica asiática
oriental, la fluidez al hablar una lengua tonal resultó ser un factor predictivo muy
significativo del rendimiento.
Los niveles de rendimiento mejorados de los hablantes de lenguas tonales
encontrados en los estudios de Deutsch et al. (2006, 2011), Deutsch, Dooley, et al.
(2009), y Lee y Lee (2010) son coherentes con los resultados de la encuesta de
Gregersen et al. (1999, 2001) a estudiantes de programas de música de educación
superior en Estados Unidos a los que se ha hecho referencia anteriormente.
Gregersen et al. (2001) también descubrieron que la prevalencia del PA entre los
estudiantes que eran japoneses o coreanos era mayor que entre los estudiantes
caucásicos, aunque no tan alta como entre los estudiantes chinos. Como se describe
en la Sección III,B, Gregersen et al. interpretaron que la alta prevalencia de PA entre
los encuestados de Asia oriental indicaba un origen genético del PA. Sin embargo,
en un nuevo análisis de sus datos, Henthorn y Deutsch (2007) demostraron que la

prevalencia del PA entre los estudiantes de ascendencia asiática oriental con una
infancia temprana en Norteamérica no difería de la de los caucásicos, por lo que sus
hallazgos no pueden atribuirse a diferencias étnicas.
168 Diana Deutsch
100
tono muy fluido
tono bastante
fluido tono no
80 fluido no tono
casualidad
Porcentaje correcto
60
40
20
0
2-5 6-9 10
Edad de inicio de la formación musical
Figura 5 Porcentaje medio de aciertos en una prueba de tono absoluto entre los alumnos de
un estudio a gran escala realizado en un conservatorio de música estadounidense. Los datos
se representan en función de la edad de inicio de la formación musical y la fluidez al hablar
un lenguaje tonal. Los alumnos de los grupos de tono muy fluido, tono bastante fluido y tono
no fluido pertenecían a etnias de Asia oriental y hablaban un lenguaje tonal con distintos
grados de fluidez. Los del grupo no tonal eran caucásicos y sólo hablaban una lengua no
tonal. La línea marcada como casualidad representa el rendimiento casual en la tarea.
Adaptado de Deutsch, Dooley, et al. (2009).
Otro punto de interés del estudio de Gregersen et al. es que la prevalencia del PA
era mayor entre el grupo chino que entre los grupos japonés o coreano, y esta
prevalencia en los últimos grupos era a su vez mayor que entre el grupo de lenguas
no tonales. El japonés es una lengua de acento tonal, por lo que los significados de
algunas palabras difieren en función de los tonos de las sílabas que las componen.
Por ejemplo, en japonés de Tokio la palabra "hashi" significa "palillos" cuando se
pronuncia alto-bajo, "puente" cuando se pronuncia bajo-alto, y "borde" cuando las
dos sílabas tienen el mismo tono. En japonés, por tanto, el tono también desempeña
un papel importante en la atribución del significado léxico; sin embargo, este papel
no es tan crítico como en las lenguas tonales. En Corea, algunos dialectos se
consideran acentuados o incluso tonales (Jun, Kim, Lee y Jun, 2006). Por ejemplo,
en el dialecto Kyungsang, la palabra "hijo" significa "nieto" o "pérdida" cuando se
pronuncia en tono bajo, "mano" en tono medio y "huésped" en tono alto. En cambio,
en el coreano de Seúl no se utiliza el tono para transmitir el significado léxico. Por
todo ello, cabría esperar que la prevalencia global del PA fuera mayor entre los
hablantes de japonés y coreano que entre los hablantes de lenguas no tonales, pero
no tan alta como entre los hablantes de lenguas tonales. Los resultados de la
encuesta de Gregersen et al. (1999, 2001) son los que se esperaban de esta línea de
razonamiento.
E. Procesamiento de los sonidos del habla por los poseedores de AP

Se han encontrado pruebas de que los poseedores de PA procesan mejor los sonidos
del habla. En un experimento, Masataka (2011) pidió a sujetos japoneses que
identificaran sílabas aisladas lo más rápidamente posible, y se observó que la
latencia media de respuesta era menor en los poseedores de PA que en los no
poseedores. Dado que el japonés es una lengua de acento tonal, este estudio dejó
abierta la cuestión de si se obtendrían resultados análogos en hablantes de lenguas
no tonales. Sin embargo, Oechslin et al. (2010), en un estudio de hablantes de
alemán, también descubrieron que los poseedores de PA superaban a los no
poseedores en tareas que implicaban el procesamiento segmental del habla.
V. Procesamiento AP y Pitch
Se suele suponer que los poseedores de PA tienen "buen oído", es decir, que esta
capacidad está asociada a una mejora de las capacidades auditivas de bajo nivel. Sin
embargo, los estudios experimentales no han confirmado esta opinión. Por ejemplo,
Sergeant (1969) y Siegel (1972) no observaron diferencias entre los poseedores y no
poseedores de PA en su rendimiento en tareas de discriminación de frecuencias.
Fujisaki y Kashino (2002) confirmaron la ausencia de diferencias entre los
poseedores y no poseedores de PA en la discriminación de frecuencias, y tampoco
encontraron diferencias entre estos dos grupos en la detección de tonos en presencia
de ruido de muesca, en la discriminación de brechas temporales ni en la resolución
espacial. Por otro lado, se ha observado que los poseedores de PA difieren de los no
poseedores en el procesamiento de tonos de alto nivel, generalmente de forma
ventajosa. Muestran una percepción categórica al nombrar las notas, al tiempo que
discriminan entre tonos dentro de las categorías; tienen un mejor rendimiento en
ciertas tareas de memoria de tonos, en ciertas tareas que implican el procesamiento
fonológico del habla y (excepto en circunstancias inusuales) al juzgar las relaciones
de tono.
A. Percepción categórica del tono

Los poseedores de PA codifican automáticamente los tonos en categorías que
corresponden a los nombres de las notas, y esta percepción categórica se ha
explorado en varios experimentos. Por ejemplo, Siegel y Siegel (1977) presentaron a
los poseedores de PA tonos cuyos tonos variaban en incrementos de 20 céntimos, y
descubrieron que los juicios de identificación reflejaban la percepción categórica en
pasos de semitono. Miyazaki (1988) obtuvo resultados similares, que se ilustran en
los juicios de un poseedor de PA mostrados en la Figura 6. Sin embargo, también se
han obtenido resultados más complejos. Sin embargo, también se han obtenido
resultados más complejos. Burns y Campbell (1994) evaluaron a los poseedores de
PA en una tarea de identificación de tonos empleando tonos que variaban en
incrementos de 25 céntimos. Los resultados variaron entre sujetos; por ejemplo, los
juicios de un sujeto mostraron una categorización consistente en pasos de semitonos,
mientras que los de otro sujeto reflejaron el uso de categorías de 25 centésimas.
170 Diana Deutsch
Tanto Miyazaki (1988) como Burns y Campbell (1994) observaron que, en contraste
con
5 Figura 6 Distribución de las

Número de respuestas
respuestas de denominación de
4 notas por un único poseedor de
3 tono absoluto, indicando la
F G G A A
percepción categórica.
2 Tomado de Miyazaki (1988),
con la amable autorización de
1
Springer Science and Business
0 Media.
Estímulo
percepción categórica de los sonidos del habla, para la que las funciones de
discriminación están relacionadas con las funciones de identificación (Macmillan,
Goldberg y Braida, 1988), los poseedores de PA discriminaban entre tonos dentro de
las categorías y, sin embargo, mostraban una percepción categórica en las tareas de
identificación de tonos.
B. Memoria de tono
La capacidad de los poseedores de PA para categorizar y codificar tonos en forma
verbal confiere una ventaja considerable a la memoria de tonos. En uno de los
primeros experimentos, Bachem (1954) comparó el rendimiento de los poseedores
de PA y los no poseedores entrenados musicalmente en una tarea de memoria de
tonos. Se presentaba un tono estándar, seguido de un tono de comparación, y los
sujetos indicaban si los tonos eran iguales o diferentes. Los dos grupos mostraron
aproximadamente la misma tasa de decaimiento de la memoria del tono durante el
primer minuto. Sin embargo, a intervalos de retención más largos, el rendimiento de
los no poseedores siguió deteriorándose, mientras que el de los poseedores de AP se
mantuvo estable, probablemente porque estaban codificando los tonos en forma de
etiquetas verbales. De hecho, cuando los poseedores AP fueron capaces de etiquetar
los tonos que debían recordar, obtuvieron resultados precisos con intervalos de
retención de hasta 1 semana.
En otro estudio, Rakowski y Rogowski (2007) hicieron que los sujetos
escucharan un tono estándar y luego afinaran un tono variable para que coincidiera
con el tono del estándar. Cuando se interpusieron intervalos de silencio de hasta 1
minuto entre los tonos, dos poseedores de PA y un no poseedor de control mostraron
un rendimiento muy similar. Sin embargo, más allá de este periodo, el rendimiento
del no poseedor se deterioró con el tiempo, mientras que el de los poseedores de PA
se mantuvo más estable.
En un experimento más elaborado, Siegel (1974) utilizó un paradigma similar al
de Deutsch (1970). A los sujetos se les presentaba un tono de prueba seguido por
una secuencia de tonos intermedios y luego por un segundo tono de prueba, y
juzgaban si los tonos de prueba eran iguales o diferentes en tono. Cuando la
diferencia entre los tonos a comparar era de 1/10 de semitono, el rendimiento de los
poseedores y no poseedores de PA disminuía aproximadamente al mismo ritmo
durante un intervalo de reten- ción de 5 segundos. Sin embargo, cuando esta
diferencia era de 1 semitono, el rendimiento de los dos grupos divergía
172 Diana Deutsch
sustancialmente: el de los poseedores de PA permanecía estable a u n nivel alto,

mientras que el de los no poseedores se deterioraba bruscamente durante un
intervalo de retención de 15 segundos. Estos resultados indicaron que las
características brutas del trazo de memoria
de los dos grupos eran similares, pero como los poseedores de PA adoptaban una
estrategia de codificación verbal, podían recurrir a la memoria a largo plazo para
emitir sus juicios cuando la diferencia de tono entre los tonos a comparar era de
aproximadamente un semitono.
Siguiendo estos hallazgos, Ross y Marks (2009) sugirieron que los niños con una
formación musical mínima que, sin embargo, muestran una excelente memoria a
corto plazo para el tono podrían estar categorizando los tonos de alguna manera, y
por lo tanto podrían desarrollar más tarde el PA tal y como se define
convencionalmente. Los autores aportaron algunas pruebas preliminares a favor de
esta hipótesis, y su intrigante sugerencia espera ser investigada más a fondo.
C. Errores de octava
Aunque todavía no se ha comparado el rendimiento de los poseedores y no
poseedores de PA a la hora de juzgar la colocación en octava de los tonos, varios
estudios han demostrado que los poseedores de PA a veces cometen errores al juzgar
la colocación en octava, aunque identifican correctamente los nombres de las notas
(Bachem, 1955; Lockhead y Byrd, 1981; Miyazaki, 1989). Sin embargo, los errores
de octava son difíciles de interpretar. A diferencia de la terminología estándar para
designar las clases de tono (do, dox, re, etc.), no existe una terminología estándar
para designar las clases de tono (do, dox, re, etc.).
terminología estándar para designar las octavas. Por lo tanto, los sujetos podrían ser
infa-
Esto podría dar lugar a errores artificiales. Por otra parte, los tonos que se basan en
la misma fundamental pero se tocan con instrumentos diferentes (como el piano y el
clavicordio) pueden diferir en la altura percibida y, por tanto, en la octava percibida.
En relación con esto, la altura percibida de un tono también puede diferir
sustancialmente manipulando las amplitudes relativas de sus armónicos pares e
impares (Deutsch, Dooley y Henthorn, 2008; Patterson, 1990; Patterson, Milroy y
Allerhand, 1993). Por lo tanto, la designación de la octava de un tono de timbre
desconocido puede ser problemática en principio.
D. Tratamiento del tono relativo

Los poseedores de PA a menudo se sienten incómodos cuando se enfrentan a música
transpuesta arbitrariamente, o cuando ven una partitura escrita y al mismo tiempo
escuchan la música interpretada en una tonalidad diferente. Esta sensación de
incomodidad es comprensible, ya que para estos oyentes la discrepancia entre las
notas que están viendo y oyendo es muy notable. Sin embargo, los no poseedores de
PA, que a menudo no son conscientes de las pequeñas discrepancias de tono, o al
menos las consideran poco importantes, a veces encuentran esta reacción
desconcertante y pueden atribuirla a algún problema cognitivo o emocional. De
hecho, dado que esta reacción suele considerarse un signo de rigidez perceptiva,
varios investigadores han afirmado que la posesión de PA confiere una desventaja al
procesamiento relativo del tono, e incluso a la musicalidad en general (cf. Miyazaki,
2004). Dado que muchos músicos de talla mundial son poseedores de PA, esta
afirmación parece muy poco plausible a primera vista; sin embargo, aquí se revisan
174 Diana Deutsch
las pruebas a favor y en contra.

Ward y Burns (1982) conjeturaron que la tendencia de los poseedores de PA a

percibir los tonos categóricamente podría ponerlos en desventaja a la hora de
realizar ciertas tareas de tonos relativos. Supongamos, por ejemplo, que a un oyente
se le presenta C4 1 40 cents, seguido de Dx4 2 40 cents. Esto produce un
intervalo de 220 cents, por lo que debería reconocerse como una segunda mayor. Sin
embargo, un evaluador de PA podría hipotéticamente percibir tanto el Do como el
Re categóricamente, e identificar el intervalo como una tercera menor. Esta
conjetura fue evaluada por Benguerel y Westdal (1991), quienes descubrieron que
sólo 1 de cada 10 poseedores de PA cometía errores en la identificación de
intervalos sobre esta base, e incluso entonces no lo hacía de forma consistente.
tentemente. Sin embargo, Miyazaki (1992) descubrió que una minoría de los
poseedores de PA cometían más errores al identificar intervalos desafinados cuando
el primer tono que comprendía el intervalo se desviaba de la afinación temperada
igual, lo que indica un pequeño efecto en esta dirección.
Miyazaki (1993, 1995) argumentó además que los poseedores de PA que fueron
entrenados en un sistema de DO fijo están sujetos a otra fuente de error al hacer
juicios de tono relativo. Hizo que los sujetos nombraran intervalos producidos por
pares de tonos que estaban precedidos por un contexto que definía la tonalidad (Do, -
Fax o Mi desafinado) creado por un acorde V7 I, siendo la primera nota del par la
tónica definida por el acorde. El rendimiento de los poseedores de PA se degradó en
los contextos de Fx y Mi desafinado en relación con el contexto de Do, y Miyazaki
concluyó que esto se debía a la influencia en sus juicios de una fuerte plantilla de do
fijo centrada en Do.
Sin embargo, la tarea empleada por Miyazaki (1993, 1995) era inusual. Los
sujetos, que habían sido entrenados en el sistema de do fijo, debían designar los
intervalos utilizando nombres de solfe`ge (do, re, mi, etc.) relativos a do. Por
ejemplo, en este experimento la respuesta correcta para el intervalo Fa-A (una
tercera mayor) era "mi"; sin embargo, a los sujetos también se les había enseñado a
utilizar la etiqueta "mi" para designar la nota Mi. Por lo tanto, para contextos tonales
distintos de Do, la mayoría de los sujetos debían designar un intervalo utilizando un
nombre de nota (do, re, mi, etc.) que difería del de cualquiera de las notas
presentadas.
Por lo tanto, el requisito inusual de utilizar nombres de solfe`ge para etiquetar
intervalos produjo una situación similar a la de Stroop, de modo que se esperaría que
los poseedores de PA experimentaran confusión al realizar esta tarea. Stroop (1935)
descubrió originalmente que cuando a los sujetos se les presentaban los nombres
impresos de los colores, su rendimiento en la denominación se veía afectado cuando
había una falta de correspondencia entre el nombre impreso y el color en el que
estaba impreso. Un efecto análogo fue demostrado por Zakay, Roziner y Ben-Arzi
(1984), que pidieron a los poseedores de PA que identificaran los tonos de sílabas
cantadas, y descubrieron que su rendimiento se deterioraba cuando las sílabas
correspondían a nombres de tonos no coincidentes. En una variante de este
paradigma, Miyazaki (2004) informó de que cuando se producía un desajuste entre
una sílaba y el tono en el que se cantaba, el tono interfería en la denominación de
sílabas para los poseedores de PA. Sin embargo, los no poseedores de PA, que no
habrían participado en el nombramiento del tono en primer lugar, no se vieron
influidos por dicho desajuste (véase también Itoh et al., 2005).
Hsieh y Saberi (2008) aportaron más pruebas que confirman la implicación de un
176 Diana Deutsch
efecto Stroop en los juicios realizados por sujetos entrenados en el do fijo. Estos
autores
presentaban estímulos híbridos consistentes en tonos que se vocalizaban con sílabas

de solfeo. Los sujetos que habían recibido un entrenamiento de do fijo (como los
estudiados por Miyazaki) mostraron una interferencia sustancial en la denominación
de tonos cuando los tonos y las sílabas no coincidían, mientras que los que habían
recibido un entrenamiento de do móvil no mostraron tal interferencia.
Otro estudio sobre la cuestión del procesamiento del tono relativo por parte de los
poseedores de PA fue impulsado por la impresión general de que estas personas a
menudo se sienten incómodas cuando ven una partitura escrita mientras oyen la
música interpretada en una tonalidad diferente. Miyazaki y Rakowski (2002)
llevaron a cabo un experimento para determinar si el rendimiento de los poseedores
de PA podría verse degradado por un conflicto entre estímulos auditivos y visuales
no coincidentes. A los sujetos se les presentó una melodía estándar que se
presentaba en una partitura escrita, junto con una melodía de comparación
presentada auditivamente. En algunos ensayos, la melodía de comparación estaba en
el mismo nivel de tono que la estándar, mientras que en otros ensayos estaba
transpuesta hacia arriba o hacia abajo. Además, en algunos ensayos, las relaciones
de tono formadas por las melodías estándar y de comparación eran idénticas,
mientras que en otros ensayos diferían, y los sujetos juzgaban si las melodías eran
iguales o diferentes.
Cuando las secuencias auditivas y visuales coincidieron, los poseedores de PA
superaron a los no poseedores en esta tarea; sin embargo, cuando las secuencias
auditivas se transpusieron con respecto a las visuales, la ventaja de los poseedores de
PA desapareció. En esta última condición, hubo una ventaja marginal para los no
poseedores de PA, aunque esta ventaja no fue significativa cuando se omitieron los
datos de un poseedor de PA anómalo en el límite. Sin embargo, el rendimiento de
los no poseedores de PA no difirió dependiendo de si las melodías presentadas
visual y auditivamente estaban transpuestas entre sí. Tal vez los poseedores de PA
transpusieron las notas presentadas visualmente en sonidos claramente imaginados,
y esto produjo un conflicto cuando las compararon con las melodías transpuestas
presentadas auditivamente, mientras que los no poseedores vieron la partitura escrita
de una manera más abstracta, por lo que no se produjo tal conflicto. Sin embargo,
dado que la diferencia de rendimiento entre los poseedores y los no poseedores de
PA era sólo marginalmente significativa, esta cuestión está pendiente de una
investigación más profunda.
A la vista de estos resultados, Miyazaki (2004) especuló de forma más general
con la posibilidad de que los poseedores de PA tuvieran una deficiencia general en
el procesamiento del tono relativo, e incluso que "el PA puede ser una desventaja
para la música" (p. 428). Sin embargo, dado que estos experimentos engendraban
conflictos de tipo Stroop por parte de los poseedores de PA, se plantea la cuestión de
cómo actuarían estos oyentes en condiciones más estándar y ecológicamente válidas.
Dooley y Deutsch (2010) abordaron esta cuestión utilizando una tarea de dictado
musical que seguía el modelo de una utilizada en el examen de nivel administrado a
los estudiantes de primer año en la Escuela de Música Thornton de la Universidad
del Sur de California. Treinta sujetos con formación musical se dividieron en tres
grupos: poseedores de AP, poseedores al límite y no poseedores, en función de su
rendimiento en el examen de AP utilizado por Deutsch et al. (2006) y Deutsch,
Dooley, et al. (2009). Todos los sujetos recibieron una tarea de dictado musical que
178 Diana Deutsch
consistía en tres pasajes que transcribieron en notación musical. Se proporcionó la

nota inicial para cada
con el fin de proporcionar una referencia. Hubo una fuerte relación positiva entre el
rendimiento en la prueba AP y las tareas de dictado musical, y ni la edad de inicio
de la formación musical ni los años de formación se relacionaron significativamente
con las puntuaciones de dictado. El nivel de rendimiento fue significativamente
mayor para los poseedores de AP que para los no poseedores, para los poseedores de
AP que para los poseedores limítrofes y para los poseedores limítrofes que para los
no poseedores.
En otro estudio, Dooley y Deutsch (2011) evaluaron a sujetos entrenados
musicalmente que consistían en 18 poseedores de PA y 18 no poseedores, con los
dos grupos emparejados por edad y por edad de inicio y duración del entrenamiento
musical. Los sujetos realizaron tareas de denominación de intervalos que sólo
requerían tono relativo. A diferencia de los estudios de Miyazaki (1993, 1995), los
intervalos debían identificarse por sus nombres inter- valares ("segunda mayor",
"tercera menor", etc.) para que no se produjera ningún conflicto entre los nombres
que se utilizaban para designar los intervalos y los de las notas que formaban los
intervalos. En una condición, los intervalos estaban formados por breves ondas
sinusoidales de duración suficiente para proporcionar una sensación clara de tono
(Hsieh y Saberi, 2007). En una segunda condición, se emplearon tonos de piano.
Una tercera condición
- era idéntica a la segunda, salvo que cada intervalo iba
precedido de una cadencia V7 I, de modo que el primer tono del par se interpretaría
como la tónica.
La figura 7 muestra, para cada sujeto, el porcentaje global de aciertos en la tarea
de denominación de intervalos. Como puede observarse, la posesión de PA estaba
fuerte y positivamente correlacionada con el rendimiento en la identificación de
intervalos. Además, la ventaja de la posesión del PA se mantuvo en todas las
condiciones de presentación del intervalo. Resulta especialmente interesante que la
ventaja del PA no desapareciera al proporcionar un contexto tonal al intervalo que se
iba a nombrar. Esto, junto con los hallazgos de Dooley y Deutsch (2010) en tareas de
dictado musical,
100
Intervalo Tarea Porcentaje
75
50
Correcto
25
0
0 20 40 60 80 100
Examen AP Porcentaje de aciertos
Figura 7 Porcentaje global de aciertos en tres tareas de denominación de intervalos,

comparado con el porcentaje de aciertos en una prueba de tono absoluto. Se observó una
180 Diana Deutsch
fuerte correlación entre la posesión del tono absoluto y un mayor rendimiento en las tareas
de denominación de intervalos.
Adaptado de Dooley y Deutsch (2011).
los resultados de este experimento indican que la posesión de PA está fuertemente

asociada a un mayor rendimiento en tareas musicales que requieren sólo tono
relativo, dadas situaciones musicales estándar.
VI. Sustratos neuroanatómicos del PA

Se ha acumulado una cantidad considerable de pruebas que demuestran que la PA
está asociada a circuitos cerebrales únicos, y esto ha implicado a regiones que se
sabe que están implicadas en la percepción y categorización del tono, la memoria y
el procesamiento del habla. Los estudios han implicado tanto neuroimagen
estructural como funcional (Bermúdez y Zatorre, 2009b; Keenan et al., 2001; Loui
et al., 2011; Oechslin et al., 2010; Ohnishi et al., 2001; Schlaug et al., 1995; Schulze
et al., 2009; Wilson et al., 2009; Zatorre, 2003; Zatorre et al., 1998), y los hallazgos
obtenidos presumiblemente reflejan tanto factores innatos, como influencias
ambientales que operan durante un periodo crítico temprano.
Una región especialmente implicada en el PA es el planum temporale (PT)
izquierdo, una región del lóbulo temporal que corresponde al núcleo del área de
Wernicke y que es esencial para el habla y el lenguaje. Se ha demostrado que el PT
es asimétrico hacia la izquierda en la mayoría de los cerebros humanos (Geschwind
y Levitsky, 1968), y en un estudio seminal, Schlaug et al. (1995) descubrieron que
esta asimetría era exagerada entre los poseedores del PA. Posteriormente, Zatorre et
al. (1998) observaron que el TP era mayor en el hemisferio izquierdo entre los
poseedores de PA que en un grupo de control de sujetos no seleccionados por su
habilidad musical. Keenan et al. (2001) confirmaron la exagerada asimetría hacia la
izquierda entre los poseedores de PA; sin embargo, en su estudio, esta asimetría
estaba impulsada predominantemente por un TP derecho más pequeño en lugar de
uno izquierdo más grande. Keenan et al. también descubrieron que la asimetría
exagerada de la PT hacia la izquierda no se producía en un grupo de control de no
poseedores de PA que habían comenzado el entrenamiento musical a una edad
temprana.
Wilson et al. (2009) confirmaron los hallazgos de Keenan y también informaron
de que los poseedores de AP en el límite no mostraban la misma asimetría
exagerada, un hallazgo coherente con la conjetura de que este grupo debería
considerarse neurológicamente distinto de los poseedores de AP de alto rendimiento.
En línea con los hallazgos estructurales, Ohnishi et al. (2001) observaron que los
poseedores de PA mostraban una mayor activación en el TP izquierdo durante la
escucha pasiva de música, y Oechslin et al. (2010) observaron que los poseedores de
PA mostraban una mayor activación en el TP izquierdo y las regiones circundantes
mientras realizaban una tarea de procesamiento segmentario del habla. La asimetría
hacia la izquierda del TP se ha observado en el feto humano (Wada, Clarke y
Harem, 1975), por lo que estos hallazgos pueden interpretarse como un argumento a
favor de un componente genético -o al menos innato- en la predisposición a adquirir
el PA.
Otra región que se ha implicado en el PA es el córtex frontal dorsolateral
posterior izquierdo. Zatorre et al. (1998) descubrieron que los poseedores de PA
182 Diana Deutsch
mostraban una mayor activación en esta región cuando nombraban de forma

encubierta tonos individuales, mientras que los no poseedores mostraban activación
en la misma región cuando juzgaban intervalos musicales. Teniendo en cuenta
Teniendo en cuenta otros hallazgos que demuestran que esta región está implicada
en el aprendizaje asociativo condicional (Petrides, 1985, 1990), Zatorre et al.
plantearon la hipótesis de que los poseedores de AP implican a esta región en la
recuperación de asociaciones entre valores de tono y sus etiquetas verbales (véase
también Bermúdez y Zatorre, 2005). En línea con estos hallazgos, Ohnishi et al.
(2001) observaron una mayor activación en el córtex frontal dorsolateral posterior
izquierdo durante una tarea de escucha pasiva de música, y esto se correlacionó con
un alto rendimiento en una prueba de PA.
Schulze et al. (2009) hallaron otras diferencias entre poseedores y no poseedores
de PA empleando una tarea de memoria de tonos a corto plazo similar a la
desarrollada por Deutsch (1970, 1975). En general, estos autores encontraron una
mayor actividad del lóbulo temporal en ambos grupos durante los 3 primeros
segundos tras la presentación del estímulo, lo que presumiblemente refleja la
codificación del estímulo. También observaron una actividad intensa y continuada
en los córtex frontal y parietal durante los 3 segundos siguientes, lo que
presumiblemente refleja la actividad en el sistema de memoria de trabajo. Los
poseedores de PA mostraron una mayor actividad en el surco temporal superior
izquierdo durante la primera fase de codificación, mientras que los no poseedores
mostraron una mayor actividad en las áreas parietales derechas durante ambas fases.
Los autores hipotetizaron que la activación cerebral entre los poseedores de PA
durante la fase de codificación temprana implicaba la categorización de tonos en
clases de tono, con el resultado de que eran capaces de confiar menos en la memoria
de trabajo a la hora de emitir sus juicios. En línea con este razonamiento, Wilson et
al. (2009) descubrieron que los poseedores de PA limítrofes utilizaban una red
neuronal más extensa al realizar una tarea de denominación de tonos que los
poseedores de PA de alto rendimiento, mostrando este último grupo una activación
especialmente en la circunvolución temporal superior posterior izquierda.
La capacidad de los poseedores de PA para confiar menos en la memoria de
trabajo para el tono, debido a su mayor capacidad para codificar los tonos de forma
verbal, también podría explicar que muestren un componente P300 ausente o menor
de los potenciales relacionados con eventos mientras realizan tareas de memoria del
tono (Hantz, Kreilick, Braveman, & Swartz, 1995; Hirose, Kubota, Kimura,
Ohsawa, Yumoto y Sakakihara, 2002; Klein, Coles y Donchin, 1984; Wayman,
Frisina, Walton, Hantz y Crummer, 1992). Esto pone de manifiesto la importancia
para la PA de las regiones cerebrales encargadas de la categorización del tono que se
comentan en la Sección V.A (Rakowski, 1993; Siegel, 1974; Siegel y Siegel, 1977).
Curiosamente, otros estudios también han asociado el surco temporal superior
izquierdo con la identificación y categorización de sonidos (Liebenthal, Binder,
Spitzer, Possing y Medler, 2005; Mo¨tto¨nen et al., 2006).
Un avance reciente e intrigante se refiere al papel de la conectividad entre las
regiones cerebrales que están críticamente implicadas en el PA. Loui et al. (2011),
utilizando imágenes de tensor de difusión y tractografía, descubrieron que la
posesión de PA se asociaba con hiperconectividad en estructuras bilaterales del
lóbulo temporal superior. En concreto, descubrieron que los volúmenes de los
tractos que conectan la circunvolución temporal superior posterior y la
circunvolución temporal medial posterior eran mayores entre los poseedores de AP
que entre los no poseedores. Estas diferencias en los volúmenes de los tractos fueron
184 Diana Deutsch
particularmente fuertes en el hemisferio izquierdo y sobrevivieron al control del

inicio y la duración del entrenamiento musical. Cuando los poseedores de PA se
agruparon en aquellos con puntuaciones muy altas y aquellos con puntuaciones más
bajas, se encontró que los poseedores de PA más precisos también tenían mayores
volúmenes de tracto en el hemisferio izquierdo.
VII. Precisión del PA y características del estímulo

Entre los poseedores de PA, la precisión al nombrar las notas varía en función de las
características de los tonos a juzgar. Aquí se discuten los efectos de la clase de tono,
incluyendo la ventaja de las notas en clave blanca sobre las notas en clave negra, el
efecto de la octava en la que se sitúa el tono y el efecto del timbre.
A. Clase de lanzamiento
Los poseedores de PA varían en la velocidad y precisión con la que identifican las
diferentes clases de tonos. En general, los tonos que corresponden a las teclas
blancas del teclado -C, D, E, F, G, A, B- se identifican con mayor precisión y
rapidez que los que corresponden a las teclas negras -Cx/Dw, Dx/Ew, Fx/Gw, Gx/Aw,
Ax/Bw (Athos et al., 2007; Baird, 1917; Bermudez & Zatorre, 2009a; Carroll, 1975;
Deutsch et al.,
2011; Marvin & Brinkman, 2000; Miyazaki, 1988, 1989, 1990; Sergeant, 1969;
Takeuchi & Hulse, 1991, 1993).
Se han sugerido dos explicaciones principales para el efecto tecla blanca/negra.
Miyazaki (1989, 1990) argumentó que la mayoría de los poseedores de PA
comienzan el entrenamiento musical en el piano durante el período crítico para la
adquisición de PA, y que tal entrenamiento comienza típicamente con patrones
simples de cinco dedos utilizando sólo teclas blancas, con teclas negras que se
introducen gradualmente a medida que avanza el entrenamiento. Por lo tanto,
propuso que la ventaja de las teclas blancas para los juicios de PA es el resultado de
la práctica del piano con estas notas durante la primera infancia. En-apoyo de este
argumento, Miyazaki y Ogawa (2006) realizaron un estudio transversal en niños de
4 a 10 años que recibían clases de teclado y descubrieron que, en general, los niños
adquirían la capacidad de nombrar los tonos de las notas en el orden en que
aparecían en las clases.
La hipótesis de que la ventaja de la tecla blanca se debe a un entrenamiento
temprano en el piano se evaluó en el estudio de Deutsch et al. (2011). Aquí se
compararon dos grupos de instrumentistas que comenzaron su formación musical a
los 9 años o antes. Un grupo había comenzado su formación en el piano, y el piano
era actualmente su instrumento principal; el otro grupo había comenzado su
formación en un instrumento sin teclado, como el violín, y actualmente tocaban un
instrumento sin teclado. Como se muestra en la figura 8, ambos grupos mostraron un
claro efecto de teclas blancas/negras, que fue mayor entre los que no tocaban el
teclado. Estos resultados sostienen que el efecto tecla blanca/negra no puede
atribuirse a una formación temprana en las notas blancas del piano.
Takeuchi y Hulse (1991) propusieron otra explicación para el efecto clave
blanca/negra. Estos autores señalaron que, basándose en la observación general, en
la música tonal occidental los tonos blancos son más frecuentes que los negros, por
lo que deberían procesarse mejor. Esta explicación en términos de frecuencia de
aparición está en consonancia con los hallazgos que muestran que en otras tareas,
como la toma de decisiones léxicas y la denominación de palabras, las respuestas
son más rápidas y precisas a palabras que aparecen con frecuencia que a palabras
186 Diana Deutsch
que aparecen con menos frecuencia (Besner y McCann, 1987). De acuerdo con esta
hipótesis, Simpson y Huron (1994) determinaron el
100
Notas en clave
negra Notas en
90 clave blanca
Porcentaje correcto
80
70
60
Pianista Intérpretes de orquesta
s
Figura 8 Porcentaje medio de aciertos en una prueba de tono absoluto entre los alumnos de
un estudio a gran escala realizado en el Conservatorio de Música de Shanghái,
representado por separado para tonos blancos y tonos negros.
Datos de Deutsch, Le, et al. (2011).
de las diferentes clases de tono de una muestra de obras de Bach y Haydn, y

descubrió que esta distribución se correlacionaba significativamente con la
distribución de los tiempos de reacción obtenida por Miyazaki (1989) de siete
poseedores de PA. Huron (2006) propuso, de acuerdo con Takeuchi y Hulse, que la
prevalencia de PA para las diferentes clases de tono podría diferir en asociación con
su frecuencia de aparición en la música a la que ha estado expuesto el oyente.
En un análisis a gran escala, Deutsch et al. (2011) trazaron el porcentaje de
identificaciones correctas de cada clase de tono, tomando los 135 sujetos del estudio
que habían comenzado su formación musical a los nueve años o antes.
Correlacionamos estos porcentajes con el número de apariciones de cada clase de
tono en el Diccionario Electrónico de Temas Musicales de Barlow y Morgenstern
(2008), datos que nos proporcionó amablemente David Huron. Como se muestra en
la figura 9, existe una correlación muy significativa entre la precisión en el
nombramiento de notas y la frecuencia de aparición de las diferentes clases de tonos
en esta colección representativa de notas. El resultado es especialmente llamativo si
se tiene en cuenta que el repertorio utilizado en las clases del Conservatorio de
Música de Shanghái, aunque proviene principalmente de la música tonal occidental,
también contiene una mayor proporción de música rusa y china que la que se utiliza
en los conservatorios occidentales.
Athos et al. (2007) propusieron otro enfoque del efecto de la clase de tono en el
estudio basado en Internet descrito anteriormente. Observaron una tendencia general
de los sujetos a identificar erróneamente las notas como un semitono sostenido (por
ejemplo, identificar erróneamente la nota
nota Dx como E). En particular, la nota Gx se identificó erróneamente con
frecuencia como A. Basándose en este último hallazgo, los autores propusieron que,
puesto que el concierto A se utiliza como referencia para la afinación de orquestas,
la clase de tono A podría servir como "imán perceptivo" (Kuhl,
1991), ampliando así la región perceptual que los oyentes suponen que corresponde
188 Diana Deutsch
a esta nota. Sin embargo, según su hipótesis, cabría esperar que la nota A fuera
90
85
E A D
B
80
F C
correctamente (%)
C
Nota nombrada
75 G
F
70 D
A
65
R2 = 0,6489
G
60
10,000 15,000 20,000 25,000
Recuento de notas del repertorio clásico
Figura 9 Porcentaje medio de aciertos en una prueba de tono absoluto entre los estudiantes de
un estudio a gran escala realizado en el Conservatorio de Música de Shanghái, trazado para
cada clase de tono por separado, y frente al número de apariciones de cada clase de tono en
el Diccionario Electrónico de Temas Musicales de Barlow y Morgenstern (2008).
De Deutsch, Le, et al. (2011).
más frecuentemente identificada correctamente, aunque Athos et al. no obtuvieron

este resultado. Parece, por tanto, que la tendencia a identificar erróneamente Gx
como A puede atribuirse mejor a la tendencia general a identificar erróneamente las
notas en dirección aguda. En una investigación adicional sobre este tema, Deutsch et
al. (2011) confirmaron la tendencia general a identificar erróneamente las notas
como un semitono sostenido; sin embargo, no se encontró un estatus especial para la
nota A. En concreto, la probabilidad de identificar erróneamente Gx como A fue del
7,9%, y de
de identificar erróneamente Gx como G era del 6,17%. Sin embargo, la probabilidad
de identificar erróneamente Ax
como A fue sólo del 3,21%, mientras que la probabilidad de identificar
erróneamente Ax como B fue del 12,59%. Así pues, los resultados de este estudio
son contrarios a la hipótesis de que la nota A actúa como un imán perceptivo.
Como cuestión relacionada, muchos músicos afirman que pueden identificar un
único tono de referencia con facilidad, por ejemplo, el La de concierto en el caso de
los violinistas y el Do central en el caso de los pianistas (Bachem, 1955; Baggaley,
1974; Baird, 1917; Balzano, 1984; Revesz, 1953; Seashore, 1940; Takeuchi y Hulse,
1993). Sin embargo, las pruebas formales con notas presentadas en orden aleatorio
no han confirmado esta opinión (Takeuchi, 1989; Deutsch et al., 2011), por lo que
esta impresión informal podría haberse obtenido a partir de juicios realizados en
entornos musicales concretos. Quedan por identificar las condiciones en las que los
no poseedores de PA podrían identificar un tono de referencia con precisión.
190 Diana Deutsch
B. Colocación de octavas
Varios estudios han demostrado que los poseedores de PA nombran las notas con
mayor precisión cuando se encuentran en registros de tono centrales (Bachem, 1948;
Baird, 1917; Miyazaki, 1989; Rakowski, 1978; Rakowski y Morawska-Bungeler,
1987). Es de esperar que la precisión de la denominación de notas se reduzca en los
extremos alto y bajo de la gama musical, porque aquí se pierde el aspecto musical
del tono (Burns, 1999; Lockhead y Byrd, 1981; Pressnitzer, Patterson y Krumbholz,
2001; Semal y Demany, 1990; Takeuchi y Hulse, 1993). Sin embargo, también se ha
observado que la precisión al nombrar notas varía en función del registro en la parte
media de la gama musical. Miyazaki (1989) presentó notas que abarcaban más de
siete octavas y descubrió que el mejor rendimiento se producía para notas entre Do4
y Do6 , con un descenso del rendimiento a ambos lados de este rango, y un descenso
más pronunciado en el lado inferior, como se muestra en la figura 10. Deutsch et al.
(2011) obtuvieron un resultado similar considerando solo las notas de las tres
octavas centrales (Do3 -B5 ). El rendimiento en la octava inferior fue aquí
significativamente peor que en la octava central o superior, mientras que la
diferencia entre las octavas central y superior no fue significativa. En general, el
efecto del registro podría estar relacionado con la frecuencia de aparición de las
distintas notas en la música occidental, aunque esta conjetura está pendiente de una
investigación formal.
C. Timbre
Aunque algunos poseedores de PA nombran los tonos con precisión
independientemente de cómo los produzcan -por ejemplo, cuando los producen las
bocinas de los coches, las aspiradoras, los aparatos de aire acondicionado, etc.-,
otros sólo son precisos para uno o dos timbres de instrumentos con los que están
familiarizados. Los timbres de piano parecen ser especialmente propicios para un
alto nivel de denominación de notas (Athos et al., 2007; Baharloo et al., 1998;
Lockhead &
100 Figura 10 Porcentaje medio de aciertos

en una prueba de afinación absoluta en
función de la ubicación en la octava y
80 del timbre del instrumento. 15C1 -B1 ;
25C2 -B2 ; 35C3 -B3 ; 45C4 -B4 ; 55C5 -
B5 ;
60
65C6 -B6 ; 75C7 -B7 .
Porcentaje
De Miyazaki (1989). ©1989 Regentes

correcto
40 de la Universidad de California.
20
Tono de piano
Tono complejo
0 Tono puro
1 2 3 4 5 6 7
Posición de octava
192 Diana Deutsch
Byrd, 1981; Rakowski y Morawska-Bungeler, 1987; Takeuchi y Hulse, 1993; Ward,

1999). Por ejemplo, Lockhead y Byrd (1981) descubrieron que los oyentes que
obtenían un 99% de aciertos en los tonos de piano sólo obtenían un 58% de aciertos
(69% descontando los errores de octava) en los tonos puros.
Miyazaki (1989) hizo que siete poseedores de PA identificaran tonos puros, tonos
complejos "como de piano" y tonos de piano. Como se muestra en la Figura 10, el
rendimiento fue más preciso para los tonos de piano, menos preciso para los tonos
similares a los de piano y menos preciso para los tonos puros. Además, en un
estudio a gran escala, Lee y Lee (2010) examinaron la precisión de la identificación
de notas para piano sintetizado, viola y tonos puros. Encontraron un fuerte efecto del
timbre, con una mayor precisión para los tonos de piano, menor para los tonos de
viola y menor para los tonos puros.
Sergeant (1969) demostró una implicación más general del timbre en la PA.
Grabó tonos de varios instrumentos diferentes y empalmó sus partes iniciales,
haciendo que sus timbres fueran desconocidos. Sergeant argumentó que el factor
importante en este caso no era el patrón de armónicos, sino la familiaridad general
con la calidad del sonido percibido. Por tanto, las decisiones de PA no sólo implican
el procesamiento de los valores tonales, sino que se derivan de la evaluación de la
nota como un todo, tomada como un conjunto de valores de atributos. Este
argumento concuerda con la conjetura de que el PA evolucionó originalmente para
servir a los sonidos del habla, que se presentan como conjuntos de características,
como las consonantes y las vocales.
VIII. Cambios de tono en los poseedores de AP

Aunque los no poseedores de PA son capaces de detectar cambios de tono de tonos
individuales o grupos de tonos, salvo raras excepciones, sólo los poseedores de PA
notan un cambio de toda la afinación del mecanismo auditivo. En concreto, se han
identificado dos fuentes de cambios de tono: los que se producen con la edad y los
asociados a la medicación. Estos cambios de tono también pueden ocurrir en la
población general, aunque los no poseedores de PA podrían no ser sensibles a ellos.
A. Asociación con la edad avanzada

- poseedores de PA suelen notar que los tonos son
A partir de los 40-50 años, los
ligeramente más agudos o más graves de lo que eran antes. Entre las personas que
han descrito estos cambios de tono se encuentra J. F. Beck, que observó a los 40
años que empezaba a oír las notas un semitono más agudas; este cambio de tono
aumentó a dos semitonos a los 58 años y a tres semitonos a los 71 años (Ward,
1999). Asimismo, P. E. Vernon (1977) observó que a los 52 años oía la música un
semitono "demasiado agudo" y a los 71 como dos semitonos "demasiado agudos".
Por otra parte, algunos poseedores de PA han observado que los tonos parecen más
aplanados y, sin embargo, otros no parecen experimentar un cambio de tono con la
edad (Carpenter, 1951).
Athos et al. (2007), en su estudio basado en la Web, descubrieron que los errores
en la denominación del tono tendían a aumentar con la edad, de modo que ningún
sujeto de su estudio mayor de 51 años identificó correctamente todos los tonos de su
prueba. Estos cambios de tono tendían a ser agudos, aunque no de forma
sistemática. Athos et al. plantearon la hipótesis de que estos desplazamientos de
tono podrían deberse a cambios en las propiedades mecánicas de la cóclea, aunque
por el momento se desconoce la base fisiológica de este efecto.
B. Asociación con la medicación

La carbamazepina, un fármaco ampliamente utilizado para el tratamiento de la
epilepsia y otros trastornos, ha sido objeto de especial interés en lo que respecta a los
cambios de tono provocados por la medicación. Varios estudios han demostrado que
este fármaco produce un cambio de tono descendente de aproximadamente un
semitono, aunque afortunadamente el efecto desaparece rápidamente cuando se deja
de tomar el fármaco (Chaloupka, Mitchell, & Muirhead, 1994; Fujimoto, Enomoto,
Takano y Nose, 2004; Konno, Yamazaki, Kudo, Abe y Tohgi, 2003; Tateno,
Sawada, Takahashi y Hujiwara, 2006; Yoshikawa y Abe, 2003). Los no poseedores
de PA que han tomado carbamazepina a veces afirman que el fármaco hace que los
tonos parezcan anormales, y unos pocos no poseedores han sido capaces de señalar
la dirección del cambio de tono como descendente. Por el contrario, los poseedores
de PA pueden documentar el cambio de tono con confianza; de hecho, a menudo
encuentran el efecto desconcertante, y un paciente informó de que producía "una
insoportable sensación de incongruencia" (Konno et al., 2003).
Braun y Chaloupka (2005) llevaron a cabo un examen detallado del cambio de
tono bajo carbamazepina en un concertista de piano. En un estudio doble ciego que
incluía todos los tonos dentro de un rango de seis octavas, el sujeto desplazó una
barra del ratón en la pantalla de un ordenador para hacer coincidir las
representaciones visuales de los tonos presentados con sus tonos percibidos de
forma precisa. Como se muestra en la Figura 11, la carbamazepina produjo un
desplazamiento de tono hacia abajo en relación con el placebo que fue, en promedio,
un poco menos de un semitono, con la extensión del desplazamiento aumentando
sistemáticamente desde las octavas más bajas a las más altas. Otro hallazgo
interesante fue que el efecto de clave blanca/negra persistió con la carbamazepina.
Esto se aplicó a los tonos percibidos y no a los tonos presentados, lo que indica que
el efecto inducido por la carbamazepina se produce en una fase periférica a la
implicada en el efecto de clave blanca/negra. Aparte de esto, se desconoce la base
neural de este cambio de tono, aunque se ha planteado la hipótesis de que es de
origen periférico (Braun y Chaloupka, 2005; Yoshikawa y Abe, 2003).
IX. AP en poblaciones especiales

La prevalencia del PA es inusualmente alta en ciertas poblaciones poco frecuentes.
Curiosamente, la PA en estas poblaciones se asocia con patrones de activación
cerebral en respuesta a sonidos que difieren de los patrones encontrados entre los
194 Diana Deutsch
poseedores de PA en la población general.

20 Figura 11 Desplazamiento del

t o n o i n d u c i d o por la
carbamazepina. Los datos
0 muestran, para un solo sujeto, la
magnitud del desplazamiento del
tono hacia abajo inducido por la
-20
carbamazepina en relación con
el placebo, en función de la
Desviación mediana
-40 octava del tono presentado.

Adaptado de Braun y Chaloupka
(2005).
(céntimos)
-60
-80
-100
Placebo
-120 Carbamazepina
C1-C2 C2-C3 C3-C4 C4-C5 C5-C6 C6-C7
Octava
El PA es muy frecuente entre los músicos ciegos, tanto los que son
congénitamente ciegos como los que han perdido la visión muy pronto en la vida
(Bachem, 1940; Gaab, Schulze, Ozdemir y Schlaug, 2006; Hamilton, Pascual-Leone
y Schlaug, 2004; Welch, 1988). Por ejemplo, Hamilton et al. (2004) descubrieron
que de los 21 sujetos ciegos tempranos con formación musical, el 57% eran
poseedores de PA, algunos de los cuales incluso habían empezado a tomar clases de
música en la infancia tardía. Los ciegos prematuros, como grupo, también son
superiores a los videntes a la hora de juzgar la dirección del cambio de tono y de
localizar sonidos (Gougoux, Lepore, Lassonde, Voss, Zatorre y Belin, 2004; Roder
et al., 1999; Yabe y Kaga, 2005). Por lo tanto, parece que la alta prevalencia de PA
en este grupo refleja un cambio general en el énfasis de los recursos cerebrales del
dominio visual al auditivo. En cuanto a los fundamentos neurológicos, se ha
observado que los ciegos que poseen PA producen una mayor activación en áreas no
auditivas, como las áreas visuales y parietales, al realizar tareas de memoria del tono
(Ross, Olson y Gore, 2003; Gaab et al., 2006). Además, Hamilton et al. (2004)
observaron una mayor variabilidad en la asimetría del TP en ciegos precoces en
comparación con los poseedores de PA videntes.
También hay pruebas de que el PA es más frecuente entre los autistas. El autismo
es un trastorno raro del neurodesarrollo caracterizado por déficits intelectuales y
comunicativos que se dan en combinación con islas de capacidades específicas
potenciadas. Existen formas extremas de este síndrome en los autistas savants, que
muestran discrepancias extraordinarias entre deficiencias cognitivas generales y
logros espectaculares en ámbitos específicos. Sus talentos prodigiosos suelen ser
musicales. El AP es muy frecuente entre los sabios musicales en asociación con
otras capacidades excepcionales.
196 Diana Deutsch
habilidades musicales, por ejemplo, para componer, interpretar, improvisar y

recordar grandes segmentos de música tras una exposición muy reducida (Mottron,
Peretz, Belleville y Rouleau, 1999; Miller, 1989; Young y Nettlebeck, 1995).
Los individuos autistas no salvajes a menudo muestran un interés particular en la
música (Kanner, 1943; Rimland y Hill, 1984) y muestran una discriminación,
categorización y memoria sustancialmente mejoradas para los tonos de los tonos
musicales (Bonnel et al., 2003; Heaton, 2003, 2005, 2009; Heaton, Hermelin y
Pring, 1998) y muestras del habla (Ja¨rvinen-Pasley, Wallace, Ramus, Happe y
Heaton, 2008). Se ha sugerido que la categorización superior de sonidos encontrada
en individuos autistas que carecen de entrenamiento musical podría indicar una
predisposición a adquirir PA (Heaton et al., 1998). Sin embargo, como precaución,
Heaton, Williams, Cummins y Happe (2008) han señalado que los autistas que
obtienen puntuaciones discretamente altas en tareas musicales podrían representar
un subgrupo especializado dentro de la población autista.
Con respecto a los fundamentos neurológicos, aunque los volúmenes anormales
de TP ocurren en personas autistas, este patrón de asimetría es bastante diferente al
de los poseedores normales de PA (Rojas, Bawn, Benkers, Reite, & Rogers, 2002;
Rojas, Camou, Reite, & Rogers, 2005). Rojas et al. (2002), en un estudio de
resonancia magnética, hallaron que el volumen del TP se reducía significativamente
en el hemisferio izquierdo en un grupo de adultos autistas en comparación con los
controles normales. Sin embargo, los dos grupos no mostraban diferencias en el
hemisferio derecho, de modo que el grupo autista presentaba esencialmente una
simetría del TP izquierdo y derecho. Posteriormente, Rojas et al. (2005) confirmaron
este patrón en niños autistas.
También se ha planteado la hipótesis de que existe una mayor prevalencia de PA
entre las personas con síndrome de Willliams. Se trata de un raro trastorno del
neurodesarrollo de origen genético, caracterizado por déficits intelectuales de leves a
moderados y rasgos faciales distintivos, junto con otras anomalías fisiológicas.
Lenhoff, Perales y Hickok (2001) descubrieron en un estudio exploratorio que cinco
individuos con síndrome de Williams poseían AP, y argumentaron que este número
era más alto de lo que cabría esperar; sin embargo, la incidencia relativa de AP entre
las personas con síndrome de Williams se desconoce en la actualidad.
X. Conclusión
El tono absoluto es un fenómeno intrigante sobre el que se ha especulado durante
mucho tiempo y que recientemente ha suscitado el interés de investigadores de una
amplia variedad de disciplinas, como la música, la psicología, la neurociencia y la
genética. Aunque se había considerado una capacidad encapsulada, su estudio ha
contribuido a la comprensión de muchas cuestiones, como los periodos críticos en el
desarrollo perceptivo y cognitivo, las relaciones entre el lenguaje y la música, la
influencia del lenguaje en la percepción, los correlatos neuroanatómicos de las
capacidades especializadas y el papel de los factores genéticos en la percepción y la
cognición. El estudio de esta capacidad debería reportar considerables dividendos en
los años venideros.
Agradecimientos
Agradezco a Trevor Henthorn su ayuda con las ilustraciones y a Frank Coffaro su ayuda con
el formato de las referencias. La preparación de este capítulo ha contado en parte con el apoyo
de un Premio de Investigación Interdisciplinar de la Universidad de California en San Diego.
Referencias
Athos, E. A., Levinson, B., Kistler, A., Zemansky, J., Bostrom, A., & Freimer, N., et al.
(2007). Dicotomía y distorsiones perceptivas en la capacidad de tono absoluto. Actas de
la Academia Nacional de Ciencias, EE.UU., 104, 14795 - 14800.
Bachem, A. (1940). La génesis del tono absoluto. Journal of the Acoustical Society of
America, 11, 434 - 439.
Bachem, A. (1948). Chroma fixation at the ends of the musical frequency scale. Journal of
the Acoustical Society of America, 20, 704 -705.
Bachem, A. (1954). Factores temporales en la determinación del tono relativo y absoluto.
- 26, 751 753.
Bachem, A. (1955). Absolute pitch. Journal of the Acoustical Society of America, 27, 1180
1185.-
Baggaley, J. (1974). Medición del tono absoluto: un campo confuso. Psychology of Music, 2,
11 17.-
Baharloo, S., Johnston, P. A., Service, S. K., Gitschier, J., & Freimer, N. B. (1998). Absolute
pitch: an approach for identification of genetic and nongenetic components. American
Journal of Human Genetics, 62, 224 - 231.
Baharloo, S., Service, S. K., Risch, N., Gitschier, J., & Freimer, N. B. (2000). Agregación
familiar del tono absoluto. American Journal of Human Genetics, 67, 755 758.-
Baird, J. W. (1917). Memory for absolute pitch. En E. C. Sanford (Ed.), Studies in psychol-
ogy, Titchener commemorative volume (pp. 43 - 78). Worcester, MA: Wilson.
Balzano, G. J. (1984). Absolute pitch and pure tone identification. Journal of the Acoustical
Barlow, H., & Morgenstern, S. (2008). Diccionario electrónico de temas musicales.
Biblioteca multimedia .
Bates, E. (1992). Desarrollo del lenguaje. Current Opinion in Neurobiology, 2, -180 185.
Benguerel, A., y Westdal, C. (1991). Absolute pitch and the perception of sequential musi-
cal. Music Perception, 9, 105 119. -
Bergeson, T. R., y Trehub, S. E. (2002). Absolute pitch and tempo in mothers' songs to
infants. Psychological Science, 13, 72 -
75.
Bermúdez, P., & Zatorre, R. J. (2005). Conditional associative memory for musical stimuli in
nonmusicians: implications for absolute pitch. Journal of Neuroscience, 25, 7718 7723.
Bermúdez,-P., & Zatorre, R. J. (2009a). La distribución de la capacidad de afinación absoluta
-
revelada por pruebas computarizadas. Percepción Musical, 27, 89 101.
Bermúdez, P., & Zatorre, R. J. (2009b). La mente de tono absoluto sigue revelándose.
Journal of Biology, 8, 75. doi:10.1186/jbiol171
Besner, D., & McCann, R. S. (1987). Frecuencia de palabras y distorsión de patrones en la
identificación y producción visual de palabras: un examen de cuatro clases de modelos.
En M.
198 Diana Deutsch
Coltheart (Ed.), Atención y rendimiento XII: La psicología de la lectura

(pp. 201 - 219). Hillsdale, NJ: Erlbaum.
Bonnel, A., Mottron, L., Peretz, I., Trudel, M., Gallun, E., & Bonnel, A.-M.. (2003).
Enhanced pitch sensitivity in individuals with autism: a signal detection analysis.
Journal of Cognitive Neuroscience, - 15, 226 235.
Brady, P. T. (1970). Mecanismo de escala fija del tono absoluto. Journal of the Acoustical
Braun, M., & Chaloupka, V. (2005). Carbamazepine induced pitch shift and octave space
representation. Hearing Research, 210, 85-92.
Burnham, D., & Brooker, R. (2002). Tono absoluto y tonos léxicos: Tone perception by non-
musician, musician, and absolute pitch non-tonal language speakers. En J. Hansen, & B.
Pellom (Eds.), The 7th International Conference on Spoken Language Processing (pp.
257 260).-Denver.
Burns, E. M. (1999). Intervals, scales, and tuning (Intervalos, escalas y afinación). En D.
-
Deutsch (Ed.), The psychology of music (2ª ed., pp. 215 264). San Diego, CA: Academic
Press.
Burns, E. M., y Campbell, S. L. (1994). Frequency and frequency-ratio resolution by posses-
sors of absolute and relative pitch: examples of categorical perception? Journal of the
Carpenter, A. (1951). Un caso de tono absoluto. Quarterly Journal of Experimental
Psychology, 3, 92 - 93.
Carroll, J. B. (1975). Speed and accuracy of absolute pitch judgments: some latter-day results.
Boletín de investigación del Educational Testing Service. Princeton, NJ: Educational
Testing Service (RB-75-35).
Chalikia, M. H., y Leinfelt, F. (2000). Listeners in Sweden perceive tritone stimuli in a man-
ner different from that of Americans and similar to that of British listeners. Journal of
the Acoustical Society of America, 108, 2572.
Chalikia, M. H., Norberg, A. M., & Paterakis, L. (2000). Los oyentes bilingües griegos
perciben los estímulos de tritono de forma diferente a los hablantes de inglés. Journal of
the Acoustical Society of America, 108, 2572.
Chalikia, M. H., y Vaid, J. (1999). Perception of the tritone paradox by listeners in Texas: a
re-examination of envelope effects. Journal of the Acoustical Society of America, 106,
2572.
Chaloupka, V., Mitchell, S. y Muirhead, R. (1994). Observation of a reversible, medica- tion-
induced change in pitch perception. Journal of the Acoustical Society of America, 96,
145 149.-
Corliss, E. L. (1973). Observación sobre el "mecanismo de escala fija del tono absoluto".
- 53, 1737 1739.
Cuddy, L. L. (1968). Efectos de la práctica en el juicio absoluto del tono. Journal of the
Curtiss, S. (1977). Genie: A psycholinguistic study of a modern day "wild child". Nueva York,
NY: Academic Press.
Dawe, L. A., Platt, J. R. y Welsh, E. (1998). Spectral motion after-effects and the tritone
paradox among Canadian subjects. Perception & Psychophysics, 60, 209 220. -
Dennis, M., y Whitaker, H. A. (1976). Language acquisition following hemidecortication:
linguistic superiority of the left over the right hemisphere. Brain and Language, 3,
404- 433.
Deutsch, D. (1970). Tonos y números: especificidad de la interferencia en la memoria a corto
plazo.
Science, 168, 1604-1605.
Deutsch, D. (1975). La organización de la memoria a corto plazo para un solo atributo

acústico. En D. Deutsch, & J. A. Deutsch (Eds.), Short-term memory - (pp. l07 l51).
Nueva York, NY: Academic Press.
Deutsch, D. (1986). Una paradoja musical. Music Perception, 3, 275 - 280.
Deutsch, D. (1987). La paradoja del tritono: efectos de las variables espectrales. Perception &
Deutsch, D. (1988). La paradoja del semitono. Music Perception, 6, 115 - 132.
Deutsch, D. (1991). La paradoja del tritono: influencia del lenguaje en la percepción musical.
Deutsch, D. (1992). Algunas nuevas paradojas del tono y sus implicaciones. Procesamiento
auditivo de sonidos complejos. Philosophical Transactions of the Royal Society, Serie B,
336,
391- 397.
Deutsch, D. (2002). El rompecabezas del tono absoluto. Current Directions in Psychological
Science, 11, 200 - 204.
Deutsch, D. (1994). La paradoja del tritono: algunos correlatos geográficos adicionales. Music
Perception, 12, 125 - 136.
Deutsch, D., Dooley, K., & Henthorn, T. (2008). Pitch circularity from tones comprising full
series harmonic. Journal of the Acoustical Society of America, 124, 589 597. -
Deutsch, D., Dooley, K., Henthorn, T., & Head, B. (2009). Absolute pitch among students in
an American music conservatory: association with tone language fluency. Journal of the
Acoustical Society of America, 125, 2398 2403. -
Deutsch, D., Henthorn, T., & Dolson, M. (1999). El tono absoluto se demuestra en hablantes
de lenguas tonales. Journal of Acoustical Society of America, 106, 2267.
Deutsch, D., Henthorn, T., & Dolson, M. (2004a). Absolute pitch, speech, and tone language:
some experiments and a proposed framework. Music Perception, 21, 339 356. -
Deutsch, D., Henthorn, T. y Dolson, M. (2004b). Speech patterns heard early in life influ-
ence later perception of the tritone paradox. Music Perception, 21, 357 372.-
Deutsch, D., Henthorn, E., Marvin, W., & Xu, H.-S. (2006). Absolute pitch among American
and Chinese conservatory students: prevalence differences, and evidence for speech-
related critical period. Journal of the Acoustical Society of America, 119, 719-722.
Deutsch, D., Kuyper, W. L., & Fisher, Y. (1987). La paradoja del tritono: su presencia y
forma de distribución en una población general. Music Perception, - 5, 79 92.
Deutsch, D., Le, J., Shen, J., & Henthorn, T. (2009). Los niveles de tono del habla femenina
en dos pueblos chinos. Journal of the Acoustical Society of America Express Letters,
125, 208- 213.
Deutsch, D., Le, J., Shen, J. y Li, X. (2011). Large-scale direct-test study reveals unex- pected
characteristics of absolute pitch. Journal of the Acoustical Society of America, 130,
2398.
Deutsch, D., Moore, F. R., & Dolson, M. (1986). The perceived height of octave-related
complexes. Journal of the Acoustical Society of America, 80, 1346 1353.-
Deutsch, D., North, T., & Ray, L. (1990). The tritone paradox: correlate with the listener's
-
vocal range for speech. Music Perception, 7, 371 384.
Dolson, M. (1994). El tono del habla en función de la comunidad lingüística. Music
Perception, 11, 321 - 331.
Dooley, K., & Deutsch, D. (2010). Absolute pitch correlates with high performance on musi-
-
cal dictation. Journal of the Acoustical Society of America, 128, 890 893.
Dooley, K., y Deutsch, D. (2011). Absolute pitch correlates with high performance on inter-
val naming tasks. Journal of the Acoustical Society of America, 130, 4097-4104.
200 Diana Deutsch
Doupe, A. J., & Kuhl, P. K. (1999). Birdsong and human speech: common themes and
mechanisms. Annual Review of Neuroscience, 22, 567 - 631.
Drayna, D. T. (2007). El tono absoluto: Un grupo especial de oídos. Proceedings of the
National Academy of Sciences, U.S.A, 104, - 14549 14550.
Duchowny, M., Jayakar, P., Harvey, A. S., Resnick, T., Alvarez, L., & Dean, P., et al. (1996).
Language cortex representation: effects of developmental versus acquired pathology.
Annals of Neurology, 40, 31 38. -
Edmondson, J. A., Chan, J.-L., Seibert, G. B., & Ross, E. D. (1987). The effect of right brain
damage on acoustical measures of affective prosody in Taiwanese patients. Journal of
Phonetics, 15, 219 -233.
Fujimoto, A., Enomoto, T., Takano, S., & Nose, T. (2004). Pitch perception abnormality as a
-
side effect of carbamazepine. Journal of Clinical Neuroscience, 11, 69 70.
Fujisaki, W., y Kashino, M. (2002). Las capacidades auditivas básicas de los poseedores del tono
absoluto.
Acoustical Science and Technology, 23, 77 - 83.
Gaab, N., Schulze, K., Ozdemir, E., & Schlaug, G. (2006). Neural correlates of absolute pitch
differ between blind and sighted musicians. NeuroReport, 17, 1853 1857. -
Gandour, J., y Dardarananda, R. (1983). Identificación de contrastes tonales en pacientes
- 18, 98 114.
afásicos tailandeses. Brain and Language,
Gandour, J., Ponglorpisit, S., Khunadorn, F., Dechongkit, S., Boongird, P., & Boonklam, R.,
et al. (1992). Lexical tones in Thai after unilateral brain damage. Brain and Language,
43, 275- 307.
Gandour, J., Wong, D. y Hutchins, G. (1998). Pitch processing in the human brain is influ-
enced by language experience. Neuroreport, 9, 2115 - 2119.
Geschwind, N., y Fusillo, M. (1966). Defectos de denominación de colores en asociación con la
alexia.
Archivos de Neurología, 15, 137-146.
Geschwind, N., y Levitsky, W. (1968). Human brain: left-right asymmetries in temporal
speech region. Science, 161, 186 -187.
Giangrande, J. (1998). La paradoja del tritono: efectos de la clase de tono y la posición de la
-
envolvente espectral. Percepción musical, 15, 253 264.
Gorelick, P. B., & Ross, E. D. (1987). The aprosodias: further functional-anatomic evidence
for organization of affective language in the right hemisphere. Revista de Neurología,
Neurocirugía y Psiquiatría, 50, 553 560.-
Gough, E. (1922). The effects of practice on judgments of absolute pitch. Archives of
Psychology, 7, 1 -93.
Gougoux, F., Lepore, F., Lassonde, M., Voss, P., Zatorre, R. J., & Belin, P. (2004). Pitch dis-
crimination in the early blind. Nature, 430, 309.
Gregersen, P. K., Kowalsky, E., Kohn, N., & Marvin, E. W. (1999). Absolute pitch: preva-
lence, ethnic variation, and estimation of the genetic component. American Journal of
Human Genetics, 65, 911 - 913.
Gregersen, P. K., Kowalsky, E., Kohn, N., & Marvin, E. W. (2001). Early childhood music
education and predisposition to absolute pitch: teasing apart genes and environment.
American Journal of Medical Genetics, 98, 280 - 282.
Gussmack, M. B., Vitouch, O., & Gula, B. (2006). El tono absoluto latente: ¿Una capacidad
ordinaria? En M. Baroni, A. R. Addessi, R. Caterina, & M. Costa (Eds.), Proceedings of
the 9th International Conference on Music Perception and Cognition (pp. 1408-1412).
Bolonia, Italia: Bononia University Press.
Halpern, A. R. (1989). Memory for the absolute pitch of familiar songs. Memory and
Cognition, 17, 572-581.
Hamilton, R. H., Pascual-Leone, A., & Schlaug, G. (2004). Absolute pitch in blind musi-
cians. NeuroReport, 15, 803 - 806.
Hantz, E. C., Kreilick, K. G., Braveman, A. L., & Swartz, K. P. (1995). Effects of musical
training and absolute pitch on a pitch memory task an event-related-potential study.
Psychomusicology, 14, 53 - 76.
Heaton, P. (2003). Pitch memory, labelling and disembedding in autism. Journal of Child
Psychology and Psychiatry, 44, 1 - 9.
Heaton, P. (2005). Procesamiento de intervalos y contornos en el autismo. Revista de autismo
y trastornos del desarrollo, 8, 1-7.
Heaton, P. (2009). Evaluación de las habilidades musicales en niños autistas que no son
savants.
Philosophical Transactions of the Royal Society B, 364, 1443 1447.
-
Heaton, P., Hermelin, B., & Pring, L. (1998). Autism and pitch processing: a precursor for
savant musical ability? Music Perception, 15, 291 - 305.
Heaton, P., Williams, K., Cummins, O., & Happe, F. (2008). El autismo y el procesamiento de
- 12, 203 219.
tono astillas habilidades. Autismo,
Heller, M. A., y Auerbach, C. (1972). Practice effects in the absolute judgment of frequency.
Psychonomic Science, 26, 222 224. -
Henthorn, T., y Deutsch, D. (2007). Etnia versus entorno temprano: Comentario sobre 'Early
Childhood Music Education and Predisposition to Absolute Pitch: Teasing Apart Genes and
Environment' de Peter K. Gregersen, Elena Kowalsky, Nina Kohn y Elizabeth West Marvin
[2000]. American Journal of Medical Genetics, 143A, 102 - 103.
Hess, E. H. (1973). Imprinting: Early experience and the developmental psychobiology of
attachment. Nueva York, NY: Van Nordstrand Reinhold.
Hickok, G., & Poeppel, D. (2007). La organización cortical del procesamiento del habla.
Nature Reviews Neuroscience,-8, 393 402.
Hirose, H., Kubota, M., Kimura, I., Ohsawa, M., Yumoto, M., & Sakakihara, Y. (2002). Las
personas con tono absoluto procesan tonos con producción de P300. Neuroscience
- 247 250.
Letters, 330,
Hsieh, I.-H., & Saberi, K. (2007). Temporal integration in absolute identification of musical
pitch. Hearing Research, 233, 108 - 116.
Hsieh, I.-H., & Saberi, K. (2008). Language-selective interference with long-term memory for
musical pitch. Acta Acustica unida a Acustica, 94, 588 593. -
Hubel, D. H., & Wiesel, T. N. (1970). The period of susceptibility to the physiological effects
of unilateral eye closure in kittens. Journal of Physiology, 206, 419 436. -
Hughes, C. P., Chan, J. L., & Su, M. S. (1983). Aprosodia en pacientes chinos con lesiones
del hemisferio cerebral derecho . Archives of Neurology, 40, - 732 736.
Huron, D. (2006). Sweet anticipation. Cambridge, MA: MIT Press.
Itoh, K., Suwazono, S., Arao, H., Miyazaki, K. y Nakada, T. (2005). Electrophysiological
correlates of absolute pitch and relative pitch. Cerebral Cortex, 15, 760 769.
-
Ja¨rvinen-Pasley, A., Wallace, G. L., Ramus, F., Happe, F., & Heaton, P. (2008). Enhanced
-
perceptual processing of speech in autism. Developmental Science, 11, 109 121.
Johnson, J. S., y Newport, E. L. (1989). Critical periods in second language learning: the
influence of maturational state on the acquisition of English as a second language.
Cognitive Psychology, 21, 60 - 99.
Jun, J., Kim, J., Lee, H., & Jun, S. -A. (2006). The prosodic structure and pitch accent of
Coreano Kyungsang del Norte. Journal of East Asian Linguistics, 15, 289-317.
Kanner, L. (1943). Alteraciones autistas del contacto afectivo. El niño nervioso, 2, 217-250.
202 Diana Deutsch
Keenan, J. P., Thangaraj, V., Halpern, A. R., & Schlaug, G. (2001). Absolute pitch and pla-
num temporale. NeuroImage, 14, 1402 - 1408.
Klein, M., Coles, M. G. H., & Donchin, E. (1984). Las personas con tono absoluto procesan
- 1309.
los tonos sin producir un P300. Science, 223, 1306
Knudsen, E. I. (1988). Sensitive and critical periods in the development of sound localiza-
tion. En S. S. Easter, K. F. Barald, & B. M. Carlson (Eds.), From message to mind:
Directions in developmental neurobiology. Sunderland, MA: Sinauer Associates.
Konno, S., Yamazaki, E., Kudoh, M., Abe, T., & Tohgi, H. (2003). Half pitch lower sound
perception caused by carbamazepine. Internal Medicine, 42, 880 883.-
Kuhl, P. K. (1991). Human adults and human infants show a 'perceptual magnet effect' for the
prototypes of speech categories, monkeys do not. Percepción y Psicofísica, 50,
93-107.
Kuhl, P., Williams, K., Lacerda, F., Stevens, K., & Lindblom, B. (1992). Linguistic experi-
-
ence alters phonetic perception in infants by 6 months of age. Science, 255, 606 608.
Lane, H. L. (1976). The wild boy of Aveyron. Cambridge, MA: Harvard University Press. Lee,
C.-Y., & Lee, Y.-F. (2010). Perception of musical pitch and lexical tones by Mandarin-
músicos hablantes. Journal of the Acoustical Society of America, 127, 481 490.-
Lenhoff, H. M., Perales, O., & Hickok, G. (2001). Tono absoluto en el síndrome de Williams.
Lennenberg, E. H. (1967). Fundamentos biológicos del lenguaje. New York, NY: Wiley.
Levitin, D. J. (1994). Absolute memory for musical pitch: evidence for the production of learned
melodies. Perception & Psychophysics, 56, 414 423. -
Levitin, D. J., y Rogers, S. E. (2005). Absolute pitch: Perception, coding, and controversies.
Trends in Cognitive Science, 9, 26 - 33.
Liebenthal, E., Binder, J. R., Spitzer, S. M., Possing, E. T., & Medler, D. A. (2005). Neural
substrates of phonemic perception. Cerebral Cortex, 15, 1621 - 1631.
Lockhead, G. R., y Byrd, R. (1981). Practically perfect pitch. Journal of the Acoustical
Loui, P., Li, H., Hohmann, A., & Schlaug, G. (2011). Enhanced cortical connectivity in
absolute pitch musicians: a model for local hyperconnectivity. Journal of Cognitive
Neuroscience, 23, 1015 - 1026.
Macmillan, N. A., Goldberg, R. F., & Braida, L. D. (1988). Resolution for speech sounds:
basic sensitivity and context memory on vowel and consonant continuous. Journal of the
Marvin, E. W., & Brinkman, A. R. (2000). The effect of key color and timbre on absolute
pitch recognition in musical contexts. Music Perception, 18, 111 137.
-
Masataka, N. (2011). Enhancement of speech-relevant auditory acuity in absolute pitch
posessors. Fronteras de la Psicología,-2, 14.
Meyer, M. (1899). ¿Puede desarrollarse por entrenamiento la memoria del tono absoluto?
Psychological Review, 6, 514 - 516.
Miller, L. (1989). Musical savants: Exceptional skills in the mentally retarded. Hillsdale, NJ:
Erlbaum.
Miyazaki, K. (1988). Musical pitch identification by absolute pitch possessors. Perception &
Miyazaki, K. (1989). Absolute pitch identification: effects of timbre and pitch region. Music
Perception, 7, 1 -14.
Miyazaki, K. (1990). La velocidad de identificación del tono musical por los poseedores absolutos
del tono.
Percepción musical, 8, 177-188.
Miyazaki, K. (1992). Perception of musical intervals by absolute pitch possessors. Music

Perception, 9, 413 - 426.
Miyazaki, K. (1993). El tono absoluto como incapacidad: identificación de intervalos
-
musicales en un contexto tonal. Music Perception, 11, 55 72.
Miyazaki, K. (1995). Perception of relative pitch with different references: some absolute-
pitch listeners can't tell musical interval names. Perception & Psychophysics, 57, 962
970.-
Miyazaki, K. (2004). ¿Entendemos bien el tono? Acoustical Science and Technology, 25, 426
432. -
Miyazaki, K., y Ogawa, Y. (2006). Learning absolute pitch by children: a cross-sectional
study. Music Perception, 24, 63 - 78.
Miyazaki, K., & Rakowski, A. (2002). Recognition of notated melodies by possessors and
nonpossessors of absolute pitch. Perception & Psychophysics, 64, 1337 - 1345.
Moen, I., & Sundet, K. (1996). Production and perception of word tones (pitch accents) in
patients with left and right hemisphere damage. Brain and Language, 53, 267 281. -
Mo¨tto¨nen, R., Calvert, G. A., Jaä¨skelaïnen, I. P., Matthews, P. M., Thesen, T., &
Tuomainen, J., et al. (2006). Perceiving identical sounds as speech or non-speech
modulates activity in the left posterior superior temporal sulcus. Neuroimage, 30,
563- 569.
Mottron, L., Peretz, I., Belleville, S., & Rouleau, N. (1999). El tono absoluto en el autismo:
-
estudio de un caso. Neurocase, 5, 485 501.
Mull, H. K. (1925). La adquisición del tono absoluto. American Journal of Psychology, 36,
469- 493.
Naeser, M. A., y Chan, S. W.-C. (1980). Case study of a Chinese aphasic with the Boston
diagnostic aphasia exam. Neuropsychologia, 18, 389 - 410.
Newport, E. L. (1990). Maturational constraints on language learning. Cognitive Science, 14,
11- 28.
Newport, E. L., Bavelier, D., & Neville, H. J. (2001). Pensamiento crítico sobre periodos
críticos. En E. Dupoux (Ed.), Language, brain, and cognitive development: Ensayos en
honor de Jacques Mehler. Cambridge, MA: MIT Press.
Oechslin, M. S., Meyer, M., & Ja¨ncke, L. (2010). Absolute pitch: functional evidence of
speech-relevant auditory acuity. Cerebral Cortex, 20, 447 - 455.
Ohnishi, T., Matsuda, H., Asada, T., Atuga, M., Hirakata, M., & Nishikawa, M., et al. (2001).
Anatomía funcional de la percepción musical en músicos. Cerebral Cortex, 11, 754 760.
Packard,-J. L. (1986). Tone production deficits in nonfluent aphasic Chinese speech. Brain
and Language, 29, 212 - 223.
Patkowski, M. S. (1990). Edad y acento en una segunda lengua: respuesta a James Emil Flege.
Lingüística aplicada, 11, 73-89.
Patterson, R. D. (1990). La altura tonal de los sonidos multiarmónicos. Percepción musical, 8,
203- 214.
Patterson, R. D., Milroy, R., & Allerhand, M. (1993). ¿Cuál es la octava de una nota
armónicamente rica? Contemporary Music Review, - 9, 69 81.
Peng, G., Deutsch, D., Henthorn, T., Su, D.-J., & Wang, W. S.-Y. (en prensa). Language
experience influences nonlinguistic pitch perception. Journal of Chinese Linguistics.
Petrides, M. (1985). Deficits in non-spatial conditional associative learning after periarcuate
lesions in the monkey. Behavioral Brain Research, 16, 95 101.-
Petrides, M. (1990). Nonspatial conditional learning impaired in patients with unilateral frontal
but not unilateral temporal lobe excisions. Neuropsychologia, 28, 137-149.
204 Diana Deutsch
Pressnitzer, D., Patterson, R. D., & Krumbholz, K. (2001). El límite inferior del tono melódico.
-
Profita, J., y Bidder, T. G. (1988). Perfect pitch. American Journal of Medical Genetics, 29,
763- 771.
Ragozzine, R., y Deutsch, D. (1994). A regional difference in perception of the tritone para-
-
dox within the United States. Music Perception, 12, 213-225.
Rakowski, A. (1978). Investigaciones sobre el tono absoluto. En E. P. Asmus, Jr. (Ed.),
Proceedings of the Research Symposium on the Psychology and Acoustics of Music-(pp.
45 57). Lawrence: Universidad de Kansas.
Rakowski, A. (1993). Percepción categórica en el tono absoluto. Archivos de Acústica, 18,
515- 523.
Rakowski, A., y Miyazaki, K. (2007). Tono absoluto: rasgos comunes en la música y el lenguaje.
Archivos de Acústica, 32, 5 16.
-
Rakowski, A., y Morawska-Bungeler, M. (1987). En busca de los criterios del tono absoluto.
Archivos de Acústica, 12, 75 87.
-
Rakowski, A., y Rogowski, P. (2007). Experiments on long-term and short-term memory for
pitch in musicians. Archives of Acoustics, 32, 815-826.-
Repp, B. H., & Thompson, J. M. (2010). Context sensitivity and invariance in perception of
octave-ambiguous tones. Psychological Research, 74, 437 - 456.
Revesz, G. (1953). Introducción a la psicología de la música. Londres, Inglaterra: Longmans
Green.
Rimland, B., y Hill, A. (1984). Idiot savants. En J. Wortes (Ed.), Mental retardation and
developmental disabilities (pp. 155 - 169). New York, NY: Plenum Press.
Roder, B., Teder-Salejarvi, W., Sterr, A., Rosler, F., Hillyard, S. A., & Neville, H. J. (1999).
Mejora de la sintonización espacial auditiva en humanos ciegos. Nature,- 400, 162 165.
Rojas, D. C., Bawn, S. D., Benkers, T. L., Reite, M. L., & Rogers, S. J. (2002). Smaller left
he'misphe`re planum temporale in adults with autistic disorder. Neuroscience Letters,
328, 237- 240.
Rojas, D. C., Camou, S. L., Reite, M. L., & Rogers, S. J. (2005). Planum temporale volume in
children and adolescents with autism. Journal of Autism and Developmental Disorders,
35, 479 486. -
Ross, D. A., & Marks, L. E. (2009). Absolute pitch in children prior to the beginning of
musical training. Anales de la Academia de Ciencias de Nueva York, 1169,-199 204.
Ross, D. A., Olson, I. R., & Gore, J. C. (2003). Cortical plasticity in an early blind musician:
an fMRl study. Magnetic Resonance Imaging, 21, 821 - 828.
Ross, E. D. (1981). Las aprosodias: organización - anatómica funcional de los componentes
afectivos del lenguaje en el hemisferio derecho. Archives of Neurology, 38, 561 - 569.
Russo, F. A., Windell, D. L., & Cuddy, L. L. (2003). Learning the "special note": evidence for
a critical period for absolute pitch acquisition. Music Perception, 21, 119 127.-
Saffran, J. R., y Griepentrog, G. J. (2001). Absolute pitch in infant auditory learning:
evidence for developmental reorganization. Developmental Psychology, 37, 74 85. -
Sakai, K. L. (2005). Adquisición del lenguaje y desarrollo cerebral. Science, 310, 815 - 819.
Schellenberg, E. G., y Trehub, S. E. (2003). Good pitch memory is widespread.
Psychological Science, 14, 262 - 266.
Schlaug, G., Ja¨ncke, L., Huang, Y., & Steinmetz, H. (1995). In vivo evidence of structural
brain asymmetry in musicians. Science, 267, 699 - 701.
Schulze, K., Gaab, N., & Schlaug, G. (2009). Perceiving pitch absolutely: comparing absolute
and relative pitch possessors in a pitch memory task. BMC Neuroscience, 10, 1471-
2202.
Scovel, T. (1969). Foreign accent, language acquisition, and cerebral dominance. Language
Learning, 19, 245 -253.
Seashore, C. E. (1940). Tono adquirido frente a tono absoluto. Music Education Journal, 26,
18. Semal, C., y Demany, L. (1990). El límite superior del tono "musical". Music Perception,
8,
165- 176.
Sargento, D. (1969). Experimental investigation of absolute pitch. Journal of Research in
Musical Education, 17, 135 - 143.
Siegel, J. A. (1972). La naturaleza del tono absoluto. En E. Gordon (Ed.), Experimental
research in the psychology of music: VIII. Studies in the psychology of music - (pp. 65 89).
Iowa City: Iowa University Press.
Siegel, J. A. (1974). Estrategias de codificación sensorial y verbal en sujetos con tono absoluto.
Revista de Psicología Experimental, 103, 37 44.-
Siegel, J. A., & Siegel, W. (1977). Absolute identification of notes and intervals by musi-
cians. Perception & Psychophysics, 21, 143 - 152.
Simpson, J., y Huron, D. (1994). Absolute pitch as a learned phenomenon: evidence consis-
tent with the Hick -Hyman Law. Music Perception, 12, 267 270. -
Smith, N. A., & Schmuckler, M. A. (2008). Dial A440 for absolute pitch: absolute pitch
memory by non-absolute pitch possessors. Journal of the Acoustical Society of America,
123, EL77 - EL84.
Spender, N. (1980). Absolute pitch. En S. Sadie (Ed.), The new Grove dictionary of music and
musicians (pp. 27 29).- London, England: Macmillan.
Stroop, J. R. (1935). Estudios de interferencia en reacciones verbales seriadas. Journal of
Experimental Psychology,
- 18, 643 662.
Takeuchi, A. H. (1989). Tono absoluto y tiempo de respuesta: The processes of absolute pitch
identification (Tesis de máster inédita). Universidad Johns Hopkins, Baltimore, MD.
Takeuchi, A. H., y Hulse, S. H. (1991). Absolute-pitch judgments of black and white-key
pitches. Music Perception, 9, 27 - 46.
Takeuchi, A. H., y Hulse, S. H. (1993). Absolute pitch. Psychological Bulletin, 113,
345- 361.
Tateno, A., Sawada, K., Takahashi, I., & Hujiwara, Y. (2006). Carbamazepine-induced tran-
-
sient auditory pitch-perception deficit. Pediatric Neurology, 35, 131 134.
Terhardt, E., y Seewann, M. (1983). Aural key identification and its relationship to absolute
pitch. Music Perception, 1, 63 - 83.
Terhardt, E., y Ward, W. D. (1982). Recognition of musical key: exploratory study. Journal
-
of the Acoustical Society of America, 72, 26 33.
Theusch, E., Basu, A., & Gitschier, J. (2009). Genome-wide study of families with absolute
pitch reveals linkage to 8q24.21 and locus heterogeneity. American Journal of Human
Genetics, 85, 112 -119.
Trehub, S. E., Schellenberg, E. G., & Nakata, T. (2008). Cross-cultural perspectives on pitch
memory. Journal of Experimental Child Psychology, 100, 40 52. -
Trout, J. D. (2003). Especializaciones biológicas para el habla: ¿qué pueden decirnos los
animales?
Current Directions in Psychological Science, 12, 155 - 159.
Tucker, D. M., Watson, R. T., & Heilman, K. M. (1977). Discrimination and evocation of
affectively intoned speech in patients with right parietal disease. Neurology, 27, 947 950.
-
van Krevelen, A. (1951). The ability to make absolute judgements of pitch. Journal of
Experimental Psychology, 42, 207 - 215.
Van Lancker, D., y Fromkin, V. (1973). Hemispheric specialization for pitch and "tone":
Evidence from Thai. Journal of Phonetics, 1, 101-109.
206 Diana Deutsch
Varyha-Khadem, F., Carr, L. J., Isaacs, E., Brett, E., Adams, C., & Mishkin, M. (1997). Onset of
speech after left hemispherectomy in a nine year old boy. Brain, 120,
159- 182.
Vernon, E. (1977). El tono absoluto: A case study. British Journal of Psychology, 83,
485- 489.
Vitouch, O. (2003). Los modelos absolutistas del tono absoluto son absolutamente engañosos.
Music Perception, 21,- 111 117.
Vitouch, O., & Gaugusch, A. (2000). Absolute recognition of musical keys in non-absolute-
pitch-possessors. En C. Woods, G. Luck, R. Brochard, F. Seddon, & J. A. Sloboda
(Eds.), Proceedings of the 6th International Conference on Music Perception and
Cognition [CD-ROM]. Keele, Reino Unido: Departamento de Psicología, Universidad
de Keele.
Wada, J. A., Clarke, R., & Harem, A. (1975). Cerebral hemispheric asymmetry in humans:
cortical speech zones in 100 adult and100 infant brains. Archivos de Neurología, 32,
239- 246.
Ward, W. D. (1999). Absolute pitch. En D. Deutsch (Ed.), The psychology of music
(pp. 265- 298). San Diego, CA: Academic Press.
Ward, W. D., y Burns, E. M. (1982). Absolute pitch. En D. Deutsch (Ed.), The psychology of
- San Diego, CA: Academic Press.
music (pp. 431 451).
Wayland, R. P., y Guion, S. G. (2004). Training English and Chinese listeners to perceive
Thai tones: a preliminary report. Language Learning, 54, 681 712.
-
Wayman, J. W., Frisina, R. D., Walton, J. P., Hantz, E. C., & Crummer, G. C. (1992). Effects
of musical training and absolute pitch ability on event-related activity in response to sine
tones. Journal of the Acoustical Society of America, 91, 3527 3531. -
Wedell, C. H. (1934). La naturaleza del juicio absoluto del tono. Journal of Experimental
Psychology, 17, 485 - 503.
Welch, G. F. (1988). Observations on the incidence of absolute pitch (AP) ability in the early
blind. Psychology of Music, 16, 77 -80.
Werker, J., y Lalonde, C. (1988). Cross-language speech perception: initial capabilities and
developmental change. Developmental Psychology, 24, 672 - 683.
Wilson, S. J., Lusher, D., Wan, C. Y., Dudgeon, P. y Reutens, D. C. (2009). The neurocog-
nitive components of pitch processing: insights from absolute pitch. Cerebral Cortex, 19,
724 732.-
Woods, B. T. (1983). ¿Está el hemisferio izquierdo especializado para el lenguaje al nacer?
- 6, 115 117.
Trends in Neuroscience,
Yabe, T., y Kaga, K. (2005). Prueba de lateralización del sonido en adolescentes ciegos.
Neuroreport, 16, 939 - 942.
Yoshikawa, H., & Abe, T. (2003). Carbamazepine-induced abnormal pitch perception. Brain
Development, 25, 127 - 129.
Young, R., y Nettlebeck, T. (1995). Las habilidades de un sabio musical y su familia.
Revista de Autismo y Trastornos del Desarrollo, 25, 229 245.
-
Zakay, D., Roziner, I., & Ben-Arzi, S. (1984). On the nature of absolute pitch. Archive fu¨r
Psychologie, 136, 163 - 166.
Zatorre, R. J. (2003). Absolute pitch: a model for understanding the influence of genes and
development on cognitive function. Nature Neuroscience, 6, 692 - 695.
Zatorre, R. J., Perry, D. W., Beckett, C. A., Westbury, C. F., & Evans, A. C. (1998).
Anatomía funcional del procesamiento musical en oyentes con tono absoluto y tono
relativo. Actas de la Academia Nacional de Ciencias, 95, 3172-3177.
6 Mecanismos de agrupación en la
música
Diana Deutsch
Departamento de Psicología, Universidad de California, San
Diego, La Jolla, California
I. Introducción
La música nos proporciona un espectro acústico complejo y cambiante, a menudo
derivado de la superposición de sonidos de muchas fuentes distintas. Nuestro
sistema auditivo tiene la tarea de analizar este espectro para reconstruir los eventos
sonoros que lo originan, una tarea que suele denominarse análisis de escena auditiva
(Bregman, 1990). Esta tarea es análoga a la que realiza nuestro sistema visual
cuando interpreta el mosaico de luz que incide en la retina en términos de objetos
percibidos visualmente. Helmholtz (1909, 1911/1925) propuso en el siglo pasado
que la percepción era un proceso de "inferencia inconsciente",
- y veremos que
muchos fenómenos de la percepción musical pueden considerarse desde esta
perspectiva. Aquí se plantean varias cuestiones. En primer lugar, dado que a nuestro
sistema auditivo se le presenta un conjunto de elementos de bajo nivel, podemos
explorar las formas en que éstos se combinan para formar agrupaciones separadas.
Si todos los elementos de bajo nivel estuvieran unidos indiscriminadamente, no
podrían realizarse operaciones auditivas de reconocimiento de formas. Por tanto,
debe existir un conjunto de mecanismos que nos permitan formar vínculos entre
algunos elementos de bajo nivel y nos impidan formar
vínculos entre otros.
Al examinar estos vínculos, podemos seguir dos líneas de investigación. La
primera se refiere a las dimensiones en las que operan los principios de agrupación.
Cuando se le presenta un patrón complejo, el sistema auditivo agrupa los elementos
según alguna regla basada en la frecuencia, la amplitud, el tiempo, la ubicación
espacial o algún atributo multidimensional como el timbre. Como veremos,
cualquiera de estos atributos puede servir de base para la agrupación; sin embargo,
las condiciones que determinan qué atributo se sigue son complejas.
En segundo lugar, suponiendo que la organización tenga lugar sobre la base de
alguna dimensión como el tono, podemos indagar en los principios que rigen la
agrupación a lo largo de esta dimensión. Los primeros psicólogos de la Gestalt
propusieron que agrupamos los elementos en configuraciones basándonos en varias
reglas sencillas (Wertheimer, 1923). Una de ellas es la proximidad: los elementos
208 Diana Deutsch
más cercanos se agrupan con preferencia a los más alejados. Un ejemplo es la figura
1a, en la que los puntos más cercanos se agrupan perceptualmente por parejas. Otra
es la similitud: al ver la Figura 1b,

184 Diana Deutsch
Figura 1 Ilustraciones de los principios Gestalt de la

a proximidad (a), similitud (b) y buena continuación (c).
D
C
B
b c
percibimos un conjunto de filas verticales formado por los círculos rellenos y otro
formado por los círculos sin rellenar. Una tercera, la buena continuación, afirma que
los elementos que se suceden en una dirección determinada están perceptualmente
unidos entre sí: Agrupamos los puntos de la Figura 1c de modo que formen las dos
líneas AB y CD. El cuarto, el destino común, establece que los elementos que
cambian de la misma manera están perceptualmente vinculados entre sí. Como
quinto principio, tendemos a formar agrupaciones para percibir configuraciones que
nos son familiares.
Es razonable suponer que la agrupación conforme a tales principios nos permite
interpretar nuestro entorno de la manera más eficaz. En el caso de la visión, es más
probable que los elementos cercanos pertenezcan al mismo objeto que los más
alejados. El mismo razonamiento se aplica a los elementos similares y no a los
diferentes. En el caso de la audición, es probable que los sonidos similares procedan
de una fuente común y los sonidos diferentes, de fuentes distintas. Una secuencia
que cambia suavemente de frecuencia probablemente procede de una sola fuente,
mientras que una transición brusca de frecuencia puede reflejar la presencia de una
nueva fuente. Es probable que los componentes de un espectro complejo que surgen
de forma sincronizada procedan de la misma fuente, y la adición repentina de un
nuevo componente puede señalar la aparición de una nueva fuente.
Como cuestión relacionada, podemos preguntarnos si la agrupación perceptiva de
elementos como la frecuencia y la localización espacial resulta de la acción de un
mecanismo de decisión único y global o de múltiples mecanismos de decisión, cada
uno con sus propios criterios de agrupación. Como se describirá más adelante, las
pruebas demuestran que las decisiones de agrupación no las toma un sistema único e
internamente coherente, sino más bien varios subsistemas diferentes, que en algún
momento actúan independientemente unos de otros y pueden llegar a conclusiones
incoherentes. Por ejemplo, los elementos sonoros que se asignan a las distintas
fuentes para determinar el tono percibido pueden diferir de los que se asignan para
determinar el timbre, el volumen y la ubicación percibidos. A partir de estos
resultados, debemos concluir que la organización perceptiva en la música implica un
proceso en el que los elementos se agrupan primero de varias formas para asignar
valores a diferentes atributos por separado, y que a esto le sigue un proceso de
síntesis perceptiva en el que se combinan los diferentes valores de los atributos.
Como resultado de este proceso de dos etapas, los diferentes valores de los atributos
a veces se combinan incorrectamente, de modo que se producen conjunciones
ilusorias (cf. Deutsch, 1975a, 1975b, 1981, 2004; Deutsch, Hamaoui, & Henthorn,
2007; Deutsch & Roll, 1976). Por lo tanto, el análisis auditivo de escenas no puede
considerarse el producto de un sistema único e internamente coherente, sino más
6. Mecanismos de agrupación en la 185
música
bien el producto de múltiples sistemas cuya
186 Diana Deutsch
Los resultados son a veces incoherentes entre sí (véase también Hukin y Darwin,
1995a; Darwin y Carlyon, 1995).
Por otra parte, la agrupación de elementos sonoros en la música implica no sólo
la creación de rasgos de bajo nivel, como los tonos, sino también la conjunción de
estos rasgos en niveles superiores para formar intervalos, acordes, relaciones de
duración y patrones rítmicos, así como frases y grupos de frases (véase también el
capítulo 7). Como veremos, la agrupación auditiva es la función de un sistema muy
elaborado y polifacético, cuyas complejidades son cada vez más evidentes.
II. Fusión y separación de componentes espectrales

En esta sección, consideramos las relaciones entre los componentes de un espectro
sonoro musical que nos llevan a fusionarlos en una imagen sonora unitaria y las que
nos llevan a separarlos en múltiples imágenes sonoras. En concreto, exploramos dos
tipos de relaciones. La primera es la armonicidad. Los sonidos sostenidos naturales,
como los que producen los instrumentos musicales y la voz humana, están formados
por componentes que guardan una relación armónica o casi armónica; es decir, sus
frecuencias son múltiplos enteros o casi enteros de la frecuencia fundamental. Por
tanto, es razonable esperar que el sistema auditivo aproveche esta característica para
combinar un conjunto de componentes relacionados armónicamente en una sola
imagen sonora.
Una segunda relación que exploramos es la sincronía de inicio. Cuando los
componentes de un complejo sonoro empiezan al mismo tiempo, es probable que
procedan de la misma fuente; por el contrario, cuando empiezan en momentos
diferentes, es probable que procedan de fuentes distintas. Como cuestión asociada,
exploramos las correlaciones temporales en las fluctuaciones de los componentes en
la parte de estado estacionario de un sonido.
La importancia de las relaciones temporales para la fusión y separación
perceptivas fue reconocida por Helmholtz en su tratado Sobre las sensaciones del
tono (1859/1954), en el que escribió:
Ahora bien, hay muchas circunstancias que nos ayudan, en primer lugar, a
separar los tonos musicales que surgen de diferentes fuentes y, en segundo lugar,
a mantener juntos los tonos parciales de cada fuente separada. Así, cuando un
tono musical se escucha durante algún tiempo antes de que se le una el segundo,
y luego el segundo continúa después de que el primero ha cesado, la separación
en el sonido se ve facilitada por la sucesión en el tiempo. Ya hemos oído el primer
tono musical por sí mismo y por lo tanto sabemos inmediatamente lo que
tenemos que deducir del efecto compuesto por el efecto de este primer tono.
Incluso cuando varias partes proceden al mismo ritmo en la música polifónica, el
modo en que los tonos de los diferentes instrumentos y voces comienzan, la
naturaleza de su aumento en fuerza, la certeza con la que se mantienen y la
manera en que se apagan, son generalmente ligeramente diferentes para cada
uno. Cuando un tono compuesto
comienza a sonar, todos sus tonos parciales comienzan con la misma fuerza
comparativa; cuando se hincha, todos ellos generalmente se hinchan de manera
música
uniforme; cuando cesa, todos cesan simultáneamente. De ahí que generalmente
no haya oportunidad de oírlos por separado e independientemente. (pp. 59-60)
188 Diana Deutsch
A. Efectos de la armonicidad
Los tonos de los instrumentos musicales nos proporcionan muchos ejemplos de
agrupación perceptiva por armonicidad. Los instrumentos de cuerda y viento
producen tonos cuyos parciales son armónicos, o casi armónicos, y dan lugar a
impresiones de tono muy fusionadas. En cambio, las campanas y los gongs producen
tonos cuyos parciales no son armónicos y dan lugar a impresiones de tono difusas.
El efecto de la armonicidad se ha explorado en numerosos experimentos con tonos
sintetizados (Carlyon, 2004; Carlyon y Gockel, 2007; Darwin, 2005a; Darwin y
Carlyon, 1995).
¿Hasta qué punto puede un solo componente de un tono complejo desviarse de la
armonicidad y seguir agrupándose con los demás componentes para determinar el
tono percibido? Moore, Glasberg y Peters (1985) hicieron que los sujetos juzgaran
los tonos de tonos complejos armónicos y examinaron los efectos de la desafinación
de uno de los armónicos en distintos grados. Cuando el armónico estaba desajustado
en menos de un 3%, contribuía plenamente al tono del complejo. A medida que el
grado de desajuste aumentaba por encima del 3%, la contribución de este
componente disminuía gradualmente y, con un desajuste del 8%, el componente
prácticamente no contribuía al tono del complejo.
Sin embargo, el efecto de un armónico mal afinado puede variar cambiando su
relación con el resto del complejo (Darwin, 2005a). En un experimento, se presentó
a los sujetos un tono armónico complejo que contenía un armónico desafinado.
Cuando este armónico estaba sincronizado con los demás, el tono percibido del
complejo se desplazaba ligeramente. Sin embargo, cuando el armónico desafinado
entraba suficientemente antes que los demás, ya no contribuía al tono del complejo
(véase también Darwin y Ciocca, 1992; Ciocca y Darwin, 1999). Además, cuando el
complejo iba precedido de una secuencia de cuatro tonos con la misma frecuencia
que el armónico desintonizado, el cambio de tono volvía a desaparecer, lo que
indicaba que el armónico desintonizado había formado una corriente separada con
los tonos precedentes. Además, cuando todos los armónicos del complejo (incluido
el mal afinado) recibían un vibrato común, se necesitaban mayores cantidades de
desafinación para eliminar la contribución del armónico desafinado al tono del
complejo, lo que indicaba que el vibrato común había hecho que los armónicos se
unieran de forma más eficaz (Darwin, Ciocca y Sandell, 1994).
Huron (1991b, 2001) ha relacionado los hallazgos sobre armonicidad y fusión
espectral con la música polifónica. Uno de los objetivos de este tipo de música es
mantener la independencia perceptiva de las voces concurrentes. En un análisis de
una muestra de obras polifónicas para teclado de J. S. Bach, Huron demostró que los
intervalos armónicos se evitaban en proporción a la fuerza con la que promovían la
fusión tonal. Concluyó que Bach había utilizado esta estrategia para optimizar la
prominencia de las voces individuales en estas composiciones.
Los compositores también se han centrado en la creación de fusiones perceptivas
de tonos simúltaneos para dar lugar a timbres únicos. Por ejemplo, en la apertura de
la Sinfonía inacabada de Schubert, el oboe y el clarinete tocan al unísono, con el
resultado (suponiendo que los intérpretes tocan en estricta sincronía) de que los
oyentes escuchan un sonido fusionado con un timbre único que parece emanar de un
solo instrumento. Más recientemente, los compositores han experimentado a
menudo con sonidos producidos por
música
varios instrumentos tocando simultáneamente, de tal forma que los instrumentos

individuales perdían sus identidades perceptivas y juntos producían una única
impresión sonora. Por ejemplo, Debussy y Ravel hicieron un amplio uso de acordes
que se aproximaban a los timbres. Compositores posteriores como Schoenberg,
Stravinsky, Webern y Varese emplearon a menudo estructuras muy
individualizadas, que Varese denominó "masas sonoras" (Erickson, 1975), y aquí
resultaron especialmente útiles las combinaciones de tonos que se mantenían en una
relación hímnica simple.
Volviendo a los experimentos de laboratorio, varios estudios han descubierto que
los patrones de habla simultáneos se podían separar perceptualmente con mayor
facilidad cuando se construían sobre diferentes fundamentales; en general, la
cantidad de separación perceptual útil alcanzaba su máximo cuando las
fundamentales diferían aproximadamente entre uno y tres semitonos (Assmann y
Summerfeld, 1990; Scheffers, 1983). Además, los formantes construidos sobre la
misma fundamental tendían a agruparse para producir una única percepción
fonética, mientras que un formante construido sobre una fundamental diferente
tendía a percibirse como distinto de los demás (Broadbent y Ladefoged, 1957).
Sandell y Darwin (1996) exploraron la relación de estos hallazgos con los tonos
musicales y generaron pares de tonos simultáneos tomados de cinco fuentes
diferentes.
instrumentos de orquesta (flauta, clarinete Bw, cor anglais, trompa y viola). Los
autores observaron que los sujetos eran más capaces de separar e identificar los
tonos cuando sus alturas diferían en un semitono.
El número de fuentes percibidas por el oyente proporciona otra medida de
agrupación. Por ejemplo, Moore, Glasberg y Peters (1986) descubrieron que cuando
un solo componente de un complejo armónico estaba ligeramente desintonizado de
los demás, se oía como si estuviera separado de ellos. Curiosamente, se requiere
menos desafinación para producir la impresión de múltiples fuentes que para
producir otros efectos. Por ejemplo, un armónico ligeramente desajustado en un
complejo sonoro puede oírse como distinto de los demás, pero aun así agruparse con
ellos a la hora de determinar el tono percibido (Moore et al., 1986) o la calidad
vocálica (Darwin, 1981, Gardner, Gaskill y Darwin, 1989). Como argumentan
Darwin y Carlyon (1995), este tipo de disparidad indica que la agrupación
perceptiva implica una serie de mecanismos diferentes, que dependen del atributo
evaluado, y que estos mecanismos no emplean necesariamente los mismos criterios.
Esta cuestión se analiza con más detalle en la Sección VI, donde se demuestra que,
al escuchar secuencias simultáneas de tonos, se emplean mecanismos de decisión
distintos, y a veces incoherentes, para determinar el tono, la ubicación, la intensidad
y el timbre percibidos de cada tono, de modo que se producen conjunciones
ilusorias.
B. Efectos de la sincronicidad de inicio

Hasta ahora hemos considerado sonidos cuyos componentes empiezan y terminan al
mismo tiempo, y hemos explorado las relaciones espectrales que conducen a la
fusión perceptiva. En situaciones musicales reales, también entran en juego factores
temporales. Uno de ellos es la sincronía de inicio. La importancia de este factor
190 Diana Deutsch
puede mostrarse en una demostración sencilla, en la que una serie armónica se

presenta de forma que sus componentes entran en diferentes momentos. Por
ejemplo, podemos tomar una serie que
música
se construye sobre una fundamental de 200 Hz. Supongamos que empezamos con el
componente de 200 Hz sonando solo, 1 s después añadimos el componente de 400
Hz, 1 s después añadimos el componente de 600 Hz, y así sucesivamente, hasta que
todos los componentes suenan juntos. A medida que entra cada componente, su tono
se oye inicialmente como formando una entidad distinta, y luego se desvanece
gradualmente de la percepción, de modo que finalmente sólo se percibe un tono que
corresponde a la fundamental.
Incluso un cambio transitorio en la amplitud de un componente puede aumentar
su prominencia perceptiva. Si un armónico concreto de un tono complejo se omite y
se restablece alternativamente, puede destacarse como un tono puro, audible por
separado del resto del complejo, e incluso puede oírse durante un breve espacio de
tiempo después de volver a activarse (Hartmann y Goupell, 2006; Houtsma, Rossing
y Wagenaars, 1987).
Darwin y Ciocca (1992) han demostrado que la asincronía de inicio puede influir
en la contribución de un armónico mal afinado al tono de un complejo. Descubrieron
que un armónico mal afinado contribuía menos al tono percibido cuando se
adelantaba a los demás en más de 80 ms, y no contribuía cuando se adelantaba a los
demás en 300 ms. Posteriormente, Ciocca y Darwin (1999) observaron que un
armónico mal afinado contribuía en mayor medida al tono de un sonido objetivo
cuando se producía después del inicio del objetivo que cuando precedía a su inicio.
La asincronía de inicio también puede afectar a la contribución de un armónico al
timbre percibido de un complejo. Darwin (1984) descubrió que cuando un solo
armónico de una vocal cuya frecuencia era próxima a la del primer formante
aventajaba a los demás en unos 30 ms, se producía una alteración en la forma en que
se percibía el formante; esta alteración era similar a la que se producía cuando se
eliminaba el armónico del cálculo del formante.
Curiosamente, Darwin y sus colegas descubrieron que la cantidad de asincronía
de inicio necesaria para alterar la contribución de un armónico al tono percibido era
mayor que la necesaria para alterar su contribución a la calidad vocálica percibida.
Hukin y Darwin (1995a) demostraron que esta discrepancia no podía atribuirse a
diferencias en los parámetros de la señal, sino más bien a la naturaleza de la tarea
perceptiva en la que estaba inmerso el sujeto; argumentando de nuevo, como
hicieron Darwin y Carlyon (1995), que tales disparidades reflejan la operación de
múltiples mecanismos de decisión en el proceso de agrupación que pueden actuar
independientemente unos de otros.
También se ha demostrado que la asincronía de inicio tiene efectos de nivel
superior. En un experimento, Bregman y Pinker (1978) presentaron a los sujetos un
complejo de dos tonos en alternancia con un tercer tono, y estudiaron los efectos de
la asincronía de inicio y fin entre los tonos simultáneos. A medida que aumentaba el
grado de asincronía de inicio, se juzgaba que el timbre del tono complejo era más
puro, y aumentaba la probabilidad de que uno de los tonos del complejo formara una
corriente melódica con el tercer tono (véase también Deutsch, 1979, analizado en la
Sección VI,A).
Hasta ahora, hemos considerado los efectos de la asincronía de inicio en la
agrupación de componentes de tonos complejos individuales; sin embargo, las
asincronías también influyen en la agrupación de complejos de tonos enteros.
Específicamente, cuando dos tonos complejos se presentan juntos, son
192 Diana Deutsch
perceptualmente más distintos cuando sus inicios son asíncronos. Rasch (1978)
presentó a los sujetos pares simultáneos de tonos complejos
música
Cada 10 ms de retraso del tono inferior se asociaba con una reducción aproximada
de 10 dB en el umbral de detección, y con un retraso de 30 ms, el umbral de
percepción del tono superior era aproximadamente el mismo que cuando se
presentaba solo. Además, cuando los inicios de los tonos superior e inferior estaban
sincronizados, se oía un único sonido fusionado; sin embargo, cuando se introducían
disparidades en el inicio, los tonos sonaban muy distintos perceptualmente.
Rasch (1988) aplicó posteriormente estos resultados a las actuaciones de
conjuntos en directo. Realizó grabaciones de tres conjuntos de trío diferentes
(cuerda, caña y flauta dulce) y calculó las relaciones de inicio entre tonos que eran
nominalmente simúltaneos. Obtuvo valores de asincronía que oscilaban entre 30 y
50 ms, con una asincronía media de 36 ms. Al relacionar estos resultados con los
que había obtenido anteriormente sobre la percepción, Rasch llegó a la conclusión
de que tales asincronías de inicio permitían al oyente oír los tonos simultáneos como
distintos entre sí. Según esta línea de razonamiento, tales asincronías no deberían
considerarse fallos de rendimiento, sino más bien características útiles para permitir
a los oyentes oír las voces simultáneas de forma distinta.
A partir de estos resultados, cabría esperar que una gran asincronía favoreciera la
separación de las voces en un conjunto. Por lo tanto, se podría hipotetizar que la
práctica compositiva explotaría este efecto, al menos en la música polifónica, donde
se pretende que las voces individuales se oigan claramente. Huron (1993, 2001)
obtuvo pruebas de esta hipótesis en un análisis de las 15 invenciones a dos voces de
Bach. Encontró (controlando la duración, el orden rítmico y la métrica) que para 11
de las invenciones, ninguna otra permutación de los ritmos de las voces habría
producido más asincronía de inicio que la que se produjo en la música real de Bach.
En las 4 invenciones restantes, los valores de asincronía seguían siendo
significativamente superiores a los que cabría esperar del azar. Huron llegó a la
conclusión de que Bach había producido deliberadamente tales asincronías de inicio
para optimizar la prominencia perceptiva de las voces individuales en estas
composiciones.
C. Continuidad auditiva
La continuidad auditiva es un efecto dramático que puede resultar de disparidades
temporales dentro de complejos tonales. Este efecto es importante para la
interpretación de nuestro entorno natural, donde las señales sonoras suelen estar
enmascaradas por otros sonidos. Para mantener una representación estable del
mundo auditivo, nuestro sistema perceptivo necesita restaurar las partes
enmascaradas de cada sonido, estimando sus características basándose en otros
sonidos que se producen antes, durante y después del sonido enmascarante. El efecto
de continuidad está muy extendido y se ha demostrado que se produce en especies
no humanas como los gatos (Sugita, 1997), los monos (Petkov, O'Connor y Sutter,
2003) y las aves (Braaten y Leary, 1999; Seeba y Klump, 2009), así como en
oyentes humanos (Houtgast, 1972; Miller y Licklider, 1950; Vicario, 1960; Warren,
Obusek y Ackroff, 1972).
Consideremos el análogo visual que se muestra en la parte superior de la figura 2.
La línea A podría, en principio, verse en términos de tres componentes: una línea a
la izquierda
194 Diana Deutsch
Figura 2 Análogo visual de un efecto de continuidad auditiva.

En principio, podría considerarse que la línea A de la ilustración
superior tiene
A tres componentes: una línea a la izquierda del rectángulo, una
línea a su derecha y una línea que forma parte del propio
rectángulo. Sin embargo, se ve como una única línea continua.
Este efecto es
más débil en la ilustración inferior, en la que el rectángulo es
más ancho y las líneas a su izquierda y derecha son más cortas.
Adaptado de Vicario (1982).
del rectángulo, una línea a su derecha y una línea que forma parte del propio
rectángulo. Sin embargo, nuestro sistema visual trata los tres componentes como una
sola línea, que es independiente de las demás partes del rectángulo. Vicario (1982)
realizó un equivalente musical de esta demostración. Generó un acorde que constaba
de componentes correspondientes a C4 , Dx4 , Fx4 , A4 , C5 , Dx5 , y Fx5 ; con
A4 tanto precede como sigue a los demás componentes. Al igual que la línea A de la
figura 2
se ve como si continuara a través del rectángulo, por lo que un tono correspondiente
a A4 se oye como si continuara a través del acorde.
El efecto de continuidad es sensible a los parámetros temporales precisos de los
distintos componentes. Volviendo al análogo visual de Vicario, cuando las líneas
que forman el rectángulo se alargan y las líneas situadas a su izquierda y derecha se
acortan, como en la parte inferior de la Figura 2, la impresión de continuidad se
reduce. Del mismo modo, cuando se reduce la duración del componente alargado del
acorde y se aumenta la duración del acorde completo, disminuye la impresión de
continuidad.
Una demostración interesante de la continuidad auditiva la proporcionó
Dannenbring (1976), que generó un deslizamiento de tono puro que subía y bajaba
repetidamente. En algunas condiciones, el deslizamiento era interrumpido
periódicamente por un ruido fuerte de banda ancha; sin embargo, se percibía como si
fuera continuo. En cambio, cuando el deslizamiento se interrumpía periódicamente,
dejando sólo intervalos silenciosos durante las pausas, los oyentes escuchaban una
serie disyunta de deslizamientos ascendentes y descendentes. En la figura 3 se
muestran los análogos visuales de estas dos condiciones y sus consecuencias
perceptivas.
Las caídas repentinas de amplitud entre las señales y las ráfagas de ruido
música
intermedias pueden reducir, o incluso destruir, los efectos de continuidad (Bregman
& Dannenbring 1977; Warren et al., 1972); sin embargo, esto no ocurre
necesariamente. Por ejemplo, los tonos producidos por instrumentos punteados se
caracterizan por rápidos aumentos seguidos de disminuciones de
196 Diana Deutsch
Figura 3 Ilustración visual de un efecto de

continuidad auditiva mediante tonos deslizantes.
Adaptado de Bregman (1990), que ilustra un
experimento de Dannenbring (1976).
amplitud. En la música interpretada por este tipo de instrumentos, cuando el mismo

tono se repite rápidamente muchas veces, se omite periódicamente y se sustituye por
un tono diferente, el oyente puede generar perceptualmente el tono que falta. Hay
muchos ejemplos de este fenómeno en la música para guitarra de los siglos XIX y
XX, como los Recuerdos de la Alhambra de Tárrega (Figura 4) y Una Limosna por
el Amor de Dios de Barrios. Aquí las fuertes expectativas creadas por las notas que
se repiten rápidamente hacen que el oyente "oiga" estas notas incluso cuando no se
están tocando. Curiosamente, al final de la pieza de Barrios, el tempo se ralentiza
gradualmente, de modo que los huecos en las presentaciones repetitivas se hacen
evidentes. De este modo, el oyente se da cuenta de que los huecos han estado ahí,
aunque imperceptiblemente, durante toda la obra.
Remijn, Nakajima y Tanaka (2007) exploraron la continuidad auditiva a través de
un intervalo silencioso desde una perspectiva diferente. Presentaron a los sujetos un
patrón consistente en dos deslizamientos de frecuencias cruzadas de duración
desigual que compartían un intervalo silencioso de 40 ms o menos en el punto de
cruce. El intervalo se percibía sólo en el deslizamiento más corto, mientras que el
más largo se percibía como continuo.
Tanto la memoria a largo como a corto plazo pueden influir en la fuerza y la
naturaleza del efecto de continuidad auditiva (Vicario, 1973; Warren, 1983). En un
experimento, Sasaki (1980) generó patrones melódicos en los que se omitían ciertos
tonos y se sustituían por fuertes ráfagas de ruido. En algunas circunstancias, los
sujetos "oían" aparecer el tono omitido a través del ruido. Esta percepción era más
probable cuando el tono omitido era predecible a partir del contexto musical; por
ejemplo, cuando formaba parte de una melodía conocida.
Un efecto de contexto a corto plazo fue demostrado por Ciocca y Bregman
(1987), que presentaron a los sujetos un tono de deslizamiento interrumpido por una
ráfaga de ruido. Cuando las porciones de entrada y salida del deslizamiento caían en
el mismo rango de frecuencia o en una trayectoria común, los sujetos tendían a oír el
deslizamiento como si continuara a través del ruido. Posteriormente, Tougas y
Bregman (1990) generaron dos deslizamientos simultáneos, uno ascendente y otro
descendente, con los dos cruzándose en el medio. Estudios anteriores habían
música
demostrado que la proximidad de frecuencias globales influía fuertemente en la
percepción de los sonidos.
198 Diana Deutsch
Frecuencia logarítmica
(semitonos)
Tiempo
Figura 4 El comienzo de Recuerdos de la Alhambra, de Tárrega. Aunque los tonos se presentan

de uno en uno, se perciben dos líneas paralelas, organizadas en función de la proximidad tonal.
Adaptado de Deutsch (1996).
influyeron en la forma en que se percibieron los patrones de cruce de tonos

(Deutsch, 1975a, 1975b; Tougas y Bregman, 1985; Van Noorden, 1975; véase
también la Sección VI). Como se esperaba a partir de estos hallazgos, Tougas y
Bregman (1990) observaron que la proximidad de frecuencia dominaba sobre la
trayectoria a la hora de determinar el tipo de restauración perceptiva que se obtenía:
Los sujetos tendían a escuchar un deslizamiento más alto que caía y luego volvía a
subir, junto con un deslizamiento más bajo que subía y luego volvía a bajar,
encontrándose ambos en el medio.
Los efectos de continuidad pueden verse influidos por factores más complejos.
En un experimento, Darwin (2005b) hizo que los sujetos juzgaran tonos complejos
que alternaban con ruido de banda pasante. Comprobó que un tono complejo
tranquilo se percibía como continuo cuando todos sus armónicos caían dentro del
rango de frecuencias de la banda de ruido. Esta impresión de continuidad se reducía
considerablemente cuando se añadían armónicos que estaban fuera del rango del
ruido; sin embargo, se restablecía en gran medida cuando los componentes
adicionales producían una frecuencia fundamental diferente. Darwin llegó a la
conclusión de que los juicios de continuidad se realizan sobre objetos enteros
agrupados de forma simúltanea, en lugar de estar determinados por criterios de
frecuencia locales (véase también McDermott y Oxenham, 2008).
En otros experimentos, Riecke, Mendelsohn, Schreiner y Formisano (2009)
demostraron que las ilusiones de continuidad pueden verse influidas por los patrones
sonoros precedentes. En concreto, descubrieron que si el mismo sonido
perceptualmente ambiguo
música
La intensidad sonora y la continuidad percibida de los deslizamientos precedentes

podían modular la percepción del deslizamiento como continuo. Estos efectos
contextuales estaban menos relacionados con los espectros de los sonidos
precedentes que con la forma en que habían sido interpretados por el oyente.
También se han explorado los mecanismos cerebrales subyacentes a la ilusión de
continuidad. Petkov, O'Connor y Sutter (2007) estudiaron las respuestas en la
corteza auditiva de monos macacos a tonos interrumpidos por un ruido fuerte.
Descubrieron que algunas neuronas respondían a tonos discontinuos que se
intercalaban con ruido como si los tonos fueran continuos (véase también Petkov y
Sutter, 2011).
D. Efectos del vibrato

Los sonidos sostenidos naturales, como los generados por los instrumentos
musicales y la voz cantada, sufren constantemente pequeñas fluctuaciones de
frecuencia que preservan las relaciones formadas por sus componentes. Se ha
conjeturado que el sistema auditivo utiliza esta modulación de frecuencia (FM)
coherente como señal para agrupar los componentes espectrales y, a la inversa,
utiliza la FM incoherente como señal para separarlos perceptualmente (Bregman,
1990). De hecho, compositores como Chowning (1980) y McNabb (1981) han
realizado demostraciones informales de que el vibrato coherente mejora la fusión
perceptiva cuando se impone a voces cantadas sintetizadas o a tonos de instrumentos
musicales. Más tarde, Darwin, Ciocca y Sandell (1994) descubrieron que era más
probable que un armónico mal afinado contribuyera al tono de un tono complejo
cuando se le aplicaba un vibrato común con los demás armónicos.
Sin embargo, el problema con respecto a la FM incoherente es teóricamente
complejo: dado que la información relativa a la FM se degrada gravemente en
entornos reverberantes, la dependencia de la FM incoherente como pista para la
separación perceptiva podría hacer que el oyente separara componentes que, por el
contrario, deberían agruparse. Además, la FM incoherente provoca necesariamente
que las relaciones de frecuencia entre los componentes de un tono se alejen de la
armonicidad. Dado que el sistema perceptivo ya utiliza estas desviaciones como
pistas para la segregación perceptiva (como se ha comentado anteriormente), la
utilidad de la FM incoherente como pista adicional es discutible.
Las pruebas experimentales sobre esta cuestión también son complejas.
McAdams (1989) exploró el efecto del vibrato en la separación perceptual de tres
vocales cantadas simultáneamente que se construían sobre diferentes fundamentos.
Descubrió que cuando las vocales objetivo recibían un vibrato, aumentaba su
saliencia perceptiva. Sin embargo, la saliencia percibida de las vocales objetivo no
se veía afectada por el hecho de que las vocales no objetivo recibieran un vibrato.
Otros resultados negativos fueron obtenidos por Carlyon (1991, 1992), quien
descubrió que los sujetos eran insensibles al vibrato incoherente cuando éste era
independiente de las desviaciones de la armonicidad. Cuando los componentes de
los tonos estaban en relación no armónica, los oyentes eran incapaces de juzgar si
estaban modulados de forma coherente o incoherente entre sí.
Estos resultados negativos plantean la cuestión de por qué el vibrato puede, no
obstante, aumentar la prominencia perceptiva de una vocal. McAdams (1984) señaló
200 Diana Deutsch
que cuando los armónicos de una vocal reciben un vibrato, también sufren una
modulación de amplitud (AM) que traza la envolvente espectral de la vocal. De este
modo, se proporciona al oyente más

The-Psychology-Of-Music-1 es-ES

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

The-Psychology-Of-Music-1 es-ES

Cargado por

Copyright:

Formatos disponibles

Psicología de la música

AMSTERDAM e BOSTON e HEIDELBERG e LONDRES e NUEVA

Copyright © 2013, 1999, 1982 Elsevier Inc. Todos los derechos

Ninguna parte de esta publicación puede ser reproducida, almacenada en un sistema de

Los permisos pueden solicitarse directamente al Departamento de Derechos de Ciencia y

Datos de catalogación de la Biblioteca Británica

Biblioteca del Congreso Cataloging-in-Publication Data

Congreso ISBN: 978-0-12-381460-9

Para obtener información sobre todas las

Impreso y encuadernado en Estados Unidos de

Steven M. Demorest (647), Universidad de Washington, Escuela de Música,

Diana Deutsch (141, 183, 249), Departamento de Psicología, Universidad de

Robert O. Gjerdingen (683), Bienen School of Music, Northwestern University,

Erin E. Hannon (423), Departamento de Psicología, Universidad de Nevada, Las

Patrik N. Juslin (583), Departamento de Psicología, Universidad de Uppsala, SE-

Stephen McAdams (035), CIRMMT, Escuela de Música Schulich, Universidad

Andrew J. Oxenham (001), Departamento de Psicología, Universidad de

Caroline Palmer (405), Departamento de Psicología, Universidad McGill,

Aniruddh D. Patel (647), Departamento de Psicología, Universidad de Tufts,

Isabelle Peretz (551), BRAMS, Universite' de Montreal, Montreal, Quebec H3C

E. Glenn Schellenberg (499), Departamento de Psicología, Universidad de Toronto

Gottfried Schlaug (565), Beth Israel Deaconess Medical Center, Boston,

John A. Sloboda1 (583), Departamento de Psicología, Universidad de Keele, Keele,

Johan Sundberg (069), Departamento de Habla, Música y Audición, KTH (Instituto

William Forde Thompson (107), Departamento de Psicología, Universidad

Laurel J. Trainor (423), Departamento de Psicología, Neurociencia y

Catherine Y. Wan (565), Beth Israel Deaconess Medical Center, Boston,

Michael W. Weiss (499), Departamento de Psicología, Universidad de Toronto en

El objetivo de este libro es interpretar los fenómenos musicales en términos de

revisa en primer lugar la metodología psicoacústica. A continuación, basándose en

de los teóricos de la música. También se demuestra que los oyentes pueden

que ciertos aspectos de la música trascienden las fronteras culturales, mientras

1 La percepción de los tonos

Figura 1 Ejemplo esquemático de

80 dos alternativas frente al nivel de

El problema de este tipo de medidas es que no sólo dependen de la sensibilidad,

que puede combinarse en estudios humanos y animales con diversas técnicas

II. Percepción de tonos simples

1. Rango dinámico y decibelios

2. Contornos de sonoridad iguales y curvas de ponderación de la sonoridad

Figura 2 Los contornos de igual sonoridad, tomados de la norma ISO

Tono SPL. La respuesta, según numerosos estudios sobre la sonoridad, no es el

donde el exponente, α, tiene un valor aproximado de 0,3 a frecuencias medias y para

4. Sonoridad parcial y efectos contextuales

se ve afectado por el contexto en el que se presenta. En esta sección, tratamos dos

1. Tono de los tonos puros

considerablemente peor cuando la información temporal de baja frecuencia se

2. Tono de los tonos complejos

-400 1000 2000 3000 4000

-400 1000 2000 3000 4000

-400 1000 2000 3000 4000

Figura 4 Representaciones de un tono armónico complejo con una frecuencia fundamental

La agrupación de estos picos procedentes de toda la red nerviosa da lugar a la

un rendimiento suficiente con armónicos no resueltos, mientras que los modelos

Los participantes con anchos de banda de filtro normales mostraron umbrales de

sigue siendo una sinusoide, con umbrales de discriminación de frecuencias muy

D. Interacciones sensoriales e influencias intermodales

F0 alta, pico espectral bajo F0 alto, pico espectral alto

F0 bajo, pico espectral bajo F0 bajo, pico espectral alto

Figura 5 Representaciones de F0 y pico espectral, que afectan principalmente a las

1. Interacciones entre tono y timbre

2. Efectos de los cambios de tono o timbre en la precisión de los

(Gabriel et al., 1997; Oxenham & Buus, 2000), y la dificultad de comparar la