Está en la página 1de 12

El lenguaje de la música: códigos neuronales comunes para secuencias estructuradas en

música y lenguaje natura

l. Chiang JN1, Rosenberg MH1, Bufford CA1, Stephens D2, Lysy A2, Monti MM3.
Información del autor

Resumen 1. Introducción

Una intuición central en el estudio del lenguaje humano como fenómeno cognitivo es la
idea de que, mientras escuchamos una señal lineal como el habla, nuestras mentes construyen
espontáneamente hipótesis abstractas y estructuradas que representan cómo los elementos
discretos dentro de una secuencia se relacionan entre sí. (Chomsky, 1957, 1965; Fitch y Martins,
2014; Jackendoff, 2002; Lashley, 1951; Monti, 2017). El uso de tales representaciones se muestra
más claramente en lenguaje natural (Berwick, Friederici, Chomsky y Bolhuis, 2013; Ding, Melloni,
Zhang, Tian y Poeppel, 2015), pero también caracteriza otros aspectos de la cognición humana,
como la lógica razonamiento (Monti & Osherson, 2012; Osherson, 1975), cognición algebraica
(Maruyama, Pallier, Jobert, Sigman, y Dehaene, 2012; Monti, Parsons, y Osherson, 2012; Varley,
Klessinger, Romanowski, y Siegal, 2005), y la cognición musical (Katz & Pesetsky, 2011; Lerdahl,
2001; Patel, 2003), entre otros. La relación entre la operación sintáctica del lenguaje y las
operaciones de tipo sintaxis de otros aspectos de la cognición humana ha estado en el centro de
un debate de larga data sobre el grado en que el pensamiento humano está integrado o habilitado
por el lenguaje natural ( por ejemplo, Lashley, 1951, Boeckx, 2010, Gleitman y Papafragou, 2013,
Fitch & Martins, 2014, Fitch 2014, Monti, 2017). Lashley (1951) comentó sobre la prevalencia de
secuencias estructuradas entre dominios, notando que exhibían las siguientes tres propiedades:
(1) conectividad; es decir, ningún nodo está aislado de los demás, (2) un elemento raíz; es decir,
"oración" o "acorde" que es superior a otros y (3) estructura acíclica; establecer el orden como
una propiedad única (Fitch y Martins 2014; Lashley 1951). En el contexto de la cognición musical,
la analogía con los aspectos estructurales del lenguaje es particularmente pronunciada. Como se
discutió en otra parte (por ejemplo, Lerdahl y Jackendoff, 1985; Patel, 2003; Fadiga, Craighero, y
D'Ausilio, 2009; Fitch 2014; Peretz, Vuvan, Lagrois, y Armony, 2015), la música y el lenguaje se
caracterizan por discretos elementos (p. ej., palabras, acordes) que pueden (recursivamente)
combinarse, de acuerdo con reglas específicas, para formar estructuras organizadas (p. ej.,
oraciones, melodías) que típicamente están codificadas dentro de señales lineales, dependientes
del tiempo. No obstante, si esta analogía es sustancial o meramente superficial sigue siendo un
tema debatido (véase, Peretz et al., 2015). En un extremo del espectro, se ha propuesto que el
lenguaje y la música se rigen por los mismos procesos sintácticos aplicados a diferentes bloques de
construcción (por ejemplo, palabras vs. notas). De acuerdo con este punto de vista, "[a] ll las
diferencias formales entre el lenguaje y la música son una consecuencia de diferencias en sus
bloques de construcción fundamentales [; En todos los demás aspectos, el lenguaje y la música son
idénticos "(Katz y Pesetsky, 2011). En líneas similares, se ha propuesto que las representaciones
comunes subyacentes al procesamiento de la estructura en lenguaje y música pueden ser
localizadas en los mecanismos neuronales encapsulados dentro de la circunvolución frontal
inferior izquierda (IFG, a menudo denominada área de Broca), una región hipotéticamente
operada como un "analizador jerárquico supramodal" (Fadiga et al., 2009; Tettamanti y Weniger,
2006). De acuerdo con este punto de vista, una literatura de neuroimagen en rápido crecimiento
ha demostrado que el procesamiento de la música recluta regiones corticales que se superponen
con áreas que se sabe que están involucradas en aspectos sintácticos y semánticos del
procesamiento del lenguaje natural (Patel, Gibson, Ratner, Besson y Holcomb, 1998; Maess,
Koelsch, Gunter, y Friederici, 2001; Koelsch, et al., 2002; Tillmann, Janata, y Bharucha, 2003;
Koelsch y otros, 2004; Koelsch, Fritz, Schulze, Alsop y Schlaug, 2005; Brown, Martinez , & Parsons,
2006; ver Rogalsky, Rong, Saberi, & Hickok, 2011, para un resultado conflictivo). No obstante,
aunque la observación de sustratos neuronales superpuestos a menudo implica la presencia de
representaciones neurocognitivas compartidas entre el lenguaje y la música, este no es
necesariamente el caso (Peretz et al., 2015) y, de hecho, nunca se ha demostrado que sea cierto.
Este "eslabón perdido" en la literatura neurocientífica deja abierta la posibilidad de que áreas del
cerebro comúnmente reclutadas puedan, de hecho, representar operaciones muy diferentes que
no se traducen, ni se alinean, en los dos dominios, o que no están relacionadas en absoluto con el
procesamiento de estas relaciones. De acuerdo con esta observación, se ha sugerido que el
lenguaje y la música en realidad se consideran mejor como modulares y en gran parte
independientes entre sí (Marin y Perry, 1999; Peretz y Coltheart, 2003). En apoyo de este punto de
vista, una rica literatura neuropsicológica ha descrito casos de individuos que exhiben amusia en
ausencia de afasia, así como afasia en ausencia de amusia (Luria et al., 1965; Peretz, 1993; Peretz
et al. 1994, Ayotte, Peretz, Rousseau, Bard y Bojanowski, 2000; Piccirilli, Sciarma y Luzzi, 2000;
Ayotte, Peretz y Hyde, 2002). La razón de la evidencia contradictoria sigue siendo un tema de
debate. Según algunos, la fractura entre los hallazgos neuropsicológicos y de neuroimagen se
puede conciliar con una solución intermedia en la que el lenguaje y la música se consideran
sistemas parcialmente superpuestos (Patel, 2003; Patel, Iversen, Wassenaar y Hagoort, 2008). Bajo
esta visión, referida como la hipótesis de recursos de integración sintáctica compartida, el lenguaje
y la música se caracterizan por procesos específicos del dominio (es decir, separados) y
compartidos. Los procesos específicos del dominio se relacionan con las características
particulares de cada sintaxis, que se reconocen como arquitectónicamente diferentes, mientras
que los procesos compartidos proporcionan recursos neuronales para la activación de las
representaciones sintácticas almacenadas relevantes (Patel, 2012). Según otros, la inconsistencia
entre los dos conjuntos de hallazgos podría deberse a consideraciones experimentales y
neuroanatómicas (Fedorenko y Varley, 2016). Específicamente, la superposición a menudo
reportada, en estudios de neuroimágenes, en regiones frontales inferiores izquierdas podría ser
un reflejo de las demandas generales de tareas relacionadas con el uso de paradigmas de violación
estructural (p. Ej., El P600 y los efectos de negatividad anterior temprana izquierda / derecha
informados en estudios electrofisiológicos; Janata, 1995; Maess et al., 2001; Koelsch et al., 2002,
2005; Steinbeis y Koelsch, 2008; Tillmann et al., 2003; y posteriormente localizado en la
circunvolución frontal inferior a través de la neuroimagen; Musso et al. ., 2015, Kunert, Willems,
Casasanto, Patel, y Hagoort, 2015). Es probable que los eventos desviados provoquen procesos
auxiliares que incluyen la captura atencional, la detección de expectativas violadas o la corrección
de errores, independientemente de si la violación se aplica al lenguaje natural, la música, la
aritmética o las secuencias motoras. Dichos procesos no están relacionados con la extracción o
forjado de secuencias estructuradas y se sabe que provocan activación en regiones generales del
dominio (superposición proximal o parcial con el área de Broca, ver Fedorenko y Varley, 2016,
para una discusión detallada). En el presente estudio, abordamos la relación entre los mecanismos
del lenguaje natural y los de la música en un diseño de 3 Tesla de resonancia magnética funcional
(fMRI) dentro de sujetos en el que músicos competentes generan estructuras en el lenguaje
(oraciones de voz activa / pasiva versus repetición un verbo) y música (raíz / segunda posición de
inversión tríadas ascendentes versus repetir una nota; cf., Fig. 1 y Tabla 1). Crucialmente,
empleamos una tarea de generación (raramente explorada) para evitar la confusión de eventos
sobresalientes, y utilizamos un enfoque de clasificación cruzada multivariante para resolver la
ambigüedad interpretativa presente en la literatura de neuroimagen previa (que ha sido
específicamente defendida, ver Peretz et al. , 2015), lo que ayuda a resolver la cuestión de si el
lenguaje natural y la música comparten un código neuronal subyacente común para representar
secuencias estructuradas.

  2. Métodos

2.1. Participantes

Reclutamos a 21 participantes en total para alcanzar el tamaño de muestra


predeterminado (N = 20, 8 mujeres participantes) en base a la literatura previa (Musso et al.,
2015: N = 11; Kunert et al., 2015: N = 19; Koelsch et al. al., 2002: N = 20). Se reclutó un sujeto
adicional porque los datos de uno de los participantes mostraron un movimiento excesivo durante
el procedimiento (ver más abajo). Los participantes recibieron una compensación de $ 50 por
participar en el experimento. Todos los participantes eran hablantes nativos de inglés, diestros y
músicos competentes actualmente matriculados en la Herb Alpert School of Music de UCLA. Los
participantes solo se inscribieron si podían demostrar dominio en el canto / generación tanto de la
posición de la raíz como de la II inversión del arpegio ascendente de la tríada. Los participantes
con tono perfecto fueron excluidos. Los participantes firmaron el consentimiento informado antes
de tomar parte en la sesión, según los procedimientos aprobados por la Junta de Revisión
Institucional de UCLA.

2.2. Estímulos

La primera señal fue visual, se presentaron 3 simbolos en una pantalla

Para ambos materiales (es decir, ensayos de "lenguaje" y "música"), la primera señal se
entregó visualmente, presentando uno de los tres iconos en el medio de la pantalla. Un símbolo
'♢' indicaba una prueba de posición activa o raíz (dependiendo de si la segunda entrada era una
palabra o una nota, respectivamente); un símbolo '♣' indica una prueba de inversión pasiva o una
II inversión; un símbolo '' indica una prueba no estructurada (es decir, repetida). La segunda
entrada fue entregada auditivamente y consistió en un verbo o una nota, revelando así si el
ensayo era una prueba de lenguaje o música, y permitiendo la desambiguación de la instrucción
provista por el primer indicio. (Consulte la Tabla 1 y la Fig. 1 para ver ejemplos de estímulos.) Las
claves para los ensayos de lenguaje consistían en siete verbos monosílabos, reversibles, de tiempo
presente (es decir, "traer", "decir", "enseñar", "arrojar", "salir", "Dar", "pagar"). Las pistas para los
ensayos de música consistieron en 7 notas grabadas con un piano electrónico. Las notas
comprendían una escala cromática (es decir, cada paso consecutivo estaba separado del siguiente
por un semitono, o un medio paso). A los participantes se les permitió elegir, entre tres conjuntos
de señales musicales (alto, medio o bajo), el rango de tono más adecuado para su rango vocal.
Para cada conjunto, un quinto perfecto (7 semitonos / pasos a la mitad) separó los tonos más
bajos y más altos de las pistas. Al combinar las 7 claves (es decir, palabras / notas), 3 reglas
generativas (2 estructuradas, 1 repetición) y 2 materiales (es decir, lenguaje, música), se
obtuvieron 42 ensayos únicos (es decir, 21 por tipo de material).

2.3. Diseño experimental

Cada participante vio los 42 ensayos únicos dos veces (una en las dos primeras carreras,
una en las dos segundas). Los tipos de prueba se distribuyeron por igual en 4 corridas y, dentro de
cada una, se presentaron al azar. Los estímulos se presentaron utilizando PsychoPy (Peirce, 2008);
las señales visuales se mostraban a través de un sistema de proyección compatible con MRI hecho
a medida, mientras que las señales auditivas se transmitían a través de un sistema de auriculares
de Resonancia Magnética. Como se muestra en la Fig. 1, cada prueba comenzó con la clave de
regla generativa (es decir, '♢, ♣,'), que se muestra en pantalla durante 1,5 s, seguida de la segunda
entrada (es decir, palabra o nota) presentada, auditivamente, para 1.8 s. Después de una
fluctuación de fase variable (entre 6 y 8 s), un símbolo de fijación parpadeó cuatro veces (con un
ciclo de 0,8 s de pantalla y un intervalo de 0,35 s). El primer parpadeo (con un símbolo de
cuadrado negro) sirvió como advertencia de que el período de "rendimiento / respuesta" debía
comenzar. Los siguientes tres parpadeos (con un símbolo de círculo negro) marcaron el período de
rendimiento / respuesta y proporcionaron un tempo para responder. El tempo nunca fue variado,
ni dentro ni fuera de los sujetos, y solo se empleó para proporcionar a los participantes un ritmo
constante para responder. Finalmente, una pantalla de fijación de longitud variable (con una
fluctuación aleatoria aleatoria de entre 5 y 7 s elegida, en una base de prueba por prueba, de una
distribución exponencial) separó cada prueba de la siguiente. Cada carrera duró, en promedio,
293.57 s (S.D. = 15.81). Los participantes fueron entrenados para el rendimiento asintótico antes
de la sesión de imágenes, en una habitación separada, después de haber firmado el
consentimiento informado. El experimentador corrigió cualquier error cometido por el
participante hasta lograr un rendimiento satisfactorio (menos de 2 errores por bloque de ensayos).
La capacitación cesó cuando los participantes pudieron realizar al menos 12 de 13 intentos
correctamente, lo que minimizó el tiempo de producción de sonido en todas las condiciones.

2.4. Adquisición de datos

Los datos se adquirieron en un escáner de resonancia magnética (MRI) Siemens Tim Trio
de 3 Tesla en el One Mind Center for Cognitive Neuroscience de UCLA. Los datos estructurales se
adquirieron usando una secuencia ponderada en T1 (MP RAGE, TR = 1900 ms, TE = 2.26 ms,
tamaño del vóxel 1 mm3 isovoxel). Los datos dependientes del nivel de oxigenación de sangre
(BOLD) se adquirieron con una secuencia de eco de gradiente de gradiente ponderada en T2 * (TR
= 3000 ms, TE = 35 ms, 45 cortes intercalados, tamaño de vóxel 3 × 3 × 3,3 mm) con corrección de
movimiento prospectiva en orden para reducir el impacto del movimiento del sujeto durante el
rendimiento.

2.5. Preprocesamiento de datos

El análisis de datos se llevó a cabo utilizando FSL (Smith et al., 2004). Antes del análisis, los
datos se sometieron a una serie de pasos de preprocesamiento convencionales que incluyen
corrección de movimiento, corrección de sincronización de corte (usando el desplazamiento de
fase de series de tiempo de Fourierspace), suavizado espacial usando un núcleo gaussiano de 5
mm de ancho completo medio-máximo y paso alto temporal filtrado (ajuste de línea recta de
mínimos cuadrados ponderados gaussianos, con σ = 50.0 s). Los datos de cada ejecución individual
se analizaron empleando un enfoque de modelo lineal general univariante (Monti, 2011) que
incluía una corrección previa al blanqueamiento para la autocorrelación. Siguiendo la convención
actual, se excluyó a cualquier participante que muestre un movimiento promedio mayor de 3 mm
(N = 1).

2.6. Análisis univariante

Para cada ejecución de cada participante, se realizó un análisis univariado utilizando,


como las principales variables de interés, 6 regresores, uno por tipo de prueba (es decir, voz activa
del lenguaje, voz pasiva del lenguaje, repetición del lenguaje, posición de raíz de la música, música
IInd posición de inversión, repetición de música). Los regresores marcaron el período de
rendimiento / respuesta de cada prueba (ver Fig. 1). Se emplearon varios regresores molestos
adicionales para modelar los períodos de referencia, el movimiento (incluidas las derivadas
primera y segunda, y su diferencia), así como los intervalos cortos entre la segunda señal y el
rendimiento de la tarea. Este último regresor es particularmente importante ya que distribuye
períodos en los que es probable que los sujetos realicen estrategias en anticipación de la tarea,
que, en ausencia de comentarios de los participantes, no se controlan y, por lo tanto, son difíciles
de interpretar. Para cada corrida computamos 4 contrastes: ensayos estructurados versus
repetidos para materiales de lenguaje y música (contrastes de "efecto simple"), por separado, y la
interacción entre los dos efectos simples ("contrastes de interacción") en ambas direcciones (es
decir, efecto simple de ensayos estructurados en lenguaje mayor que el simple efecto de ensayos
estructurados en música, y viceversa). Los datos de las ejecuciones individuales se agregaron
empleando un modelo de efectos mixtos (es decir, empleando tanto la varianza dentro de y entre
sujetos), y usando la detección automática de valores atípicos. Las imágenes estadísticas Z
(Gaussianised T) se midieron usando una corrección de clúster de Z> 2,3 y un umbral de
significación de clúster (corregido) de P = 0,05.

2.7. Análisis multivariado

La entrada al análisis multivariado fue un conjunto de volúmenes de coeficientes de


regresión (es decir, "β") que marcan la magnitud de la activación, para cada vóxel, en cada ensayo
(por sujeto). Estos "patrones de activaciones" de prueba se obtuvieron empleando los mínimos
cuadrados iterativos: enfoque separado (LS-S, Mumford, Turner, Ashby y Poldrack, 2012) en los
que se ejecuta un GLM por separado (aquí, usando el CINE con el local autocorrelación) para cada
prueba. En cada iteración, un regresor marca la prueba de interés, mientras que todos los ensayos
restantes se colapsan en un regresor molesto (ver Mumford et al., 2012, Fig. 1 para una
descripción visual de este enfoque). Este enfoque ha demostrado, en simulaciones, producir
estimaciones de activación que tienen la mayor correlación con las magnitudes de activación
verdaderas (Mumford et al., 2012), y también se ha demostrado que se adapta mejor al análisis
multivariante cuando se utiliza junto con la aleatorización completa de ensayos (diferentes para
cada sujeto) y con el mismo intervalo entre estímulos a través de la condición (Mumford, Davis y
Poldrack, 2014), como lo hemos hecho. Los patrones de activación se concatenaron a lo largo del
tiempo para construir una "serie β" subjetiva de la magnitud de activación por ensayo por vóxel
(Rissman, Gazzaley, & D'Esposito, 2004). Para evaluar si el lenguaje natural y la música comparten
representaciones neuronales subyacentes, empleamos un análisis de reflector de clasificación
cruzada usando un algoritmo de máquina de vector de soporte lineal (SVM). La clasificación
cruzada se realizó entrenando el clasificador SVM para reconocer la estructura frente a los
ensayos de repetición en un dominio, y luego tratando de clasificar la estructura frente a los
ensayos de estructura repetida en el otrolas clasificaciones cruzadas de dominio ("M2L" y "L2M"
para entrenamiento en música y pruebas en el idioma y viceversa, respectivamente). Las
clasificaciones cruzadas de L2M se realizaron sobre los vóxeles que se encontraron significativos
en la estructura menos los ensayos de repetición para los materiales de lenguaje (solo); Las
clasificaciones M2L se realizaron sobre los vóxeles que se encontraron significativos en la
estructura menos los ensayos repetidos para los materiales musicales (solo). Debido a que los
vóxeles significativos en los dos contrastes univariables podrían superponerse, esta selección de
características garantiza que los conjuntos de datos de entrenamiento y prueba para cada tipo de
clasificación cruzada (es decir, L2M, M2L) permanezcan completamente separados, evitando así
cualquier sesgo en el análisis. Las clasificaciones se realizaron en una sola asignatura, en el espacio
nativo, empleando un enfoque de reflectores de radio de 6 mm (Kriegeskorte, Goebel y Bandettini,
2006). Para tener en cuenta el desequilibrio entre el número de estructuras y las repeticiones (28 y
14, respectivamente, para cada dominio) y evitar sesgar el clasificador, realizamos un
procedimiento de remuestreo en el que, en cada una de las 1000 iteraciones, una submuestra de
14 (estructurada ) los ensayos se seleccionaron al azar, con el fin de entrenar y evaluar el
clasificador en un número coincidente de ensayos entre condiciones. Los resultados de las 1000
iteraciones se promediaron para obtener un único valor de precisión de clasificación para cada
esfera de reflector. Luego, para evaluar si las dos secuencias estructuradas de cada dominio
podrían distinguirse entre sí sobre la base de patrones de actividad cerebral dentro del área de
Broca (es decir, Language Active Voice (LAV) frente a Language Passive Voice (LPV) y Music Root
Posición (MRP) versus Music 2nd Inversion (MSI)), realizamos un segundo análisis de reflector
(Kriegeskorte et al., 2006). Específicamente, para cada dominio por separado, realizamos una
clasificación SVM en una sola materia, en espacio nativo, empleando un reflector de radio de 6
mm. En cada iteración del reflector, la precisión de la clasificación se evaluó utilizando un
procedimiento de validación cruzada de dejar uno en el que la SVM se entrenó en los ensayos de 3
corridas, y se evaluó la precisión en los ensayos de la carrera restante. Este procedimiento se
repitió para cada ejecución, y las 4 precisiones se promediaron para obtener una precisión general
para cada clasificación. Para ambos análisis de clasificación, se evaluó la significación estadística, a
nivel de grupo, empleando una prueba de signo basada en permutación y frente a un criterio de p
= 0,05 corregido para comparaciones múltiples a nivel de conglomerado (utilizando la mejora de
clúster sin umbral de FSL, Winkler, Ridgway, Webster, Smith y Nichols, 2014). En el nivel de sujeto
único, la significancia se evaluó con un procedimiento de permutación, en el que la clasificación se
repitió 1000 veces, con etiquetas de prueba mezcladas, para construir una distribución nula para
cada vóxel (véase, Etzel & Braver, 2013). Las clasificaciones que se encuentran dentro del 5%
superior de la distribución nula se consideraron significativas.

3. Resultados

3.1. Análisis univariante


El contraste de efectos simples de la estructura versus ensayos repetidos para materiales
de lenguaje descubrió un conjunto de activaciones esperadas en la circunvolución frontal inferior
izquierda (incluyendo su par opercular y triangularis, en áreas Brodmann [BA] 44, 45), corticales
temporales posteriores medias y superiores (BA 21, 22), áreas parietales bilaterales (abarcando BA
7, 40) y medial (BA 6), media (BA 8) y frontal frontal (BA 6) (en su mayoría lateralizadas a la
izquierda; véase la Fig. 2, a continuación, y Tabla S1 en el Material complementario disponible en
línea para una lista completa de máximos locales). Los datos complementarios asociados con este
artículo se pueden encontrar, en la versión en línea, en
https://doi.org/10.1016/j.bandl.2018.07.003. Cuando se realizó en ensayos de música, el mismo
contraste descubrió una serie de grupos de activación a través de regiones frontales y parietales
bilaterales (ver Fig. 2 y Tabla S2). El cúmulo frontal incluía máximos bilaterales en la circunvolución
frontal inferior (que abarca su par opercular en BA 44, triangular en BA 45 y orbital en BA 47),
corteza insular rostral (que abarca BA 13 y su unión con 45 y 47), así como focos bilaterales en las
circunvoluciones media (BA 6), superior (BA 6, 8) frontal y cingulada (BA 32). Además, se
observaron activaciones bilaterales en la parte inferior(BA 40) y superior (BA 7) lobuli parietal, así
como en el cerebelo posterior (ver Tabla S2 en el Material complementario disponible en línea
para la lista completa de máximos locales). Como se muestra en la figura 2 (regiones en amarillo),
la estructura frente al contraste repetido descubrió varias áreas comunes en el lenguaje y los
materiales musicales, incluido el frontal inferior izquierdo (en su par opercularis, BA 44) y frontal
medio (en BA 6 ) gyri, así como la circunvolución frontal / cingulada medial (BA 6, 32) y el lóbulo
parietal posterior bilateral (en BA 7 y 40). Para evitar la interpretación de una "resta inversa",
caracterizamos el perfil de actividad promedio para la estructura y las condiciones de repetición
para identificar el controlador primario en IFG. Los puntajes z medios de las subregiones IFG
(definidas por atlas externos: pares opercularis y pares triangulares de Harvard-Oxford y pars
orbitalis de AAL) se muestran en la figura S2. La interacción de estructura versus estructura y
materiales reveló que las circunvoluciones temporal superior izquierda y media (BA 21, 22) son
específicas del lenguaje (véanse las áreas azules en la figura S1 y la tabla S3), mientras que los
focos que rodean al orbital derecho y el subgrupo los segmentos lobares del giro frontal inferior
(principalmente en BA 47 y 13), junto con el frontal superior derecho (BA 6), el frontal medial (BA
6, 32) y el cerebelo posterior contralateral parecían ser específicos de la estructura en la música (v.
fig. S1 y Tabla S3 en el Material complementario disponible en línea).

3.2. Análisis multivariante

Para evaluar si el lenguaje natural y la música comparten códigos neurales para


representar la estructura, realizamos un análisis de patrones multivariables de clasificación
cruzada. En este enfoque, un clasificador SVM fue capacitado para reconocer la estructura frente a
repetir ensayos en un dominio y luego se probó en el otro. Es decir, capacitamos a un clasificador
para distinguir la estructura de las pruebas repetidas en el lenguaje y luego lo evaluamos al
evaluar su capacidad para discriminar la estructura frente a ensayos repetidos en la música
(clasificación cruzada "L2M") y viceversa (cruz "M2L") -clasificación, ver la Sección 2). Como se
muestra en la Fig. 3, se observaron clasificaciones cruzadas significativas en varias regiones de la
corteza prefrontal medial, cortezas parietales posteriores bilaterales, así como pretériales
izquierdas, inferiores (en el par opercularis) y circunvoluciones frontales medias, áreas
coincidentes de solapamiento univariante entre los dos dominios (es decir, regiones amarillas en la
Fig. 2). Además, dentro de cada uno de estos clústeres de clasificación cruzada hay áreas (en
amarillo) capaces de realizar clasificaciones L2M y M2L, lo que demuestra una cierta extensión de
la representación neuronal subyacente común en los dos dominios. Crucialmente, este efecto
podría observarse en el nivel de sujeto único, con exactitudes de clasificación cruzada media
(sujeto único) del 61% para las clasificaciones L2M y M2L, y oscila entre el 59% y el 65%, y el 58% y
el 64% para L2M y clasificaciones M2L, respectivamente; con la posibilidad de ser del 50%).
Centrándose en la circunvolución frontal inferior izquierda en particular, la figura 4 representa la
fiabilidad de el resultado en el nivel de sujeto único. La Fig. 4 también demuestra una variabilidad
significativa entre sujetos en la ubicación exacta de los vóxeles sensibles a la estructura lingüística
dentro de la circunvolución frontal inferior (como se mostró previamente: Fedorenko, Hsieh,
Nieto-Castañón, Whitfield-Gabrieli y Kanwisher, 2010), algo que también observamos en los voxels
sensibles a la estructura de la música, lo que resulta en una superposición sistemática pero de
ubicación variable en los vóxeles capaces de clasificaciones L2M y M2L en esta región. A
continuación, realizamos una clasificación de los reflectores para determinar si el área de Broca
era capaz de discriminar entre las dos condiciones estructuradas (voz activa frente a voz pasiva y
raíz versus posición de segunda inversión en la música). Después de corregir las comparaciones
múltiples, no hubo evidencia a nivel de grupo de que las regiones capaces de clasificar las
estructuras dentro de los dominios fueran consistentes entre los sujetos. Sin embargo, en el nivel
de sujeto único, una prueba de permutación dentro del sujeto reveló que los 20 sujetos
exhibieron, dentro del área de Broca, regiones capaces de discriminar entre las dos estructuras del
lenguaje (LAV v LPV, véase la Fig. 5, áreas azules), 17 los sujetos exhibieron regiones capaces de
discriminar entre las dos estructuras musicales (MRP v MSI; véase la Fig. 5, áreas verdes), y para 8
sujetos los dos sitios se superpusieron (véase la Fig. 5, áreas amarillas).

4. Discusión

En este estudio hemos abordado la cuestión de la relación entre el lenguaje natural y la


cognición humana al contrastar los sustratos neuronales que acompañan a la generación de
secuencias estructuradas a través del lenguaje y la música. En general, nuestros resultados
proporcionan evidencia directa de la hipótesis de que el lenguaje y la música tienen un código
neuronal compartido para producir relaciones estructuradas, un fenómeno que observamos tanto
en el grupo como a nivel de sujeto único. Más específicamente, informamos tres hallazgos
centrales. En primer lugar, empleando un enfoque univariante basado en la magnitud,
encontramos la generación de secuencias estructuradas en lenguaje para reclutar una conocida
red lateral izquierda de regiones frontales y temporales, junto con focos parietales posteriores,
mientras que la generación de secuencias de música involucraba a una mayor, y fuertemente
bilateral, conjunto de regiones fronto-parietales. El sustrato neuronal suscitado por este
paradigma de rendimiento (que ha permanecido casi inexplorado en el contexto de la música, con
la excepción de Brown et al., 2006) coincide muy estrechamente con el sustrato neuronal
típicamente informado en tareas centradas en la competencia en ambos idiomas (p. Ej. Ben-
Shachar, Hendler, Kahn, Ben-Bashat y Grodzinsky, 2003; Monti, Parsons, & Osherson, 2009) y
música (por ejemplo, Maess et al., 2001; Koelsch y otros, 2002, 2005; Cheung, Meyer, Friederici, y
Koelsch, 2018). Nuestro segundo hallazgo principal, evaluado con el mismo enfoque univariante
basado en la activación, muestra que la construcción de secuencias estructuradas en lenguaje y
música depende de varias regiones comunes a lo largo de las cortezas laterales izquierda y medial
frontal, así como de las regiones parietales posteriores bilaterales. En particular, el análisis
univariante muestra que el aspecto posterior del área de Broca, en el par opercular del giro frontal
inferior izquierdo, responde metabólicamente a la presencia de estructura en el contexto del
lenguaje y de los materiales musicales (figura S2) - un hallazgo que es consistente con los
resultados de estudios previos (Brown et al., 2006; Koelsch et al., 2002, 2004, 2005; Maess et al.,
2001). Más allá de la circunvolución frontal inferior izquierda, nuestros hallazgos muestran que la
interacción entre el lenguaje y la música podría extenderse a un conjunto de regiones en las
cortezas frontal y parietal llamadas convencionalmente red de demandas múltiples (Duncan,
2010), que han demostrado ser reclutadas a través de una amplia clase de operaciones cognitivas
(Fedorenko, Duncan, y Kanwisher, 2013), y regiones frontales medias que son Fig. 3. Resultado de
la clasificación cruzada del grupo (multivariable). Las regiones verdes representan áreas en las que
el algoritmo SVM podría clasificar significativamente, con precisión por encima del azar, estructura
contra ensayos repetidos en materiales de lenguaje después de haber sido entrenados para
reconocer la estructura frente a ensayos repetidos en materiales musicales (es decir, clasificación
cruzada M2L). Las regiones azules representan áreas en las que el algoritmo SVM podría clasificar
significativamente, con precisión por encima del azar, la estructura frente a ensayos repetidos en
materiales musicales después de haber sido entrenados para reconocer la estructura frente a
ensayos repetidos en materiales de lenguaje (es decir, clasificaciones cruzadas L2M). Las áreas
amarillas muestran los centros de búsqueda que pueden realizar de forma significativa ambas
clasificaciones. Fig. 4. Resultado de clasificación cruzada de un solo sujeto (multivariable). Mapas
planos corticales que representan, para cada participante por separado, centros de reflectores
capaces de clasificaciones cruzadas significativas (L2M en azul, M2L en verde, superposición en
amarillo) dentro de la circunvolución frontal inferior como se define anatómicamente (resaltado
en rojo, en la parte superior). Cada imagen (etiquetada como 'S ##') representa los resultados de
clasificación para un único participante. J.N. Chiang et al. Brain and Language 185 (2018) 30-37 34
comúnmente reclutados por la planificación motora (Haggard, 2008; Tanji y Shima, 1994; Tanji,
Shima y Mushiake, 2007) y que también se ha demostrado que juegan un papel en la percepción
del ritmo y generación de movimiento espontáneo en respuesta a estímulos musicales (Grahn y
Brett, 2007; Lima, Krishnan y Scott, 2016). La ausencia de regiones temporales identificadas por los
efectos principales específicos del dominio (Fig. S1), específicamente la participación del STS
posterior (es decir, el "área de Wernicke") en las tareas del lenguaje pero no en la música,
corrobora trabajos previos que informan que las regiones temporales posteriores podrían
comprometerse interacción semántica / sintáctica (ver Friederici 2011, 2012 para una revisión).
Finalmente, nuestro tercer y crucial hallazgo aborda el significado de la superposición
frecuentemente reportada entre el sustrato neuronal del lenguaje y el de la música, abordando
directamente la cuestión de si los mecanismos del lenguaje natural juegan un papel en el
procesamiento de las secuencias estructuradas de la música. . De hecho, aunque las regiones de
activación superpuestas para estos dos dominios se han interpretado ampliamente como áreas de
marcado de procesamiento neurocognitivo compartido (Kunert y Slevc, 2015), estas hipótesis no
se habían probado directamente (hasta ahora), lo que llevó a algunos a recomendar
específicamente análisis multivariados tales como el adoptado aquí (Peretz et al., 2015). Como
informamos anteriormente, podríamos encontrar dentro de cada una de las regiones de
superposición univariante (en el área de Broca), áreas capaces de reconocer la estructura de la
música sobre la base de la estructura del lenguaje y viceversa. De hecho, en cada una de estas
áreas, un subconjunto de vóxeles podría realizar, al mismo tiempo, clasificaciones cruzadas en
ambas direcciones (es decir, L2M y M2L), demostrando un grado de representación neuronal
compartida de estructuras a través de dominios. Además, aunque el resultado no fue significativo
a nivel de grupo, dentro del área de Broca también pudimos encontrar subregiones ubicadas de
forma variable, sensibles a las diferentes estructuras del lenguaje (es decir, voz activa versus voz
pasiva) y música (es decir, raíz versus 2da posición de inversión). Estos hallazgos proporcionan
evidencia a favor de la idea de que la cognición del lenguaje y la música comparten, dentro del
área de Broca, recursos relacionados con el establecimiento de relaciones estructuradas que unen
elementos discretos en estructuras complejas bien formadas (Patel, 2003, 2012). No obstante,
nuestros datos no pueden abordar la cuestión de si la representación neuronal de operaciones
específicas. Al interpretar nuestros resultados, sin embargo, se deben tener en cuenta dos
limitaciones importantes. En primer lugar, no es posible, a partir de nuestro análisis, determinar
los factores precisos que impulsan la clasificación exitosa de ensayos estructurados versus no
estructurados entre dominios, o dentro de las secuencias estructuradas de cada dominio (véase,
Hebart y Baker 2017 ) De hecho, en ambos análisis, los estímulos difieren a través de una serie de
características importantes, incluida la presencia de secuencias estructuradas, así como las
demandas de memoria de trabajo (como se muestra por el reclutamiento común de regiones
dentro de las llamadas demandas múltiples (Duncan, 2010), o modo extrínseco (Hugdahl, Raichle,
Mitra, & Specht, 2015), red). El grado en que cada uno de estos factores (y posiblemente otros)
impulsa nuestros resultados no se puede evaluar con nuestros propios datos. No obstante, aunque
la coubicación de vóxeles de clasificación cruzada dentro del área de Broca está abierta a dicha
ambigüedad interpretativa, es más difícil plantear el mismo caso para la pequeña co-localización
observada en la clasificación de diferentes estructuras ordenadas (dentro de cada dominio). Si, de
hecho, los procesos generales fueron responsables de las activaciones previamente observadas
para la música en el área de Broca (Fedorenko y Varley, 2016), se esperaría una mayor co-
localización de vóxeles capaces de clasificar las dos estructuras dentro de cada dominio. Además,
un estudio reciente ha demostrado que las demandas mayores (generales) de memoria de trabajo
no son suficientes para impulsar la activación dentro del área de Broca, al tiempo que activa una
red bien caracterizada de regiones frontales y parietales (Coetzee & Monti, 2018). Una segunda
consideración importante es el hecho de que, tanto para la música como para el lenguaje,
nuestras estructuras eran relativamente simples en comparación con trabajos previos que
intentaban relacionar secuencias lingüísticas y musicales (por ejemplo, Kunert et al., 2015). Por lo
tanto, no está claro si el hecho de que no descubrimos un efecto de grupo al clasificar, dentro de
cada dominio, las dos estructuras (es decir, voz activa / pasiva y posición raíz / segunda inversión,
para el idioma y la música respectivamente) se debe a esto diferencia u otros factores tales como
la alta variabilidad de la distribución fina de las representaciones neuronales entre los individuos
(véase, Fig. 5, ver Fedorenko et al., 2010). En general, nuestros hallazgos son consistentes con la
idea de que el área de Broca podría desempeñar un papel en múltiples dominios, en el contexto
del procesamiento de secuencias estructuradas, como se prevé en la hipótesis Supramodal
Hierarchical Parser (véase, Tettamanti y Weniger, 2006). No obstante, es importante señalar que
hasta la fecha esta hipótesis solo ha encontrado apoyo en un sentido estricto (por ejemplo, como
se concibió en Fadiga et al., 2009, y ver Van de Cavey & Hartsuiker, 2016 para evidencia de
mecanismos de dominio general) , ya que no parece extenderse a las relaciones jerárquicas del
álgebra (por ejemplo, Varley et al., 2005; Monti et al., 2012), inferencia lógica (p. ej., Monti,
Osherson, Martinez y Parsons, 2007; Monti et al. al., 2009; Monti & Osherson, 2012) y la cognición
espacial (p. ej., Bek, Blades, Siegal y Varley, 2010). Hasta ahora, solo se ha encontrado que es
consistente con los hallazgos en el dominio del lenguaje (ver, Bookheimer, 2002), la música (aquí y
en la mayoría de los informes previos de neuroimágenes, por ejemplo, Maess et al., 2001; Koelsch
et al. , 2002; Koelsch, Rohrmeier, Torrecuso y Jentschke, 2013) y las secuencias de acción motora
(p. Ej., Fazio et al., 2009). En esto sentido, el área de Broca no puede verse como un analizador
central capaz de operar en cualquier dominio de la cognición, como cabría esperar de un
procesador general de dominio o componente de memoria operativa, aunque puede ser un
componente central en una red de regiones que se dedican al procesamiento jerárquico ( Fitch,
2014). Si bien se podría especular que el área de Broca juega un papel en dominios cognitivos
donde las relaciones estructuradas desencadenan intuiciones automáticas y sin esfuerzo (compare
la facilidad de detectar una oración no gramatical o una nota agria con la tarea mucho más
exigente de detectar una expresión algebraica incorrecta o argumento lógico), el (los) factor (es)
crucial (es) que determina (n) su participación en el procesamiento de las secuencias estructuradas
aún no se han especificado del todo. En conclusión, este informe proporciona evidencia directa de
que forjar las secuencias estructuradas del lenguaje natural y la música también se basa en un
espacio de representación neuronal común que incluye el área de Broca, una región
tradicionalmente asociada con las operaciones sintácticas del lenguaje. Contrariamente a la
discusión reciente (Fedorenko y Varley, 2016), encontramos que las activaciones dentro del área
de Broca en respuesta a estímulos musicales no pueden descartarse como epifenómenos a
eventos destacados (por ejemplo, violaciones, que no estaban presentes en nuestro diseño) o
debido al reclutamiento de procesos generales de dominio (encapsulados en, o cerca de, el área
de Broca). Si los mecanismos comunes evolucionaron originalmente en relación con uno de los dos
dominios, o si heredaron conjuntamente sus propiedades de un dominio cognitivo previo común
(por ejemplo, un "protolanguaje prosódico", Fitch, 2005; o la capacidad de secuencias jerárquicas
de acciones motoras , Lashley, 1951), queda por entender.

5. Declaración del auto

r Si bien el área de Broca es un procesador de secuencia bien establecido en el lenguaje, se


impugna si la región calcula directamente secuencias en otros dominios. Este estudio fMRI utiliza
el paradigma de producción y la clasificación cruzada para mostrar que, al menos en el contexto
del lenguaje y la música, el área de Broca representa secuencias estructuradas en todos los
dominios.

Agradecimientos

Esta investigación fue apoyada por UCLA OVCR-COR Transdisciplinary Seed Grant
"Lenguaje, música y el cerebro" para AL y MMM, la National Defense Science and Engineering
(NDSEG) beca para JNC, y por el Staglin IMHRO Center for Cognitive Neuroscience en UCLA.

Contribución del autor


MMM y AL desarrollaron el concepto del estudio y obtuvieron los fondos. MMM, MHR,
CAB y DS diseñaron el diseño del estudio. MHR llevó a cabo pruebas de comportamiento y
recopilación de datos de neuroimágenes. JNC y MHR realizaron el análisis de datos y, junto con
MMM, interpretaron los resultados. MMM redactó el manuscrito, MHR y JNC proporcionaron
revisiones críticas. Todos los autores contribuyeron a la edición posterior del manuscrito.

También podría gustarte