Documentos de Académico
Documentos de Profesional
Documentos de Cultura
l. Chiang JN1, Rosenberg MH1, Bufford CA1, Stephens D2, Lysy A2, Monti MM3.
Información del autor
Resumen 1. Introducción
Una intuición central en el estudio del lenguaje humano como fenómeno cognitivo es la
idea de que, mientras escuchamos una señal lineal como el habla, nuestras mentes construyen
espontáneamente hipótesis abstractas y estructuradas que representan cómo los elementos
discretos dentro de una secuencia se relacionan entre sí. (Chomsky, 1957, 1965; Fitch y Martins,
2014; Jackendoff, 2002; Lashley, 1951; Monti, 2017). El uso de tales representaciones se muestra
más claramente en lenguaje natural (Berwick, Friederici, Chomsky y Bolhuis, 2013; Ding, Melloni,
Zhang, Tian y Poeppel, 2015), pero también caracteriza otros aspectos de la cognición humana,
como la lógica razonamiento (Monti & Osherson, 2012; Osherson, 1975), cognición algebraica
(Maruyama, Pallier, Jobert, Sigman, y Dehaene, 2012; Monti, Parsons, y Osherson, 2012; Varley,
Klessinger, Romanowski, y Siegal, 2005), y la cognición musical (Katz & Pesetsky, 2011; Lerdahl,
2001; Patel, 2003), entre otros. La relación entre la operación sintáctica del lenguaje y las
operaciones de tipo sintaxis de otros aspectos de la cognición humana ha estado en el centro de
un debate de larga data sobre el grado en que el pensamiento humano está integrado o habilitado
por el lenguaje natural ( por ejemplo, Lashley, 1951, Boeckx, 2010, Gleitman y Papafragou, 2013,
Fitch & Martins, 2014, Fitch 2014, Monti, 2017). Lashley (1951) comentó sobre la prevalencia de
secuencias estructuradas entre dominios, notando que exhibían las siguientes tres propiedades:
(1) conectividad; es decir, ningún nodo está aislado de los demás, (2) un elemento raíz; es decir,
"oración" o "acorde" que es superior a otros y (3) estructura acíclica; establecer el orden como
una propiedad única (Fitch y Martins 2014; Lashley 1951). En el contexto de la cognición musical,
la analogía con los aspectos estructurales del lenguaje es particularmente pronunciada. Como se
discutió en otra parte (por ejemplo, Lerdahl y Jackendoff, 1985; Patel, 2003; Fadiga, Craighero, y
D'Ausilio, 2009; Fitch 2014; Peretz, Vuvan, Lagrois, y Armony, 2015), la música y el lenguaje se
caracterizan por discretos elementos (p. ej., palabras, acordes) que pueden (recursivamente)
combinarse, de acuerdo con reglas específicas, para formar estructuras organizadas (p. ej.,
oraciones, melodías) que típicamente están codificadas dentro de señales lineales, dependientes
del tiempo. No obstante, si esta analogía es sustancial o meramente superficial sigue siendo un
tema debatido (véase, Peretz et al., 2015). En un extremo del espectro, se ha propuesto que el
lenguaje y la música se rigen por los mismos procesos sintácticos aplicados a diferentes bloques de
construcción (por ejemplo, palabras vs. notas). De acuerdo con este punto de vista, "[a] ll las
diferencias formales entre el lenguaje y la música son una consecuencia de diferencias en sus
bloques de construcción fundamentales [; En todos los demás aspectos, el lenguaje y la música son
idénticos "(Katz y Pesetsky, 2011). En líneas similares, se ha propuesto que las representaciones
comunes subyacentes al procesamiento de la estructura en lenguaje y música pueden ser
localizadas en los mecanismos neuronales encapsulados dentro de la circunvolución frontal
inferior izquierda (IFG, a menudo denominada área de Broca), una región hipotéticamente
operada como un "analizador jerárquico supramodal" (Fadiga et al., 2009; Tettamanti y Weniger,
2006). De acuerdo con este punto de vista, una literatura de neuroimagen en rápido crecimiento
ha demostrado que el procesamiento de la música recluta regiones corticales que se superponen
con áreas que se sabe que están involucradas en aspectos sintácticos y semánticos del
procesamiento del lenguaje natural (Patel, Gibson, Ratner, Besson y Holcomb, 1998; Maess,
Koelsch, Gunter, y Friederici, 2001; Koelsch, et al., 2002; Tillmann, Janata, y Bharucha, 2003;
Koelsch y otros, 2004; Koelsch, Fritz, Schulze, Alsop y Schlaug, 2005; Brown, Martinez , & Parsons,
2006; ver Rogalsky, Rong, Saberi, & Hickok, 2011, para un resultado conflictivo). No obstante,
aunque la observación de sustratos neuronales superpuestos a menudo implica la presencia de
representaciones neurocognitivas compartidas entre el lenguaje y la música, este no es
necesariamente el caso (Peretz et al., 2015) y, de hecho, nunca se ha demostrado que sea cierto.
Este "eslabón perdido" en la literatura neurocientífica deja abierta la posibilidad de que áreas del
cerebro comúnmente reclutadas puedan, de hecho, representar operaciones muy diferentes que
no se traducen, ni se alinean, en los dos dominios, o que no están relacionadas en absoluto con el
procesamiento de estas relaciones. De acuerdo con esta observación, se ha sugerido que el
lenguaje y la música en realidad se consideran mejor como modulares y en gran parte
independientes entre sí (Marin y Perry, 1999; Peretz y Coltheart, 2003). En apoyo de este punto de
vista, una rica literatura neuropsicológica ha descrito casos de individuos que exhiben amusia en
ausencia de afasia, así como afasia en ausencia de amusia (Luria et al., 1965; Peretz, 1993; Peretz
et al. 1994, Ayotte, Peretz, Rousseau, Bard y Bojanowski, 2000; Piccirilli, Sciarma y Luzzi, 2000;
Ayotte, Peretz y Hyde, 2002). La razón de la evidencia contradictoria sigue siendo un tema de
debate. Según algunos, la fractura entre los hallazgos neuropsicológicos y de neuroimagen se
puede conciliar con una solución intermedia en la que el lenguaje y la música se consideran
sistemas parcialmente superpuestos (Patel, 2003; Patel, Iversen, Wassenaar y Hagoort, 2008). Bajo
esta visión, referida como la hipótesis de recursos de integración sintáctica compartida, el lenguaje
y la música se caracterizan por procesos específicos del dominio (es decir, separados) y
compartidos. Los procesos específicos del dominio se relacionan con las características
particulares de cada sintaxis, que se reconocen como arquitectónicamente diferentes, mientras
que los procesos compartidos proporcionan recursos neuronales para la activación de las
representaciones sintácticas almacenadas relevantes (Patel, 2012). Según otros, la inconsistencia
entre los dos conjuntos de hallazgos podría deberse a consideraciones experimentales y
neuroanatómicas (Fedorenko y Varley, 2016). Específicamente, la superposición a menudo
reportada, en estudios de neuroimágenes, en regiones frontales inferiores izquierdas podría ser
un reflejo de las demandas generales de tareas relacionadas con el uso de paradigmas de violación
estructural (p. Ej., El P600 y los efectos de negatividad anterior temprana izquierda / derecha
informados en estudios electrofisiológicos; Janata, 1995; Maess et al., 2001; Koelsch et al., 2002,
2005; Steinbeis y Koelsch, 2008; Tillmann et al., 2003; y posteriormente localizado en la
circunvolución frontal inferior a través de la neuroimagen; Musso et al. ., 2015, Kunert, Willems,
Casasanto, Patel, y Hagoort, 2015). Es probable que los eventos desviados provoquen procesos
auxiliares que incluyen la captura atencional, la detección de expectativas violadas o la corrección
de errores, independientemente de si la violación se aplica al lenguaje natural, la música, la
aritmética o las secuencias motoras. Dichos procesos no están relacionados con la extracción o
forjado de secuencias estructuradas y se sabe que provocan activación en regiones generales del
dominio (superposición proximal o parcial con el área de Broca, ver Fedorenko y Varley, 2016,
para una discusión detallada). En el presente estudio, abordamos la relación entre los mecanismos
del lenguaje natural y los de la música en un diseño de 3 Tesla de resonancia magnética funcional
(fMRI) dentro de sujetos en el que músicos competentes generan estructuras en el lenguaje
(oraciones de voz activa / pasiva versus repetición un verbo) y música (raíz / segunda posición de
inversión tríadas ascendentes versus repetir una nota; cf., Fig. 1 y Tabla 1). Crucialmente,
empleamos una tarea de generación (raramente explorada) para evitar la confusión de eventos
sobresalientes, y utilizamos un enfoque de clasificación cruzada multivariante para resolver la
ambigüedad interpretativa presente en la literatura de neuroimagen previa (que ha sido
específicamente defendida, ver Peretz et al. , 2015), lo que ayuda a resolver la cuestión de si el
lenguaje natural y la música comparten un código neuronal subyacente común para representar
secuencias estructuradas.
2. Métodos
2.1. Participantes
2.2. Estímulos
Para ambos materiales (es decir, ensayos de "lenguaje" y "música"), la primera señal se
entregó visualmente, presentando uno de los tres iconos en el medio de la pantalla. Un símbolo
'♢' indicaba una prueba de posición activa o raíz (dependiendo de si la segunda entrada era una
palabra o una nota, respectivamente); un símbolo '♣' indica una prueba de inversión pasiva o una
II inversión; un símbolo '' indica una prueba no estructurada (es decir, repetida). La segunda
entrada fue entregada auditivamente y consistió en un verbo o una nota, revelando así si el
ensayo era una prueba de lenguaje o música, y permitiendo la desambiguación de la instrucción
provista por el primer indicio. (Consulte la Tabla 1 y la Fig. 1 para ver ejemplos de estímulos.) Las
claves para los ensayos de lenguaje consistían en siete verbos monosílabos, reversibles, de tiempo
presente (es decir, "traer", "decir", "enseñar", "arrojar", "salir", "Dar", "pagar"). Las pistas para los
ensayos de música consistieron en 7 notas grabadas con un piano electrónico. Las notas
comprendían una escala cromática (es decir, cada paso consecutivo estaba separado del siguiente
por un semitono, o un medio paso). A los participantes se les permitió elegir, entre tres conjuntos
de señales musicales (alto, medio o bajo), el rango de tono más adecuado para su rango vocal.
Para cada conjunto, un quinto perfecto (7 semitonos / pasos a la mitad) separó los tonos más
bajos y más altos de las pistas. Al combinar las 7 claves (es decir, palabras / notas), 3 reglas
generativas (2 estructuradas, 1 repetición) y 2 materiales (es decir, lenguaje, música), se
obtuvieron 42 ensayos únicos (es decir, 21 por tipo de material).
Cada participante vio los 42 ensayos únicos dos veces (una en las dos primeras carreras,
una en las dos segundas). Los tipos de prueba se distribuyeron por igual en 4 corridas y, dentro de
cada una, se presentaron al azar. Los estímulos se presentaron utilizando PsychoPy (Peirce, 2008);
las señales visuales se mostraban a través de un sistema de proyección compatible con MRI hecho
a medida, mientras que las señales auditivas se transmitían a través de un sistema de auriculares
de Resonancia Magnética. Como se muestra en la Fig. 1, cada prueba comenzó con la clave de
regla generativa (es decir, '♢, ♣,'), que se muestra en pantalla durante 1,5 s, seguida de la segunda
entrada (es decir, palabra o nota) presentada, auditivamente, para 1.8 s. Después de una
fluctuación de fase variable (entre 6 y 8 s), un símbolo de fijación parpadeó cuatro veces (con un
ciclo de 0,8 s de pantalla y un intervalo de 0,35 s). El primer parpadeo (con un símbolo de
cuadrado negro) sirvió como advertencia de que el período de "rendimiento / respuesta" debía
comenzar. Los siguientes tres parpadeos (con un símbolo de círculo negro) marcaron el período de
rendimiento / respuesta y proporcionaron un tempo para responder. El tempo nunca fue variado,
ni dentro ni fuera de los sujetos, y solo se empleó para proporcionar a los participantes un ritmo
constante para responder. Finalmente, una pantalla de fijación de longitud variable (con una
fluctuación aleatoria aleatoria de entre 5 y 7 s elegida, en una base de prueba por prueba, de una
distribución exponencial) separó cada prueba de la siguiente. Cada carrera duró, en promedio,
293.57 s (S.D. = 15.81). Los participantes fueron entrenados para el rendimiento asintótico antes
de la sesión de imágenes, en una habitación separada, después de haber firmado el
consentimiento informado. El experimentador corrigió cualquier error cometido por el
participante hasta lograr un rendimiento satisfactorio (menos de 2 errores por bloque de ensayos).
La capacitación cesó cuando los participantes pudieron realizar al menos 12 de 13 intentos
correctamente, lo que minimizó el tiempo de producción de sonido en todas las condiciones.
Los datos se adquirieron en un escáner de resonancia magnética (MRI) Siemens Tim Trio
de 3 Tesla en el One Mind Center for Cognitive Neuroscience de UCLA. Los datos estructurales se
adquirieron usando una secuencia ponderada en T1 (MP RAGE, TR = 1900 ms, TE = 2.26 ms,
tamaño del vóxel 1 mm3 isovoxel). Los datos dependientes del nivel de oxigenación de sangre
(BOLD) se adquirieron con una secuencia de eco de gradiente de gradiente ponderada en T2 * (TR
= 3000 ms, TE = 35 ms, 45 cortes intercalados, tamaño de vóxel 3 × 3 × 3,3 mm) con corrección de
movimiento prospectiva en orden para reducir el impacto del movimiento del sujeto durante el
rendimiento.
El análisis de datos se llevó a cabo utilizando FSL (Smith et al., 2004). Antes del análisis, los
datos se sometieron a una serie de pasos de preprocesamiento convencionales que incluyen
corrección de movimiento, corrección de sincronización de corte (usando el desplazamiento de
fase de series de tiempo de Fourierspace), suavizado espacial usando un núcleo gaussiano de 5
mm de ancho completo medio-máximo y paso alto temporal filtrado (ajuste de línea recta de
mínimos cuadrados ponderados gaussianos, con σ = 50.0 s). Los datos de cada ejecución individual
se analizaron empleando un enfoque de modelo lineal general univariante (Monti, 2011) que
incluía una corrección previa al blanqueamiento para la autocorrelación. Siguiendo la convención
actual, se excluyó a cualquier participante que muestre un movimiento promedio mayor de 3 mm
(N = 1).
3. Resultados
4. Discusión
Agradecimientos
Esta investigación fue apoyada por UCLA OVCR-COR Transdisciplinary Seed Grant
"Lenguaje, música y el cerebro" para AL y MMM, la National Defense Science and Engineering
(NDSEG) beca para JNC, y por el Staglin IMHRO Center for Cognitive Neuroscience en UCLA.