El Modelo DIVA

El modelo DIVA: una teoría neuronal de la adquisición y producción del habla
Resumen
El modelo DIVA de producción del habla proporciona una descripción computacional y
neuroanatómicamente explícita de la red de regiones del cerebro implicadas en la
adquisición y producción del habla. Se proporciona una descripción general del modelo
junto con descripciones de los cálculos realizados en las diferentes regiones del cerebro
representadas en el modelo. Se describirá la última versión del modelo, que contiene un
nuevo mapa de control de retroalimentación lateralizado a la derecha en la corteza
premotora ventral, y se discutirán los resultados experimentales que motivaron este
nuevo componente del modelo. También se describirá brevemente la aplicación del
modelo al estudio y tratamiento de los trastornos de la comunicación.
INTRODUCCIÓN
Con la proliferación de estudios de imágenes cerebrales funcionales, se está construyendo
un consenso con respecto a las áreas cerebrales subyacentes al control motor del habla
(por ejemplo, Indefrey y Levelt, 2004; Turkeltaub, Eden, Jones y Zeffiro, 2002). Bohland y
Guenther (2006) han descrito una “red mínima” de regiones cerebrales involucradas en la
producción del habla que incluye la corteza frontal bilateral medial y lateral, la corteza
parietal, la corteza temporal superior, el tálamo, los ganglios basales y el cerebelo. No es
de extrañar que estas regiones estén comúnmente asociadas con la planificación y
ejecución de movimientos (corteza sensoriomotora y premotora primaria, el área motora
suplementaria, el cerebelo, el tálamo y los ganglios basales) y las asociadas con el
procesamiento acústico y fonológico de los sonidos del habla ( la circunvolución temporal
superior). Todavía falta una descripción completa y mecanicista del papel que desempeña
cada región durante la producción del habla y cómo interactúan para producir un habla
fluida. El objetivo de nuestro programa de investigación durante los últimos dieciséis años
ha sido mejorar nuestra comprensión de los mecanismos neuronales que subyacen al
control motor del habla. Durante ese tiempo, hemos desarrollado un modelo
computacional de adquisición y producción del habla llamado modelo DIVA (Guenther,
1994; Guenther, 1995; Guenther, Ghosh y Tourville, 2006; Guenther, Hampson y Johnson,
1998). DIVA es una red neuronal adaptativa que describe las interacciones
sensoriomotoras involucradas en el control del articulador durante la producción del
habla. El modelo se ha utilizado para orientar una serie de estudios de imágenes
conductuales y funcionales del procesamiento del habla (p. Ej., Bohland y Guenther, 2006;
Ghosh, Tourville y Guenther, 2008; Guenther, Espy-Wilson, Boyce, Matthies, Zandipour et
al., 1999; Lane, Denny, Guenther, Hanson, Marrone et al., 2007; Lane, Denny, Guenther,
Matthies, Menard et al., 2005; Lane, Matthies, Guenther, Denny, Perkell et al., 2007;
Nieto-Castanon , Guenther, Perkell y Curtin, 2005; Perkell, Guenther, Lane, Matthies,
Stockmann et al., 2004; Perkell, Matthies, Tiede, Lane, Zandipour et al., 2004; Tourville,
Reilly y Guenther, 2008). La naturaleza matemáticamente explícita del modelo permite
comparaciones sencillas de hipótesis generadas a partir de simulaciones de condiciones
experimentales con datos empíricos. Las simulaciones del modelo generan predicciones
con respecto a la acústica esperada (por ejemplo, frecuencias formantes),
somatosensorial (por ejemplo, posiciones de articulador), tasas de aprendizaje y niveles
de actividad dentro de componentes específicos del modelo. Los experimentos están
diseñados para probar estas predicciones y los hallazgos empíricos, a su vez, se utilizan
para refinar aún más el modelo.
En su forma actual, el modelo DIVA proporciona una explicación unificada de una serie de
fenómenos de producción del habla, incluida la equivalencia motora (configuraciones
variables del articulador que producen la misma salida acústica), la variabilidad
contextual, la coarticulación anticipatoria y de arrastre, las relaciones de velocidad /
distancia, los efectos de la velocidad del habla. y la adquisición y retención de la habilidad
del habla a lo largo del desarrollo (p. ej., Callan, Kent, Guenther & Vorperian, 2000;
Guenther, 1994; Guenther, 1995; Guenther et al., 2006; Guenther et al., 1998; Nieto-
Castanon et al. , 2005). Debido a que puede dar cuenta de una gama tan amplia de datos,
el modelo DIVA ha proporcionado el marco teórico para una serie de investigaciones
sobre la producción del habla normal y desordenada. Las predicciones del modelo han
guiado estudios sobre el papel de la retroalimentación auditiva en personas que oyen
normalmente, personas sordas y personas que recientemente han recuperado algo de
audición mediante el uso de implantes cocleares (Lane et al., 2007; Perkell, Denny, Lane,
Guenther , Matthies et al., 2007; Perkell, Guenther, Lane, Matthies,
Perrier y col., 2000; Perkell y col., 2004; Perkell y col., 2004). El modelo también se ha
empleado en investigaciones sobre la etiología de la tartamudez (Max, Guenther, Gracco,
Ghosh & Wallace, 2004) y la apraxia adquirida del habla (Robin, Guenther, Narayana,
Jacks, Tourville et al., 2008; Terband, Maassen, Brumberg y Guenther, 2008). En esta
revisión, se describen los conceptos clave del modelo DIVA con un enfoque en las
modificaciones recientes del modelo. Nuestras investigaciones de las regiones del cerebro
involucradas en el control del articulador basado en retroalimentación han motivado la
adición de un mapa de control de retroalimentación lateralizado en la corteza premotora
ventral del hemisferio derecho. También se han incorporado al modelo regiones
cerebrales adicionales que se sabe que contribuyen al control motor del habla. Se plantea
la hipótesis de que las proyecciones que se originan en el área motora suplementaria y
que pasan a través de los ganglios basales y el tálamo sirven como puertas de salida de los
comandos motores. El apoyo a estas modificaciones y el impacto que tienen en el modelo
se analizan a continuación.
DESCRIPCIÓN GENERAL DEL MODELO DIVA
El modelo DIVA, esquematizado en la Figura 1, consta de subsistemas integrados de

control de retroalimentación y retroalimentación. Juntos, aprenden a controlar un tracto
vocal simulado, una versión modificada del sintetizador descrito por Maeda (1990). Una
vez entrenado, el modelo toma un sonido del habla como entrada y genera una secuencia
variable en el tiempo de posiciones del articulador que controlan los movimientos del
tracto vocal simulado que producen el sonido deseado. Cada bloque de la Figura 1
corresponde a un conjunto de neuronas que constituyen una representación neuronal. Al
describir el modelo, el término mapa se usa para referirse a dicho conjunto de celdas,
representado por cuadros en la Figura 1. El término mapa se usa para referirse a una
transformación de una representación neuronal a otra. Estas transformaciones están
representadas por flechas en la Figura 1 y se supone que se llevan a cabo filtrando
activaciones de células en un mapa a través de sinapsis que se proyectan en otro mapa.
Los pesos sinápticos se aprenden durante una fase de balbuceo que pretende representar
groseramente lo que suele experimentar un bebé con un desarrollo normal (p. Ej., Oller y
Eilers, 1988). Los movimientos aleatorios de los articuladores del habla proporcionan
señales de retroalimentación táctil, propioceptiva y auditiva que se utilizan para aprender
las asignaciones entre las diferentes representaciones neuronales. Después de balbucear,
el modelo puede aprender rápidamente a producir nuevos sonidos a partir de las
muestras de audio que se le proporcionan.
Una parte importante del desarrollo del modelo ha sido la asignación de componentes del
modelo a las regiones correspondientes del cerebro (ver etiquetas anatómicas en los
recuadros de la Figura 1). Los componentes del modelo se mapearon en ubicaciones en el
marco de referencia estándar del Instituto Neurológico de Montreal (MNI; Mazziotta,
Toga, Evans, Fox, Lancaster et al., 2001) basado en estudios neuroanatómicos y
neurofisiológicos relevantes (Guenther et al., 2006). La asignación de las ubicaciones de
los componentes se basa en la síntesis de una gran cantidad de datos conductuales,
neurofisiológicos, de lesiones y neuroanatómicos. La mayoría de estos datos se derivaron
de estudios centrados específicamente en los procesos del habla; sin embargo, también
contribuyeron estudios de otras modalidades (p. ej., control motor no orofacial). La
asociación de componentes del modelo a las regiones del cerebro permite i) la generación
de hipótesis neuroanatómicamente especificadas con respecto a los procesos neuronales
que subyacen al control motor del habla a partir de un marco teórico unificado, y ii) una
comparación de la dinámica del modelo con los hallazgos clínicos y fisiológicos pasados,
presentes y futuros con respecto a la neuroanatomía funcional de los procesos del habla.
Imagen de resonancia magnética funcional dependiente del nivel de oxigenación en
sangre (BOLD) (fMRI; Belliveau, Kwong, Kennedy, Baker, Stern et al., 1992; Kwong,
Belliveau, Chesler, Goldberg, Weisskoff et al., 1992; Ogawa, Menon, Tank , Kim, Merkle et
al., 1993) ha proporcionado una poderosa herramienta para el estudio no invasivo de la
función del cerebro humano. La señal BOLD proporciona una medida indirecta de la
actividad neuronal. El acoplamiento entre la actividad neuronal y los cambios en los
niveles locales de oxígeno en sangre sigue siendo un tema de debate. Si bien se han hecho
argumentos en contra (Mukamel, Gelbard, Arieli, Hasson, Fried et al., 2005), se está
construyendo un consenso en torno a la hipótesis de que la señal BOLD se correlaciona
con los potenciales de campo locales (Goense y Logothetis, 2008; Logothetis, Pauls,
Augath, Trinath y Oeltermann, 2001; Mathiesen, Caesar, Akgoren y Lauritzen, 1998;
Viswanathan y Freeman, 2007). Se cree que los potenciales de campo locales reflejan la
actividad sináptica local, es decir, una suma ponderada de las entradas a una región
determinada (Raichle & Mintun, 2006).
El desarrollo de BOLD fMRI ha demostrado ser particularmente beneficioso para el estudio

del habla dada su naturaleza exclusivamente humana. La última década y media de
investigación de imágenes ha proporcionado una enorme cantidad de datos funcionales
sobre las regiones del cerebro involucradas en ambos habla (p. Ej., Fiez y Petersen, 1998;
Ghosh, Bohland y Guenther, 2003; Indefrey y Levelt, 2004; Riecker, Ackermann,
Wildgruber, Meyer, Dogil et al., 2000; Soros, Sokoloff, Bose, McIntosh, Graham et al.,
2006; Turkeltaub et al., 2002), incluida la identificación de una "red mínima" de las
regiones cerebrales implicadas en la producción de habla (Bohland & Guenther, 2006). Sin
embargo, una imagen clara de las contribuciones realizadas por cada región y cómo estas
regiones interactúan durante la producción del habla sigue siendo difícil de alcanzar.
Creemos que el estudio continuo de los mecanismos neurales del habla se beneficiará del
uso combinado de neuroimagen funcional y modelado computacional. Para este
propósito, las ubicaciones propuestas de los componentes del modelo se han mapeado a
puntos de referencia anatómicos del cerebro canónico provisto con el paquete de
software de análisis de imágenes SPM (Friston, Holmes, Poline, Grasby, Williams et al.,
1995; http: // www. fil.ion.ucl.ac.uk/spm/). El cerebro canónico SPM es un sustrato
popular para presentar datos de neuroimagen. Como tal, proporciona un medio de
referencia familiar dentro del espacio de referencia MNI. El mapeo de los componentes
del modelo en esta referencia, entonces, proporciona un medio conveniente para
comparar los resultados de un gran grupo de experimentos de neuroimagen de un marco
teórico común, un marco que da cuenta de una amplia gama de datos de diversas
modalidades experimentales. En otras palabras, restringe la interpretación de los
resultados de fMRI con datos de lesiones clásicas, hallazgos de microestimulación, trabajo
previo de imágenes funcionales, etc. El mapeo de los componentes del modelo a la
anatomía del cerebro también permite la generación de respuestas hemodinámicas
simuladas anatómicamente explícitas basadas en las actividades celulares del modelo.
Estas predicciones se pueden utilizar para restringir el diseño y la interpretación de
estudios de imágenes funcionales (por ejemplo, Ghosh et al., 2008; Tourville et al., 2008).
Guenther y col. (2006) detallaron el mapeo neuroanatómico del modelo, incluida una
discusión de la evidencia que respalda la asignación de cada ubicación. Aquí nos
concentramos en asignaciones adicionales dadas las modificaciones recientes del modelo
DIVA. Las ubicaciones de MNI para las regiones agregadas recientemente abarcadas por el
modelo se enumeran en la Tabla 1. Estos sitios también se representan en una
representación de la superficie cerebral canónica de SPM en la Figura 2.
Control previo
La producción del habla comienza en el modelo con la activación de una célula del mapa
de sonidos del habla en el premotor izquierdo y la corteza frontal inferior adyacente.
Según el modelo, cada sonido del habla que se encuentra con frecuencia en el entorno de
un hablante está representado por una celda única en el mapa de sonidos del habla. Las
células en el mapa de sonidos del habla se proyectan a las células en los mapas de
velocidad del articulador de retroalimentación (etiquetados con Ṁ en la Figura 2) en la
corteza motora ventral bilateral. Estas proyecciones representan el conjunto de órdenes
motoras de retroalimentación o gestos articulatorios (cf. Browman y Goldstein, 1989) para
ese sonido del habla. El mapa de velocidad del articulador de retroalimentación en cada
hemisferio consta de ocho pares de células antagonistas que codifican las velocidades de
movimiento para los labios superior e inferior, la mandíbula, la lengua y la laringe. Estas
velocidades determinan en última instancia las posiciones de los ocho articuladores del
sintetizador de Maeda (1990) (ver Movimientos del articulador más abajo para una
descripción de este proceso). Una celda de mapa de sonido de voz activa envía una
entrada de 16 dimensiones que varía en el tiempo al mapa de velocidad del articulador de
avance que codifica las velocidades del articulador para la producción de un sonido de voz
aprendido. Los pesos se aprenden durante una fase de imitación (ver más abajo). Se
hipotetiza que los mapas de velocidad del articulador de retroalimentación se distribuyen
a lo largo de la porción caudal de la circunvolución precentral ventrolateral, la región de la
corteza motora primaria que controla los movimientos de los articuladores del habla. Se
supone que estas células corresponden a células "fásicas" que se han identificado en
grabaciones de células de la corteza motora en monos (por ejemplo, Kalaska, Cohen, Hyde
& Prud'homme, 1989). Se han demostrado en monos proyecciones premotor a motor
ipsolaterales y contralaterales que subyacen a esta conectividad hipotética (p. Ej.,
Dancause, Barbay, Frost, Mahnken y Nudo, 2007; Dancause, Barbay, Frost, Plautz,
Popescu et al., 2006; Fang, Stepniewska y Kaas, 2005; Stepniewska, Preuss y Kaas, 2006).
En varios estudios se ha demostrado la modulación de la corteza motora primaria por la
corteza premotora ventral antes y durante los movimientos (p. Ej., Cattaneo, Voss,
Brochier, Prabhu, Wolpert et al., 2005; Davare, Lemon y Olivier, 2008). Esperamos que,
además de las proyecciones premotoras directas de la corteza motora primaria, las
proyecciones adicionales a través de los ganglios basales y / o el cerebelo (que se
proyectan hacia la corteza a través del tálamo) también estén involucradas en la
representación de los programas motores de retroalimentación.
El mapeo de una celda en el mapa de sonido del habla a las celdas de velocidad del
articulador es análogo al proceso de "codificación fonética" como lo conceptualizaron
Levelt y colegas (por ejemplo, Levelt, Roelofs y Meyer, 1999; Levelt y Wheeldon, 1994); es
decir, transforma una entrada fonológica de la corteza frontal inferior adyacente en el
conjunto de comandos motores de avance que producen ese sonido. El mapa de sonidos
del habla, entonces, puede compararse con el "silabario mental" de Levelt et al., Un
depósito de programas de motor del habla aprendidos. Sin embargo, en lugar de limitarse
a un depósito de programas motores para sílabas producidas con frecuencia, como
propuso Levelt, el mapa de sonidos del habla también representa los sonidos del habla
silábicos, sub-silábicos (fonemas) y multisilábicos comunes (por ejemplo, palabras, frases).
. Como se mencionó anteriormente, planteamos la hipótesis de que este repositorio de
programas motores del habla se encuentra en el hemisferio izquierdo en hablantes
diestros. Un papel dominante para el hemisferio izquierdo ha sido un sello distintivo de los
modelos de procesamiento del lenguaje durante varias décadas (Geschwind, 1970). Los
primeros hallazgos de Broca que relacionan el daño frontal inferior izquierdo con los
déficits en la producción del habla han sido corroborados por una gran cantidad de
estudios de lesiones (Dronkers, 1996; Duffy, 2005; Hillis, Work, Barker, Jacobs, Breese et
al., 2004; Kent & Tjaden, 1997). Estos hallazgos clínicos sugieren que la planificación
motora del habla depende predominantemente de la contribución de la región frontal
posterior inferior del hemisferio izquierdo. Sin embargo, el nivel específico en el que el
proceso de producción se lateraliza (por ejemplo, semántico, sintáctico, fonológico,
articulatorio) ha sido un tema de debate. Recientemente demostramos que la producción
de monosílabos sin sentido simples, desprovistos de contenido semántico o sintáctico,
implica contribuciones lateralizadas a la izquierda de la corteza frontal inferior, incluida la
circunvolución frontal inferior, pars opercularis (BA 44), premotor ventral y corteza
motora ventral (Ghosh et al. ., 2008). La activación en estas áreas también se lateraliza
hacia la izquierda durante la producción de palabras monosílabas (Tourville et al., 2008).
Estos hallazgos son consistentes con la afirmación del modelo de que el control del
articulador feedforward se origina a partir de células que representan programas motores
del habla que se encuentran en el hemisferio izquierdo.1 Esta conclusión, basada en datos
de neuroimagen, es consistente con la visión clásica de dominio del hemisferio izquierdo
que surgió de la lesión. datos. Implica que el daño a la corteza frontal inferior izquierda se
asocia más comúnmente con interrupciones del habla que el daño a la misma región en el
hemisferio derecho porque los programas motores de retroalimentación están
interrumpidos.
Esta interpretación es relevante para el estudio y tratamiento de los trastornos del habla
como la apraxia adquirida del habla (AOS). Las lesiones asociadas con la AOS se localizan
predominantemente en el hemisferio izquierdo (Duffy, 2005) y afectan particularmente a
los BA 6 y 44 ventrales (circunvolución ventral precentral, circunvolución frontal posterior
inferior, opérculo frontal) y la sustancia blanca subyacente. Nuestros hallazgos corroboran
las caracterizaciones de AOS como una interrupción del uso y desarrollo de los programas
motores del habla (Ballard, Granier y Robin, 2000; McNeil, Robin y Schmidt, 2007) y
sugieren que los tratamientos de rehabilitación se centraron en restaurar los programas
motores, por ejemplo, la producción de sonido tratamiento (Wambaugh, Duffy, McNeil,
Robin y Rogers, 2006) y / o mejorar el desempeño basado en la retroalimentación.
Control de retroalimentación
Como se indica en la Figura 1, se plantea la hipótesis de que el mapa de sonidos del habla
contribuye a los procesos de control tanto de retroalimentación como de
retroalimentación. Además de sus proyecciones en el mapa de control de avance, el mapa
de sonido del habla también se proyecta en mapas de objetivos auditivos y
somatosensoriales. Estas proyecciones codifican las expectativas o objetivos sensoriales
variables en el tiempo asociados con la celda del mapa de sonido del habla activa. Los
objetivos auditivos se dan mediante tres pares de entradas al mapa de objetivos auditivos
que describen los límites superior e inferior para el 1º, 2º y 3º.
frecuencias formantes del sonido del habla que se está produciendo. Los objetivos
somatosensoriales consisten en un vector de 22 dimensiones que describe la
retroalimentación táctil y propioceptiva esperada para el sonido que se produce.
Proyecciones como estas, que predicen el estado sensoriomotor resultante de un
movimiento, se describen típicamente como representando un modelo adelantado del
movimiento (por ejemplo, Davidson y Wolpert, 2005; Desmurget y Grafton, 2000; Kawato,
1999; Miall y Wolpert, 1996) . Según el modelo, los mapas diana auditiva y
somatosensorial envían entradas inhibitorias a los mapas de error auditivo y
somatosensorial, respectivamente. Los mapas de error son efectivamente el inverso de los
mapas de destino: la entrada a los mapas de destino da como resultado la inhibición de la
región del mapa de error que representa la retroalimentación sensorial esperada para el
sonido que se está produciendo. Actualmente, se plantea la hipótesis de que los mapas de
error y objetivo auditivo se encuentran en dos ubicaciones a lo largo de la circunvolución
temporal superior posterior. Estos sitios, uno lateral cerca del surco temporal superior y
otro medial en la unión de los lóbulos temporal y parietal en lo profundo de la fisura de
Sylvian, responden tanto durante la percepción del habla como durante la producción del
habla (Buchsbaum, Hickok y Humphries, 2001; Hickok y Poeppel, 2004). En el modelo,
ambos sitios son bilaterales. El objetivo somatosensorial y los mapas de estado se
encuentran en la circunvolución supramarginal ventral, una región que Hickok y sus
colegas (por ejemplo, Hickok y Poeppel, 2004) han argumentado que apoya la integración
de los comandos motores del habla y la retroalimentación sensorial. Este papel hipotético
de la corteza parietal ventral durante la producción del habla es análogo al papel de
integración visomotora asociado con más regiones parietales dorsales durante los
movimientos de las extremidades (Andersen, 1997; Rizzolatti, Fogassi y Gallese, 1997).
Los mapas de errores sensoriales también reciben entradas excitatorias de mapas de

estado sensorial en la corteza auditiva y somatosensorial. Se hipotetiza que el mapa del
estado auditivo se encuentra a lo largo de la circunvolución de Heschl y el plano temporal
anterior adyacente, una región asociada con la corteza auditiva primaria y secundaria. Las
células en el mapa del estado somatosensorial se distribuyen a lo largo de la
circunvolución ventral precentral, reflejando aproximadamente las representaciones
motoras en el banco opuesto del surco central (ver Figura 2). Las proyecciones de los
mapas de estado auditivo y somatosensorial transmiten una estimación del estado
sensorial actual. La actividad en los mapas de error, entonces, representa la diferencia
entre los estados sensoriales esperados y reales asociados con la producción de la
producción de sonido del habla actual. Al “cancelar” efectivamente la parte autoproducida
de la respuesta de retroalimentación sensorial, las entradas del mapa de sonido del habla
a los mapas sensoriales objetivo funcionan de manera similar a las proyecciones descritas
originalmente por von Holst y Mittelstaedt (1950) y Sperry (1950). von Holst y Mittelstaedt
(1950) propusieron el "principio de reaferencia" en el que una copia de las consecuencias
sensoriales esperadas de un comando motor, denominada copia de la eferencia, se
sustrajo de las consecuencias sensoriales realizadas. Una amplia evidencia sugiere que
dicho mecanismo juega un papel importante en el control motor de los movimientos de
los ojos y las manos, así como en el habla (por ejemplo, Bays, Flanagan y Wolpert, 2006;
Cullen, 2004; Heinks-Maldonado y Houde, 2005; Reppas , Usrey y Reid, 2002; Roy y Cullen,
2004; Voss, Ingram, Haggard y Wolpert, 2006). La hipotética inhibición de la corteza
auditiva de orden superior durante la producción del habla está respaldada por varios
estudios recientes. Wise y sus colegas, usando tomografía por emisión de positrones (PET)
para evaluar indirectamente la actividad neuronal, observaron una reducción de la
activación del giro temporal superior durante la producción del habla en comparación con
una tarea de escucha (Wise, Greene, Buchel y Scott, 1999). De manera similar, las
comparaciones de las respuestas auditivas durante el habla autoproducida y mientras se
escuchan grabaciones del propio habla indican una atenuación de las respuestas de la
corteza auditiva durante la producción del habla (Curio, Neuloh, Numminen, Jousmaki y
Hari, 2000; Heinks Maldonado, Mathalon, Gray y Ford , 2005; Heinks-Maldonado,
Nagarajan y Houde, 2006; Numminen, Salmelin y Hari, 1999). Las grabaciones de una sola
unidad de primates no humanos proporcionan más evidencia de la supresión de la
respuesta auditiva durante las vocalizaciones autoiniciadas; por ejemplo, se ha
demostrado en el tití la atenuación de las respuestas corticales auditivas antes de las
vocalizaciones autoiniciadas (Eliades y Wang, 2003, 2005).
Si la retroalimentación sensorial entrante no cae dentro de la región objetivo esperada, se

envía una señal de error al mapa de control de retroalimentación en la corteza premotora
frontal / ventral derecha. El mapa de control de retroalimentación transforma las señales
de error auditivo y somatosensorial en comandos de velocidad motora correctiva a través
de proyecciones en el mapa de velocidad del articulador en la corteza motora bilateral. El
nombre del modelo, DIVA, es un acrónimo de este mapeo desde las direcciones
sensoriales hasta las velocidades de los articuladores. Los comandos de velocidad del
articulador basados en retroalimentación se integran y combinan con los comandos de
velocidad de avance en el mapa de posición del articulador (consulte Movimientos del
articulador a continuación). El mapa de control de retroalimentación lateralizado a la
derecha se agregó al modelo basándose en resultados recientes de investigaciones de
neuroimagen diseñadas para revelar los sustratos neuronales subyacentes al control de
retroalimentación de la producción del habla. Estos estudios utilizaron fMRI para
comparar la actividad cerebral durante la producción del habla en condiciones de
retroalimentación auditiva normal y perturbada (Tourville et al., 2008) y somatosensorial
(Golfinopoulos, Tourville, Bohland, Ghosh & Guenther, 2009). En ambos estudios se
observó actividad lateralizada a la izquierda en la circunvolución frontal posterior inferior
par opercularis, premotora ventral y corteza motora primaria ventral durante la condición
de retroalimentación normal. Cuando se alteró la retroalimentación auditiva, la actividad
aumentó bilateralmente en la corteza temporal superior posterior, la ubicación hipotética
del mapa de error auditivo, y los hablantes produjeron movimientos compensatorios
(evidentes por cambios en las señales acústicas producidas por los sujetos en la condición
perturbada en comparación con los no perturbados). condición). Los movimientos
compensatorios se asociaron con un aumento lateralizado derecho en la actividad
premotora ventral. El modelado de ecuaciones estructurales (ver Tourville et al., 2008
para más detalles) se utilizó para investigar la conectividad efectiva dentro de la red de
regiones que contribuyó al control auditivo basado en retroalimentación. Este análisis
reveló una mayor conectividad efectiva desde la corteza temporal posterior izquierda a la
corteza premotora ventral y temporal posterior derecha (Figura 3). También se encontró
evidencia de que la corteza temporal posterior derecha ejerce una influencia adicional
sobre la producción motora a través de una conexión a través de la circunvolución frontal
inferior derecha, par triangularis (BA 45) durante el control de retroalimentación.
Otros estudios de imágenes de la producción del habla que han incluido una condición de
retroalimentación auditiva perturbada han demostrado una mayor participación del
hemisferio derecho en el control del habla basado en la retroalimentación auditiva (p. Ej.,
Fu, Vythelingum, Brammer, Williams, Amaro et al., 2006; Toyomura, Koyama, Miyamaoto,
Terao, Omori et al., 2007). También notamos el mismo aumento lateralizado hacia la
derecha de la actividad premotora ventral asociado con la perturbación de la
retroalimentación auditiva cuando se perturba la retroalimentación somatosensorial
(Golfinopoulos et al., 2009). De manera similar, un estudio reciente de control visuo-
motor llegó a conclusiones similares con respecto a las contribuciones relativas de los dos
hemisferios durante el control motor basado en retroalimentación y retroalimentación
(Grafton, Schmitt, Van Horn & Diedrichsen, 2008). Por tanto, existe una creciente
evidencia de que estas diferencias hemisféricas pueden ser una propiedad general del
sistema de control del motor. Las implicaciones del control motorizado de
retroalimentación y retroalimentación lateralizada del habla pueden ser relevantes para el
estudio y tratamiento de la tartamudez. Los estudios de neuroimagen de la producción del
habla en personas que tartamudean demuestran constantemente una mayor activación
del hemisferio derecho en relación con los hablantes normales en las regiones de la
circunvolución frontal precentral e inferior (ver Brown, Ingham, Ingham, Laird y Fox, 2005
para una revisión), se identificaron las mismas regiones frontales como parte de la red de
control de retroalimentación de Tourville et al. (2008). Se ha planteado la hipótesis de que
la tartamudez implica una dependencia excesiva del control de retroalimentación auditiva
debido a órdenes de retroalimentación deficientes (Max et al., 2004). Los hallazgos
actuales apoyan este punto de vista: el control de la retroalimentación auditiva durante la
condición de retroalimentación perturbada, claramente demostrada por los resultados
conductuales, se asoció con una mayor activación de la corteza frontal inferior y
precentral derecha. Según este punto de vista, la activación frontal inferior del hemisferio
derecho es una consecuencia secundaria del problema de raíz, que es un desempeño
aberrante en el sistema de alimentación anticipada. Un rendimiento deficiente de la
retroalimentación conduce a errores auditivos que a su vez activan el sistema de control
de retroalimentación auditiva lateralizado a la derecha en un intento de corregir los
errores. Esta hipótesis es consistente con los efectos de la terapia que induce la fluidez en
las respuestas BOLD; el tratamiento exitoso se ha asociado con un cambio hacia una
activación frontal lateral izquierda más normal (De Nil, Kroll, Lafaille & Houle, 2003;
Neumann, Preibisch, Euler, von Gudenberg, Lanfermann et al., 2005).
Movimiento del articulador
Los comandos de velocidad de avance y los comandos de corrección de errores basados

en retroalimentación están integrados en los mapas de posición del articulador
(etiquetados con M en la Figura 2) que se encuentran a lo largo del giro caudoventral
precentral, adyacente a los mapas de velocidad del articulador de avance. Esta área es la
principal representación motora de los músculos de la cara y el tracto vocal. Se hipotetiza
que las células en los mapas de posición del articulador corresponden a neuronas
"tónicas" que se han identificado en la corteza motora primaria del mono (por ejemplo,
Kalaska et al., 1989). El mapa consta de 10 pares de células antagonistas2 que
corresponden a parámetros del tracto vocal de Maeda que determinan la protuberancia
del labio, la altura del labio superior e inferior, la altura de la mandíbula, la altura de la
lengua, la forma de la lengua, la posición del cuerpo de la lengua, la ubicación de la punta
de la lengua, la altura de la laringe y apertura y presión glotal. La actividad en los mapas
de posición del articulador es una suma ponderada de las entradas de los comandos de
velocidad basados en retroalimentación y retroalimentación. El peso relativo de los
comandos de retroalimentación y retroalimentación en el comando general del motor
depende del tamaño de la señal de error, ya que esto determina el tamaño de la
contribución del control de retroalimentación. El comando de posición del articulador
resultante impulsa el tracto vocal simulado para producir el sonido de habla deseado.
Con base en un trabajo de imágenes reciente (Brown, Ngan y Liotti, 2008; Olthoff,
Baudewig, Kruse y Dechent, 2008), se han agregado al modelo células de la corteza
motora adicionales que representan los músculos laríngeos intrínsecos. El locus de una
representación laríngea en la corteza motora se ha asociado típicamente en el extremo
ventrolateral de la circunvolución precentral (p. Ej., Duffy, 2005; Ludlow, 2005), una
suposición basada en gran medida en hallazgos de primates no humanos (p. Ej., Simonyan
y Jurgens, 2003) y respaldado por los estudios de mapeo intracortical realizados por
Penfield y sus colegas en humanos antes de la cirugía de la epilepsia (Penfield y
Rasmussen, 1950; Penfield y Roberts, 1959). En consecuencia, se incluyó una
representación de la laringe motora en esta ubicación en nuestro mapeo anatómico inicial
del modelo (Guenther et al., 2006). Brown y col. (2008) y Orloff et al. (2008) han
demostrado desde entonces una representación bilateral en una región más dorsal de la
corteza motora adyacente al área del labio y cerca de una segunda región de
"vocalización" identificada por Penfield y Roberts (1959, p. 200). Los autores también
notaron una representación ventral cerca / dentro del opérculo Rolándico bilateral que es
consistente con la literatura de primates no humanos. Brown y colaboradores (2008)
concluyeron que la región dorsal probablemente representa los músculos laríngeos
intrínsecos que controlan el tamaño de la abertura glótica. La representación opercular, se
especuló, probablemente representa los músculos laríngeos extrínsecos que afectan las
resonancias del tracto vocal al controlar la altura de la laringe. Con base en estos
hallazgos, se han asignado dos conjuntos de células que representan parámetros laríngeos
del modelo de articulador de Maeda (Maeda, 1990) asociados con funciones laríngeas a
ubicaciones de MNI: las células en la circunvolución precentral ventrolateral (etiquetada
como laringe, extrínseca en la tabla 1) representan la altura de la laringe , mientras que las
células de la región orofacial dorsomedial de la circunvolución precentral (denominada
laringe, intrínseca en la figura 2) representan una suma ponderada de parámetros que
representan la apertura y la presión glotal.
La producción del habla se asocia consistentemente con la actividad bilateral en la corteza

prefrontal medial, incluida el área motora suplementaria (AME), en los ganglios basales y
en el tálamo (p. Ej., Bohland y Guenther, 2006; Ghosh et al., 2008; Tourville et al., 2008;
al., 2008). Las versiones anteriores del modelo DIVA no han ofrecido ninguna descripción
de esta actividad. La SMA está fuertemente interconectada con la corteza lateral motora y
premotora y los ganglios basales (Jurgens, 1984; Lehericy, Ducros, Krainik, Francois, Van
de Moortele et al., 2004; Luppino, Matelli, Camarda y Rizzolatti, 1993; Matsumoto, Nair ,
LaPresto, Bingaman, Shibasaki et al., 2007; Matsumoto, Nair, LaPresto, Najm, Bingaman et
al., 2004). Las grabaciones de primates han revelado células en la SMA que codifican la
dinámica del movimiento (Padoa-Schioppa, Li & Bizzi, 2004). También se han identificado
en el SMA celdas que representan información de orden superior con respecto a la
planificación / ejecución de secuencias de movimientos. Actividad que representa
secuencias particulares de movimientos a realizar (Shima y Tanji, 2000), intervalos entre
movimientos específicos dentro de una secuencia (Shima y Tanji, 2000), la posición ordinal
de los movimientos dentro de una secuencia (Clower y Alexander, 1998), y el número de
elementos que quedan en una secuencia (Sohn y Lee, 2007) se ha observado en registros
de neuronas en la AME. La microestimulación de la SMA en humanos produce
vocalización, repeticiones de palabras o sílabas y / o detención del habla (Penfield y
Welch, 1951). El daño bilateral en estas áreas resulta en déficits en la producción del
habla, incluida la afasia motora transcortical (Jonas, 1981; Ziegler, Kilian y Deger, 1997) y
el mutismo acinético (Adams, 1989; Mochizuki y Saito, 1990; Nemeth, Hegedus y Molnar,
1988). La producción del habla se asocia consistentemente con la actividad bilateral en la
corteza prefrontal medial, incluida el área motora suplementaria (AME), en los ganglios
basales y en el tálamo (p. Ej., Bohland y Guenther, 2006; Ghosh et al., 2008; Tourville et
al., 2008; al., 2008). Las versiones anteriores del modelo DIVA no han ofrecido ninguna
descripción de esta actividad. La SMA está fuertemente interconectada con la corteza
lateral motora y premotora y los ganglios basales (Jurgens, 1984; Lehericy, Ducros, Krainik,
Francois, Van de Moortele et al., 2004; Luppino, Matelli, Camarda y Rizzolatti, 1993;
Matsumoto, Nair , LaPresto, Bingaman, Shibasaki et al., 2007; Matsumoto, Nair, LaPresto,
Najm, Bingaman et al., 2004). Las grabaciones de primates han revelado células en la SMA
que codifican la dinámica del movimiento (Padoa-Schioppa, Li & Bizzi, 2004). También se
han identificado en el SMA celdas que representan información de orden superior con
respecto a la planificación / ejecución de secuencias de movimientos. Actividad que
representa secuencias particulares de movimientos a realizar (Shima y Tanji, 2000),
intervalos entre movimientos específicos dentro de una secuencia (Shima y Tanji, 2000), la
posición ordinal de los movimientos dentro de una secuencia (Clower y Alexander, 1998),
y el número de elementos que quedan en una secuencia (Sohn y Lee, 2007) se ha
observado en registros de neuronas en la AME. La microestimulación de la SMA en
humanos produce vocalización, repeticiones de palabras o sílabas y / o detención del
habla (Penfield y Welch, 1951). El daño bilateral en estas áreas resulta en déficits en la
producción del habla, incluida la afasia motora transcortical (Jonas, 1981; Ziegler, Kilian y
Deger, 1997) y el mutismo acinético (Adams, 1989; Mochizuki y Saito, 1990; Nemeth,
Hegedus y Molnar, 1988).
Estos datos y los hallazgos de imágenes recientes han llevado a varios investigadores a
concluir que la AME desempeña un papel fundamental en el control de la iniciación de los
comandos motores del habla (p. Ej., Alario, Chainay, Lehericy y Cohen, 2006; Bohland y
Guenther, 2006; Jonas, 1987; Ziegler et al., 1997). La AME está conectada recíprocamente
con los ganglios basales, otra región que se cree que contribuye a los comandos motores
de activación (por ejemplo, Albin, Young y Penney, 1995; Pickett, Kuniholm, Protopapas,
Friedman y Lieberman, 1998; Van Buren, 1963). Los ganglios basales reciben aferencias de
la mayoría de las áreas de la corteza cerebral, incluidas las regiones motoras y
prefrontales y, en particular, las cortezas asociativas y límbicas. Por lo tanto, los ganglios
basales son adecuados para integrar señales contextuales con el propósito de activar
comandos motores. Con base en estos hallazgos, se ha agregado al modelo DIVA un mapa
de iniciación, que se presume que se encuentra en la SMA. El mapa de iniciación lleva los
comandos de posición del articulador de liberación a la periferia. Según el modelo, cada
programa motor del habla en el mapa de sonidos del habla está asociado con una celda en
el mapa de iniciación. Los comandos del motor asociados con ese programa se liberan
cuando se activa la celda del mapa de iniciación correspondiente. La actividad en el mapa
de iniciación (I) viene dada por:
Ii (t) = 1 si el i-ésimo sonido se produce o se percibe
Ii (t) = 0 en caso contrario
El momento de inicio de la actividad celular se rige por las entradas contextuales de los
ganglios basales a través del tálamo. Actualmente, esta sincronización se basa
simplemente en una entrada retardada del mapa de sonido del habla. Las células que
representan el mapa de iniciación se han colocado bilateralmente en la AME, el caudado,
el putamen, el glubus pallidus y el tálamo, todos los cuales demuestran actividad durante
las tareas simples de producción del habla (por ejemplo, Ghosh et al., 2008; Tourville et
al., 2008). Se ha desarrollado un modelo de planificación y ejecución de la secuencia
motora del habla, el modelo GODIVA (Bohland, Bullock y Guenther, en prensa; Bohland y
Guenther, 2006) que proporciona una descripción completa de las interacciones entre la
AME, los ganglios basales, los y corteza premotora que resulta en la activación de los
comandos motores del habla; debido a limitaciones de espacio, remitimos al lector
interesado a esa publicación para obtener más detalles.
APRENDER EN EL MODELO DIVA
Fase temprana de balbuceo
Antes de que DIVA pueda producir sonidos del habla, se deben aprender las asignaciones
entre los diversos componentes del modelo. El modelo primero aprende la relación entre
los comandos motores y sus consecuencias sensoriales durante un proceso análogo al
balbuceo infantil. Las asignaciones que se ajustan en este proceso se resaltan en el
diagrama de bloques DIVA simplificado que se muestra en la Figura 4. Para mayor
claridad, se han eliminado las etiquetas anatómicas y se han abreviado los nombres de los
componentes del modelo. Durante la fase de balbuceo, los movimientos articuladores
pseudoaleatorios proporcionan retroalimentación auditiva y somatosensorial que se
compara con los comandos motores causales. La información sensorial y motora
emparejada se utiliza para sintonizar las proyecciones sinápticas de los mapas de errores
sensoriales temporales y parietales al mapa de control anticipado. Una vez ajustadas,
estas proyecciones transforman las señales de error sensorial en comandos correctivos de
velocidad del motor. Este mapeo del resultado sensorial deseado a la acción motora
apropiada es una transformación cinemática inversa y a menudo se denomina modelo
inverso (por ejemplo, Kawato, 1999; Wolpert y Kawato, 1998).
El cerebelo es un contribuyente probable al comando motor de retroalimentación. Los

estudios de neuroimagen del aprendizaje motor han observado actividad cerebelosa
asociada con el tamaño o la frecuencia del error sensorial (p. Ej., Blakemore, Frith y
Wolpert, 2001; Blakemore, Wolpert y Frith, 1999; Diedrichsen, Hashambhoy, Rane y
Shadmehr, 2005; Flament , Ellermann, Kim, Ugurbil y Ebner, 1996; Grafton et al., 2008;
Imamizu, Higuchi, Toda y Kawato, 2007; Imamizu, Miyauchi, Tamada, Sasaki, Takino et al.,
2000; Miall y Jenkinson, 2005; Schreurs , McIntosh, Bahro, Herscovitch, Sunderland et al.,
1997; Tesche y Karhu, 2000). Se ha especulado que una representación de errores
sensoriales en el cerebelo impulsa los comandos motores correctivos (Grafton et al., 2008;
Penhune & Doyon, 2005) y contribuye al aprendizaje motor basado en retroalimentación
(Ito, 2000; Tseng, Diedrichsen, Krakauer, Shadmehr y Bastian, 2007; Wolpert, Miall y
Kawato, 1998). Por ejemplo, se ha planteado la hipótesis de que el cerebelo apoya el
aprendizaje de la cinemática inversa (p. Ej., Kawato, 1999; Wolpert y Kawato, 1998), un
papel para el que es anatómicamente adecuado: el cerebelo recibe impulsos de auditivos
de orden superior y áreas somatosensoriales (p. ej., Schmahmann y Pandya, 1997) y se
proyecta en gran medida a la corteza motora (Middleton y Strick, 1997). Basado en el
papel putativo del cerebelo en el aprendizaje motor basado en retroalimentación, se
plantea la hipótesis de que contribuye al mapeo entre los estados sensoriales y la corteza
motora, es decir, las proyecciones que codifican el comando motor de retroalimentación.
Fase de imitación
Sistema de control de retroalimentación: una vez que se ha aprendido el mapeo sensorial-

motor general descrito anteriormente, el modelo pasa por una segunda fase de
aprendizaje que es específica para la producción de sonidos del habla. Esta fase se puede
subdividir en dos componentes. En el primer componente, se sintonizan los pesos del
mapa de sonido del habla. De manera análoga a la exposición que tiene un bebé a los
sonidos de su lengua materna, al modelo se le presentan muestras de sonidos del habla
(por ejemplo, fonemas, sílabas, palabras). Las muestras de voz toman la forma de señales
acústicas variables en el tiempo pronunciadas por un hablante humano. Según el modelo,
cuando se presenta un nuevo sonido del habla, se asocia con una celda no utilizada en el
mapa de sonido del habla frontal inferior (a través de proyecciones temporo-frontales que
no se muestran en la Figura 2). Con exposiciones posteriores a ese sonido del habla, el
modelo aprende un objetivo auditivo para ese sonido en la forma de una región que varía
en el tiempo que codifica la variabilidad permisible en la señal acústica (ver Guenther,
1995, para una descripción de las leyes de aprendizaje que gobiernan este proceso).
Durante el segundo componente de aprendizaje en el sistema de control de
retroalimentación, los pesos del mapa de sonido del habla al mapa de objetivo
somatosensorial se sintonizan durante las autoproducciones correctas. Se han
demostrado vías recíprocas entre la corteza inferior frontal y auditiva y somatosensorial
en humanos (Makris, Kennedy, McInerney, Sorensen, Wang et al., 2005; Matsumoto et al.,
2004) y primates no humanos (Morel y Kaas, 1992; Ojemann, 1991; Romanski, Tian, Fritz,
Mishkin, Goldman-Rakic et al., 1999; Schmahmann y Pandya, 2006); ver también Duffau
(2008) para una descripción de las supuestas vías fronto-parietal y frontotemporal
involucradas en el procesamiento del lenguaje. Muchos han argumentado que el cerebelo
utiliza el error sensorial para construir modelos avanzados que generan predicciones
sensoriales (Blakemore et al., 2001; Imamizu et al., 2000; Kawato, Kuroda, Imamizu,
Nakano, Miyauchi et al., 2003; O'Reilly, Mesulam & Nobre, 2008), el papel de las
proyecciones desde el mapa de sonido del habla hasta los mapas de objetivos sensoriales
en el modelo DIVA. Por tanto, es probable que el cerebelo contribuya a la atenuación de la
representación del objetivo sensorial en la corteza sensorial (cf. Blakemore et al., 2001).
Por esta razón, los bucles laterales del cerebelo se plantean como hipótesis en las
proyecciones del mapa de sonidos del habla a los mapas de objetivos sensoriales.
Sistema de control Feedforward: los comandos Feedforward también se aprenden

durante la fase de imitación, una vez que se han aprendido los objetivos auditivos. Los
intentos iniciales de producir el sonido del habla dan como resultado grandes señales de
error sensorial debido a proyecciones mal sintonizadas desde las células del mapa de
sonidos del habla hasta los mapas de posición y velocidad articulatoria de la corteza
motora primaria, y la producción depende en gran medida del sistema de control de
retroalimentación. Sin embargo, con cada producción, el comando del motor correctivo
basado en retroalimentación se agrega a los pesos del mapa de sonido del habla a las
celdas de velocidad del articulador de avance, mejorando gradualmente la precisión del
comando del motor de avance. Con la práctica, los comandos de retroalimentación se
vuelven capaces de impulsar la producción del sonido del habla con un mínimo error
sensorial y, por lo tanto, poca dependencia del sistema de control de retroalimentación a
menos que se encuentre una retroalimentación sensorial inesperada (p. Ej., Debido a
cambios en la dinámica del tracto vocal, un bloqueo de mordida, o perturbación de
retroalimentación auditiva artificial).
Se sostiene ampliamente que el cerebelo está involucrado en el aprendizaje y

mantenimiento de los comandos motores de retroalimentación (aunque ver Grafton et al.,
2008; Kawato, 1999; Ohyama, Nores, Murphy y Mauk, 2003). El cerebelo recibe
información de las áreas corticales premotoras, auditivas y somatosensoriales a través de
los núcleos pontinos y se proyecta fuertemente hacia la corteza motora a través del
tálamo ventral (Middleton y Strick, 1997). Este circuito proporciona un sustrato para la
integración de la información del estado sensorial que puede ser importante para elegir
los comandos motores (por ejemplo, Schmahmann y Pandya, 1997) y se proyecta en gran
medida a la corteza motora. Por tanto, en el modelo DIVA, el cerebelo se incluye como un
bucle lateral en la proyección del mapa de sonido del habla al mapa de velocidad del
articulador. Las lesiones del cerebelo vermal y paravermal anterior se han asociado con
alteraciones de la producción del habla (Ackermann, Vogel, Petersen y Poremba, 1992;
Urban, Marx, Hunsche, Gawehn, Vucurevic et al., 2003), denominada disartria atáxica,
caracterizada por una alteración capacidad para producir el habla con fluidez en el tiempo
y coordinación gestual. Esta región suele estar activa bilateralmente durante la producción
de habla abierta en experimentos de neuroimagen. La actividad adicional se encuentra
típicamente en la corteza lateral adyacente de forma bilateral (Bohland y Guenther, 2006;
Ghosh et al., 2008; Riecker, Ackermann, Wildgruber, Dogil y Grodd, 2000; Riecker,
Wildgruber, Dogil, Grodd y Ackermann, 2002; Tourville et al. al., 2008; Wildgruber,
Ackermann & Grodd, 2001), un área que se asocia con menos frecuencia con la disartria
atáxica. Por tanto, las células modelo se han colocado bilateralmente en dos regiones
corticales del cerebelo: corteza paravermal anterior (no visible en la Figura 2) y corteza
lateral superior (Lat. Cbm). Los primeros son parte del sistema de control de
retroalimentación, mientras que se supone que los segundos contribuyen a las
predicciones sensoriales que forman los objetivos auditivos y somatosensoriales en el
sistema de control de retroalimentación.
El mapa de sonidos del habla y las neuronas espejo
El papel que juega el mapa de sonidos del habla en el modelo DIVA es similar al atribuido a
las “neuronas espejo” (Kohler, Keysers, Umilta, Fogassi, Gallese et al., 2002; Rizzolatti,
Fadiga, Gallese & Fogassi, 1996), por lo que denominados porque responden tanto
mientras realizan una acción como cuando perciben una acción. Se ha demostrado que las
neuronas espejo en primates no humanos codifican acciones complejas como agarrar en
lugar de los movimientos individuales que comprenden una acción (Rizzolatti, Camarda,
Fogassi, Gentilucci, Luppino et al., 1988). Se hipotetiza que las neuronas dentro del mapa
de sonidos del habla incorporan propiedades similares: la activación durante la
producción del habla impulsa el movimiento complejo del articulador a través de
proyecciones a las células de velocidad del articulador en la corteza motora, y la activación
durante la percepción del habla sintoniza las conexiones entre el mapa de sonidos del
habla y los mapas de objetivos sensoriales en auditivos y corteza somatosensorial. La
evidencia de neuronas espejo en humanos ha implicado a la circunvolución precentral
izquierda para acciones de agarre (Tai, Scherfler, Brooks, Sawamoto y Castiello, 2004), y a
la circunvolución frontal inferior opercular izquierda para los movimientos de los dedos
(Iacoboni, Woods, Brass, Bekkering, Mazziotta et al. , 1999). Se han encontrado neuronas
espejo relacionadas con los movimientos comunicativos de la boca en el área de mono F5
(Ferrari, Gallese, Rizzolatti y Fogassi, 2003) inmediatamente lateral a su ubicación para los
movimientos de agarre (di Pellegrino, Fadiga, Fogassi, Gallese y Rizzolatti, 1992). Se ha
propuesto que esta área corresponde a la porción caudal de la circunvolución frontal
inferior ventral (área 44 de Brodmann) en el ser humano (ver Binkofski y Buccino, 2004;
Rizzolatti y Arbib, 1998).
PERSPECTIVAS ACTUALES
El modelo DIVA proporciona una explicación computacionalmente explícita de las

interacciones entre las regiones del cerebro involucradas en la adquisición y producción
del habla. El modelo ha demostrado ser una herramienta valiosa para estudiar los
mecanismos subyacentes a lo normal (Callan et al., 2000; Lane et al., 2007; Perkell et al.,
2007; Perkell et al., 2000; Perkell et al., 2004 ; Perkell et al., 2004; Villacorta, Perkell &
Guenther, 2007) y trastornos del habla (Max et al., 2004; Robin et al., 2008; Terband et al.,
2008). Debido a que el modelo se expresa como una red neuronal, proporciona un
sustrato conveniente para generar predicciones que son adecuadas para las pruebas
empíricas. Es importante destacar que el desarrollo del modelo se ha limitado a
mecanismos biológicamente plausibles. Por lo tanto, como DIVA ha llegado a dar cuenta
de una amplia gama de fenómenos de producción del habla (por ejemplo, Callan et al.,
2000; Guenther, 1994; Guenther, 1995; Guenther et al., 1998; Nieto-Castanon et al., 2005)
, lo hace desde un marco unificado cuantitativo y basado en neurobiología. En este
artículo, hemos revisado los elementos clave del modelo DIVA, centrándonos en
desarrollos recientes basados en resultados de experimentos de imágenes funcionales. Se
plantea la hipótesis de que los mapas de control de retroalimentación y retroalimentación
se encuentran en la corteza premotora ventral izquierda y derecha, respectivamente. Los
mecanismos de control motor lateralizados incorporados por el modelo pueden
proporcionar información útil sobre el estudio y el tratamiento de los trastornos del habla.
Sin embargo, quedan preguntas con respecto a la interacción entre los procesos
sensoriales frontales lateralizados y en gran parte bilaterales. Como se discutió
anteriormente, los datos son consistentes con las proyecciones predichas por DIVA desde
las células premotoras lateralizadas hacia la corteza auditiva bilateral que codifican las
expectativas sensoriales. Otra predicción del modelo es que el habla clara y acentuada
implica el uso de objetivos sensoriales más pequeños y precisos en comparación con el
habla normal o rápida (Guenther, 1995). Si es correcto, se debe observar un aumento de
la actividad en las áreas corticales auditivas y somatosensoriales durante las condiciones
de habla clara y estresada, lo que corresponde a un aumento de la actividad de las células
de error debido a los objetivos sensoriales más precisos. Esta predicción se está probando
actualmente en un experimento de resonancia magnética funcional en curso.
Nuestros datos experimentales también sugieren que las proyecciones de las células
auditivas bilaterales a la corteza premotora derecha están involucradas en la
transformación de los errores auditivos en comandos motores correctivos. Las vías
anatómicas que apoyan estos mecanismos no se comprenden completamente. También
es necesario un mayor estudio de la información transmitida por esas proyecciones. Los
estudios han comenzado a explorar las supuestas proyecciones de expectativas
sensoriales desde la corteza frontal lateral a la corteza auditiva, estableciendo un efecto
inhibitorio vinculado a los movimientos articuladores en curso (por ejemplo, Heinks-
Maldonado et al., 2006). Aún no se ha establecido completamente una comprensión clara
de las unidades de esta entrada inhibitoria (por ejemplo, si tiene una organización
acústica, articulatoria o fonológica), así como los mapas de error en sí mismos.
Actualmente se están realizando experimentos de imágenes funcionales centrados en
estas cuestiones. El modelo también se ha expandido para incluir representaciones del
área motora suplementaria y los ganglios basales, que se hipotetiza para proporcionar una
señal de activación que inicia la liberación de comandos motores a los articuladores del
habla. En su forma actual, este mapa de iniciación está muy simplificado. Los mecanismos
para aprender la sincronización apropiada de la liberación del comando del motor aún no
se han incorporado al modelo. Las regiones del cerebro asociadas con el
El mapa de iniciación del modelo, junto con el área motora pre-suplementaria (por
ejemplo, Clower y Alexander, 1998; Shima y Tanji, 2000), también han estado implicados
en la selección y secuenciación adecuada de programas motores individuales para la
producción en serie. Bohland y Guenther (2006) investigaron las regiones del cerebro que
contribuyen al ensamblaje y ejecución de secuencias de sonidos del habla. Se ha
desarrollado un modelo de red neuronal de los mecanismos subyacentes a este proceso,
incluidas las interacciones entre las diversas regiones cerebrales corticales y subcorticales
implicadas (Bohland et al., En prensa). Las salidas de este modelo de secuenciación del
habla, denominado GODIVA, sirven como entradas para el mapa de sonido del habla del
modelo DIVA. Este trabajo cierra la brecha entre los modelos computacionales del nivel
lingüístico / fonológico de la producción del habla (Dell, 1986; Hartley y Houghton, 1996;
Levelt et al., 1999) y DIVA, que aborda la producción en el nivel de control del motor del
habla. Al igual que el modelo DIVA, GODIVA es neurobiológicamente plausible y, por lo
tanto, representa un sustrato ampliado para el estudio del procesamiento del habla
normal y desordenado.
Un aspecto importante de la producción del habla que no se aborda en el modelo DIVA es
el control de la prosodia. La modulación del tono, el volumen, la duración y el ritmo
transmiten señales lingüísticas y afectivas significativas (Bolinger, 1961, 1989; Lehiste,
1970, 1976; Netsell, 1973; Shriberg y Kent, 1982). El modelo DIVA ha abordado el control
motor del habla como el nivel segmental (unidades de fonemas o sílabas). Con el
desarrollo del modelo GODIVA, hemos comenzado a dar cuenta de la producción del habla
a un nivel suprasegmental. Recientemente hemos comenzado una expansión similar del
modelo para permitir el control de las señales prosódicas, que a menudo opera en
múltiples segmentos individuales. Los experimentos actualmente en curso están
investigando si las diversas características prosódicas (volumen, duración y tono) se
controlan de forma independiente para lograr un nivel de estrés deseado o si se establece
un "objetivo de estrés" combinado que se alcanza mediante una combinación dinámica de
características individuales. Estamos probando estas hipótesis alternativas midiendo las
compensaciones de los altavoces a las perturbaciones de tono y volumen. Las respuestas
adaptativas limitadas a la modalidad perturbada apoyan la noción de que las
características prosódicas se controlan de forma independiente; La adaptación entre
modalidades es evidencia de un controlador de "estrés" integrado.
Como hemos hecho en el pasado, tenemos la intención de combinar nuestros esfuerzos
de modelado con investigaciones de las bases neuronales del control prosódico. Existe
acuerdo en la literatura de que ninguna región del cerebro es responsable del control
prosódico, pero hay poco consenso sobre qué regiones están involucradas y en qué
capacidad (ver Sidtis y Van Lancker Sidtis, 2003, para revisión). Uno de los hallazgos más
consistentes en la literatura se refiere a la percepción y producción de prosodia afectiva,
que parece depender más del hemisferio cerebral derecho que del hemisferio izquierdo
(Adolphs, Damasio & Tranel, 2002; Buchanan, Lutz, Mirzazade, Specht, Shah et al. al.,
2000; George, Parekh, Rosinsky, Ketter, Kimbrell et al., 1996; Ghacibeh y Heilman, 2003;
Kotz, Meyer, Alter, Besson, von Cramon et al., 2003; Mitchell, Elliott, Barry, Cruttenden y
Woodruff, 2003; Pihan, Altenmuller y Ackermann, 1997; Ross y Mesulam, 1979;
Williamson, Harrison, Shenal, Rhodes y Demaree, 2003), aunque la visión de la prosodia
afectiva como una entidad unitaria, puramente del hemisferio derecho, está demasiado
simplificada (Sidtis y Van Lancker Sidtis, 2003) y existe un debate considerable sobre qué y
para qué se lateraliza el control de características prosódicas (p. Ej., Doherty, West, Dilley,
Shattuck-Hufnagel & Caplan, 2004; Emmorey, 1987; Gandour, Dzemidzic, Wong, Lowe ,
Tong et al., 2003; Meyer, Alter, Friederici, Lohmann y von Cr amon, 2002; Stiller, Gaschler-
Markefski, Baumgart, Schindler, Tempelmann y col., 1997; Walker, Pelletier & Reif, 2004)
Esperamos aclarar este entendimiento comparando las respuestas neuronales asociadas
con el control prosódico con las involucradas en el control de formantes como lo indica
nuestro estudio de imágenes de perturbación de formantes (Tourville et al., 2008).
Nuestro enfoque está en las diferencias en las dos redes de control, particularmente la
lateralidad de la respuesta cortical sensorial y motora. Con este esfuerzo esperamos
continuar nuestro progreso hacia la construcción de una descripción completa y unificada
de los mecanismos neuronales que subyacen al control motor del habla.
Figura 1.
El modelo DIVA de adquisición y producción de voz. Los módulos y conexiones agregados
recientemente se resaltan con contornos negros. Componentes del modelo asociados con
sustratos neuroanatómicos hipotéticos. Abreviaturas: GP = globus pallidus; HG =
circunvolución de Heschl; pIFg = circunvolución frontal posterior inferior; pSTg =
circunvolución temporal superior posterior; Put = putamen; slCB = cerebelo lateral
superior; smCB = cerebelo medial superior; SMA = área motora suplementaria; SMG =
circunvolución supramarginal; VA = núcleo anterior ventral del cerebelo; VL = núcleo
lateral ventral del tálamo; vMC = corteza motora ventral; vPMC = corteza premotora
ventral; vSC = corteza somatosensorial ventral.
Figura 2.
Mapeo neuroanatómico del modelo DIVA. La ubicación de los sitios de los componentes
del modelo DIVA (puntos rojos) se trazan en las representaciones de las superficies
laterales izquierda (superior) y derecha (inferior) del cerebro canónico SPM2. Los sitios
inmediatamente anteriores al surco central (línea de puntos) representan células de los
mapas de velocidad (Ṁ) y posición (M) del articulador del modelo. Los sitios ubicados
inmediatamente posteriores al surco central representan células del mapa del estado
somatosensorial (S). No se muestran los sitios subcorticales (ganglios basales, tálamo,
cerebelo paravermal, núcleos cerebelosos profundos). Abreviaturas adicionales: Au =
mapa de estado auditivo; ΔAu = mapa de errores auditivos; FB = mapa de control de
retroalimentación; IM = mapa de iniciación; Lax.int, Lax.ext = laringe intrínseca y
extrínseca, Lat Cbm = cerebelo lateral; Resp: células motoras respiratorias; ΔS = mapa de
errores somatosensoriales; SSM = mapa de sonido del habla; TAu = mapa de objetivos
auditivos; TS = mapa objetivo somatosensorial.
Figura 3.
Conectividad efectiva dentro de la red de control de retroalimentación auditiva. El
modelado de ecuaciones estructurales demostró una modulación significativa de las
interacciones interregionales dentro de la red esquematizada cuando la retroalimentación
auditiva se vio perturbada durante la producción del habla. Las comparaciones por pares
de los coeficientes de trayectoria en las condiciones de retroalimentación normal y
perturbada revelaron aumentos significativos en los pesos positivos desde la
circunvolución temporal superior posterior izquierda (pSTg) a la pSTg derecha (la
trayectoria etiquetada con a en el diagrama anterior), desde la pSTg izquierda a la corteza
premotora ventral derecha (PMC; ruta b), y desde la pSTg derecha hasta la circunvolución
frontal inferior derecha, pars triangularis (ruta c) cuando la retroalimentación auditiva se
vio perturbada durante la producción del habla. Abreviatura adicional: MC = corteza
motora.
Figura 4.
Aprendizaje en el modelo DIVA. Los diagramas de bloques del modelo DIVA simplificado
indican las asignaciones que se ajustan durante las dos fases de aprendizaje (contornos
negros pesados). Izquierda: Fase de aprendizaje temprano del balbuceo. Los comandos
motores pseudoaleatorios a los articuladores están asociados con la retroalimentación
auditiva y somatosensorial. Las señales motoras y sensoriales emparejadas se utilizan para
sintonizar las proyecciones sinápticas de los mapas de errores sensoriales al mapa de
control de retroalimentación. Las proyecciones sintonizadas pueden transformar las
entradas de error sensorial en comandos de motor basados en retroalimentación.
Derecha: Fase de aprendizaje de imitación. Los objetivos de sonido del habla auditiva
(codificados en proyecciones desde el mapa de sonido del habla al mapa de objetivo
auditivo) se sintonizan inicialmente en función de los sonidos del habla de muestra de
otros hablantes. Estos objetivos, objetivos somatosensoriales y proyecciones en el sistema
de control de retroalimentación se sintonizan durante los intentos de imitar un objetivo
de sonido del habla aprendido.
La ubicación de los nuevos componentes del modelo DIVA en el espacio MNI.

Componentes del modelo
Hemisferio izquierdo Hemisferio derecho
xyzxyz
Mapa de control de comentarios
Corteza premotora ventral derecha 60 14 34
Mapa de iniciación
SMA 0 0 68 2 4 62
Putamen −26 −2 4 30 −14 4
Globus Pallidus −24 −2 −4 24 2 −2
Tálamo −10 −14 8 10 −14 8
Mapas de posición y velocidad del articulador
Laringe (intrínseca) −53 0 42 53 4 42
Laringe (extrínseca) −58,1 6,0 6,4 65,4 5,2 10,4
Mapa del estado somatosensorial
Laringe (intrínseca) −53 −8 42 53 −14 38
Laringe (extrínseca) −61,8 1 7,5 65,4 1,2 12

El Modelo DIVA

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

El Modelo DIVA

Cargado por

Copyright:

Formatos disponibles

El modelo DIVA: una teoría neuronal de la adquisición y producción del habla

DESCRIPCIÓN GENERAL DEL MODELO DIVA

El modelo DIVA, esquematizado en la Figura 1, consta de subsistemas integrados de

El desarrollo de BOLD fMRI ha demostrado ser particularmente beneficioso para el estudio

Los mapas de errores sensoriales también reciben entradas excitatorias de mapas de

Si la retroalimentación sensorial entrante no cae dentro de la región objetivo esperada, se

Movimiento del articulador

Los comandos de velocidad de avance y los comandos de corrección de errores basados

La producción del habla se asocia consistentemente con la actividad bilateral en la corteza

Ii (t) = 1 si el i-ésimo sonido se produce o se percibe

Ii (t) = 0 en caso contrario

APRENDER EN EL MODELO DIVA

Fase temprana de balbuceo

El cerebelo es un contribuyente probable al comando motor de retroalimentación. Los

Sistema de control de retroalimentación: una vez que se ha aprendido el mapeo sensorial-

Sistema de control Feedforward: los comandos Feedforward también se aprenden

Se sostiene ampliamente que el cerebelo está involucrado en el aprendizaje y

El mapa de sonidos del habla y las neuronas espejo

El modelo DIVA proporciona una explicación computacionalmente explícita de las

La ubicación de los nuevos componentes del modelo DIVA en el espacio MNI.

También podría gustarte