Está en la página 1de 10

Traducido del inglés al español - www.onlinedoctranslator.

com

1954 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010

Modelado de conectividad escasa entre subyacentes


Fuentes cerebrales para EEG/MEG
Stefan Haufe∗, Ryota Tomioka, Guido Nolte, Klaus-Robert Müller y Motoaki Kawanabe

Abstracto—Proponemos una técnica novedosa para evaluar la Se encuentra entre las series de tiempo correspondientes. Se han
conectividad cerebral funcional en señales electroencefalográficas propuesto diferentes medidas para cuantificar esta influencia, la
(EEG)/magnetoencefalográficas (MEG). Nuestro método, llamado
mayoría de ellas formuladas en términos de espectro cruzado (p.
análisis de fuentes escasamente conectadas (SCSA), puede superar el
problema de la conducción de volumen modelando datos neuronales de
ej., índice de coherencia y pendiente de fase [1]) o modelos
manera innovadora con los siguientes ingredientes: 1) se supone que autorregresivos (AR) (p. ej., causalidad de Granger [2], función de
EEG/MEG es una mezcla lineal de fuentes correlacionadas siguiendo un transferencia [3] y coherencia dirigida parcial [4], [5]).
autorregresivo multivariado ( modelo MVAR); 2) la desmezcla se estima
conjuntamente con los parámetros MVAR de origen; y 3) se evita el
sobreajuste mediante el uso de la penalización del lazo grupal. Este B. Problema de conducción de volumen en EEG y MEG
enfoque nos permite extraer el nivel apropiado de diafonía entre las
fuentes extraídas y, de esta manera, obtenemos un modelo de
En EEG y magnetoencefalografía (MEG), los sensores se colocan
conectividad funcional basado en datos dispersos. Demostramos la fuera de la cabeza y surge el problema de la conducción del volumen,
utilidad de SCSA con datos simulados y los comparamos con varios es decir, en lugar de medir la actividad de un solo sitio del cerebro,
algoritmos existentes con excelentes resultados. cada sensor captura una superposición lineal de señales de todo el
Términos del Índice—Análisis convolutivo de componentes cerebro. Esta mezcla introduce correlaciones instantáneas en los datos
independientes (ICA), electroencefalográfico (EEG), conectividad del sensor, lo que puede hacer que los análisis tradicionales detecten
funcional, Causalidad de Granger, magnetoencefalografía (MEG), conectividad espuria [6].
modelo AR multivariado de fuente (MVAR).

C. Análisis de conectividad de fuentes existentes


yo yoNTRODUCCIÓN
Recientemente, sólo se han presentado métodos que califican para el análisis
A. Conectividad cerebral funcional
de conectividad EEG/MEG, ya que tienen en cuenta los efectos de conducción de

t El análisis HE de la conectividad neuronal juega un papel crucial


en la comprensión del funcionamiento general del cerebro. En
las últimas dos décadas, dicho análisis ha sido posible gracias al
volumen. Estos métodos se pueden dividir aproximadamente de la siguiente
manera.
Un tipo de método tiene como objetivo proporcionar estimaciones de
enorme progreso que se ha logrado en los campos de la neuroimagen conectividad significativas entre sensores. La idea aquí es que sólo la parte
y el modelado matemático. Hoy en día, existe una multiplicidad de real del espectro cruzado y las cantidades relacionadas se ven afectadas por
modalidades de imágenes, lo que nos permite monitorear la dinámica efectos instantáneos. Por lo tanto, al utilizar sólo la parte imaginaria,
cerebral en diferentes escalas espaciales y temporales. muchas medidas de acoplamiento tradicionales pueden hacerse robustas
Dadas múltiples series de tiempo registradas simultáneamente que reflejan la contra la conducción de volumen [1], [6].
actividad neuronal en diferentes regiones del cerebro, comúnmente se infiere una Otro grupo de métodos intenta invertir el proceso de mezcla para
conexión funcional (relacionada con la tarea) (a veces también llamada flujo de aplicar medidas estándar a las estimaciones fuente obtenidas. Estos
información o interacción causal en este artículo) entre dos regiones si se produce métodos se pueden dividir a su vez en 1) enfoques de localización de
una influencia significativa con un retraso en el tiempo. fuentes (donde las fuentes se obtienen como soluciones al problema
inverso EEG/MEG); 2) métodos que utilizan supuestos estadísticos; y 3)
métodos combinados. El primer enfoque se sigue, por ejemplo, en [7] y
Manuscrito recibido el 11 de diciembre de 2009; revisado el 24 de febrero de 2010;
aceptado el 13 de marzo de 2010. Fecha de publicación 18 de mayo de 2010; fecha de la [8]. Los métodos de la segunda categoría pueden resultar atractivos, ya
versión actual 14 de julio de 2010. Este trabajo fue apoyado en parte por el que evitan encontrar una inversión explícita del modelo físico directo.
Bundesministerium für Bildung und Forschung (BMBF) bajo la subvención Fkz 01GQ0850 En cambio, se estiman tanto las fuentes como la transformación de
y en parte por el Programa Europeo de Tecnologías de la Información y la Comunicación
bajo el Proyecto FP7-224631 y el Proyecto 216886.El asterisco indica el autor (des)mezcla. Para que dicha descomposición sea única, es necesario
correspondiente. formular supuestos cuya elección no es tan sencilla. Ahora revisaremos
∗S. Haufe trabaja en el Instituto Tecnológico de Berlín, Berlín 10623, Alemania (correo
brevemente algunas posibilidades para tales supuestos.
electrónico: haufe@cs.tu-berlin.de ).
R. Tomioka trabaja en la Universidad de Tokio, Tokio 113-8654, Japón (correo
electrónico: tomioka@mist.iu-tokyo.ac.jp ). El análisis de componentes principales (PCA) y el análisis de
G. Nolte y M. Kawanabe trabajan en el Instituto Fraunhofer de Arquitectura de componentes independientes (ICA) son las técnicas de descomposición
Computadores y Tecnología de Software (FIRST), Berlín 12489, Alemania (correo
electrónico: nolte@first.fraunhofer.de ; nabe@first.fraunhofer.de ). lineal más destacadas para datos multivariados. Desafortunadamente,
K.-R. Müller trabaja en el Instituto Tecnológico de Berlín, Berlín 10623, Alemania (correo estos métodos contradicen el objetivo del análisis de conectividad EEG/
electrónico: krm@cs.tu-berlin.de ).
MEG (supuesto de fuentes independientes en ICA), o incluso con la
Las versiones en color de una o más de las figuras de este documento están disponibles en
línea en http://ieeexplore.ieee.org.
física subyacente a la generación de EEG/MEG (supuesto de cargas
Identificador de objetos digitales 10.1109/TBME.2010.2046325 ortogonales en PCA). Sin embargo, ambos conceptos

0018-9294/$26,00 © 2010 IEEE


HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1955

se han utilizado de formas más sofisticadas para encontrar directamente del argumento de Granger de que la causa siempre debe
descomposiciones EEG/MEG que reflejen mejor la fisiología [9]-[12]. preceder al efecto. Decimos que series de tiempozitiene una influencia
En este artículo, primero proponemos un procedimiento de un solo causal en las series de tiempozjsi el presente y el pasado de la serie
paso para estimar todos los parámetros (es decir, la matriz de mezcla y temporal combinadaziyzjpuede predecir mejor el futuro dezj
los coeficientes AR multivariados (MVAR)) del modelo de mezcla lineal que el presente y el pasado dezjsolo. En el caso bivariado, esto
de fuentes MVAR [12] basado en ICA convolutivo de dominio temporal equivale a decir que por lo menos unapag∈ {1, . . . , PAGS}, el
(CICA). ), en lugar de la combinación de ajuste de parámetros MVAR y coeficienteh(pagJi) correspondiente a la interacción entrezj
desmezcla mediante ICA instantáneo. Además, el enfoque nos permite yzien elpagEl desfase de tiempo es distinto de cero (significativamente diferente
integrar un supuesto de escasez sobre la conectividad cerebral, es de cero). En el caso multivariado, la causalidad de Granger también incluye
decir, sobre las interacciones entrefuentes cerebrales subyacentes. La causas indirectas no contenidas en no desvanecimientoh(pag) Ji.
escasez adicional previa puede evitar el sobreajuste en aplicaciones
prácticas y produce estimadores más interpretables de la conectividad
B. Modelo de fuentes correlacionadas
cerebral. Observamos que es difícil incorporar antecedentes tan
escasos en MVARICA (es decir, MVAR + ICA, [12]), ya que MVAR se ajusta En este artículo, proponemos un método para separar la
a los (componentes principales de)señales de sensores,donde las señal EEG/MEG en fuentes que interactúan causalmente.
interacciones (es decir, coeficientes MVAR) no son escasas debido a la Partimos del mismo modelo que en [12]: se supone que la
conducción del volumen [12]. medición del sensor se genera como una mezcla lineal
El resto del artículo está organizado de la siguiente manera. En la instantánea de fuentes, que siguen un modelo MVAR.
Sección II, nuestro procedimiento se explicará paso a paso. El modelo X(t) =METROs(t) (1)
de fuente correlacionada asumido en este artículo se definirá en la
Sección II-B. El procedimiento de identificación llamado Análisis de ∑PAG
Fuentes Conectadas (CSA) basado en CICA se introducirá en la Sección
s(t) = h(pag)s(t-p) +ε(t) (2)
pag=1
II-C y seguido por su versión dispersa, SCSA con el lazo de grupo
anterior en la Sección II-D. Las relaciones de nuestros métodos con dóndeX(t)es elD-señal EEG/MEG dimensional en el momentot,METRO
enfoques existentes, como MVARICA y CICAAR (CICA con un modelo es unD×Dmatriz de mezcla que representa el efecto de conducción de
inverso AR [13]) se aclararán en detalle en la Sección II-E. Finalmente, volumen, ys(t)es la señal desmezclada (fuente). Las fuentes en ese
los algoritmos de optimización para CSA y SCSA se explicarán en la momentotse modelan como una combinación lineal de susPAGvalores
Sección II-F. Implementamos dos versiones para SCSA, una basada en pasados más un término de innovaciónε(t), según un modelo MVAR
el algoritmo Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) de memoria con matrices de coeficientesh(pag).En el análisis MVAR estándar, la
limitada y la otra en un algoritmo de maximización de expectativas innovaciónε(t)es una secuencia no correlacionada temporal y
(EM), que es más lento, pero numéricamente más estable. La Sección III espacialmente de vectores distribuidos gaussianos. Por el contrario,
proporcionará nuestros resultados experimentales sobre secuencias de asumimos aquí que es independiente e idénticamente distribuido (iid)
datos simuladas que emulan grabaciones de EEG realistas. La en el tiempo y que los componentes están sujetos a distribuciones no
plausibilidad de nuestro modelo fuente correlacionado se discutirá con gaussianas para poder aplicar técnicas de separación ciega de fuentes
futuras direcciones de investigación en el contexto de la neurociencia (BSS) basadas en estadísticas de orden superior [12], [13 ].
computacional (ver Sección IV), antes de las observaciones finales (ver Para simplificar, tratamos el caso en el que el número de sensores y
Sección V). fuentes es igual y la matriz de mezclaMETROes reversible. Cuando existen
menos fuentes que sensores, el problema cae en la configuración actual
II. CSACONSPARSIDADPAGRIO después de ser preprocesado por PCA [12]. Según los supuestos de nuestro
modelo, la secuencia de innovación se puede obtener mediante un filtrado
A. MVAR para modelar interacciones causales
de respuesta de impulso finito (FIR) de la observación, es decir,
Los modelos AR se utilizan con frecuencia para definir relaciones
"Grangercausales" dirigidas entre series temporales. El procedimiento
∑PAG
original de Granger implica la comparación de dos modelos para predecir
ε(t) =METRO−1X(t)− h(pag)METRO−1X(t-p) (3)
una serie de tiempo.zi,que contiene valores pasados deziyzj,ozi
pag=1

solo 2]. Si la participación dezjconduce a un menor error de predicción,


el flujo de información (causal de Granger) desdezjazise infiere. Dado ∑PAG
que esto puede llevar a una detección falsa de causalidad si amboszi
= W.(pag)X(t-p) (4)
pag=0
yzjestán impulsados por un factor de confusión comúnz∗, es recomendable incluir
el conjunto{z1, . . . ,zMETRO} \ {zi, zj}de todas las demás series temporales donde los coeficientes del filtro están determinados por la matriz de mezcla
observables en ambos modelos. METROy los parámetros MVAR{h(pag)}como sigue:
Se ha señalado que el análisis por pares se puede reemplazar {
METRO−1,
pag=0
ajustando un modelo MVAR a todo el conjunto de datos, y que la W.(pag)= (5)
−H(pag)METRO−1,p >0.
inferencia causal de Granger se puede realizar basándose en los
coeficientes estimados del modelo MVAR (ver, por ejemplo, [5] y [14]). . La ecuación (3) muestra una sorprendente similitud con el modelo CICA
Varias medidas de conectividad se derivan de los coeficientes MVAR [3], [13], [15]–[17], donde solo se intercambian mediciones y fuentes
[4], pero probablemente la siguiente definición sea la más adecuada. convolutivas subyacentes (aquí llamadas innovaciones).
1956 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010

Curiosamente, en un enfoque algo inverso, [18] también descubrió llevando algunos coeficientes exactamente a cero. En [5], se señala que mediante
recientemente la interpretación causal de Granger de un modelo tan el uso de la llamada penalización de lazo grupal [20], se pueden eliminar
convolutivo. Debido al supuesto de no gaussianidad sobre la conexiones completas entre series temporales a la vez. En este enfoque, todos
innovaciónε(t), podemos utilizar técnicas BSS basadas en estadísticas coeficientesh(pag
yo), pag=1, . . . , PAG,modelando el flujo de información
de orden superior para identificar el filtro inverso{W.(pag)}. Dado que desiasjestán agrupados y sólo se pueden podar de forma conjunta.
nos gustaría imponer una conectividad escasa como información Tenga en cuenta que, además del modelado MVAR, dicha dispersión
previa plausible más adelante, es preferible aplicar algoritmos CICA de grupal se ha aplicado en varias tareas de aprendizaje diferentes en
dominio temporal. Los coeficientes FIR obtenidos.{W.(pag)}identificar neuroimagen, por ejemplo, [21]-[25].
directamente la matriz de mezclaMETROy el modelo MVAR del mismo Desde el punto de vista práctico, la suposición de una conectividad escasa
ordenPAG. es muy atractiva, ya que menos conexiones son mucho más fáciles de
interpretar. Pero asumir una conectividad escasa en los datos de fMRI
C. Identificación por parte del CICA también se justifica por estudios de las características numéricas de la
conectividad de la red en bases de datos anatómicas del cerebro (ver [14] y
Utilizamos CICA de dominio temporal para inferir efectos de conducción
las referencias allí). Este razonamiento también se aplica a los datos de EEG y
de volumen e interacciones causales entre señales cerebrales extraídas. Los
MEG.
parámetros del modelo pueden identificarse basándose en supuestos leves
Observamos que, además del enfoque basado en penalizaciones, existen
de que las innovaciones no son gaussianas y (espacial y temporalmente)
otras estrategias para obtener gráficos de conectividad dispersa. Por
independientes. Para los datos de EEG y MEG, se prefiere una distribución
ejemplo, se puede lograr una dispersión post-hoc para estimadores densos
supergaussiana a una subgaussiana, suponiendo que la actividad continua
mediante pruebas estadísticas [5], [26]. Sin embargo, debido a la
de las redes cerebrales se desencadena mediante explosiones locales
convincente regularización incorporada, aquí adoptamos la dispersión del
espontáneas. Aquí adoptamos la distribución sech supergaussiana
lazo de grupo.
propuesta en [13]. La probabilidad de
El supuesto de escasez sólo es razonable para los coeficientes
los datos bajo el modelo son entonces
MVAR{h(pag)}, pero no para elW.(pag)matrices que combinan
pag({X(t)}tt=PAG+1|{W.(pag)}) coeficientes MVAR y la desmezcla instantánea. Por lo tanto, para
aplicar una regularización dispersa, hay que dividir el
∏t ∏ D1
=|W.(0)|T-P sech(εd(t)) (6) parámetros en partes desmezcladas y MVAR nuevamente, como en el modelo

t=PAG+1d=1
π original (1) y (2). Dado que los elementos fuera de la diagonal{h(pag)}
corresponden a la interacción entre fuentes, proponemos ponerles una
∑PAG
dóndeε(t) =METRO−1X(t)− pag=1h(pag)METRO−1X(t-p)ytes penalización de lazo grupal de manera análoga a [5], es decir, penalizamos
el número de muestras de tiempo disponibles. La función de costos a la suma de la-2-normas de cada uno de los grupos{h(pag) df}, d -=F.
minimizar es la probabilidad logarítmica negativa
DejarB:=METRO−1(=W.(0)),s(t) =BX(t), y s(t) =
∑PAG
l({W(pag)}) = (PAG-T)registro|W.(0)| pag=1h(pag)s(t-p). La función de costo regularizado es

∑t ∑ ( D ) lSCSA(B, {H(pag)})
1
− sech(ε d(t)). (7) ∑∥ ( )∥
π
registro

∥ ∥
t=PAG+1d=1 = (PAG-T)registro|B|+λ ∥h(1) df, . . . , h(PAG
df) ∥
2
La solución de (7) conduce a los estimadores de la matriz de mezcla. d-=F

METROy los coeficientes MVAR{h(pag)}vía (5). Llamaremos a este ∑t ∑ D ( )


1
procedimiento CSA. − sech (sd(t)−sd(t)) (8)
π
registro

Observamos que el algoritmo de dominio temporal de CICA tiene una t=PAG+1d=1


indeterminación obvia debido a permutaciones y cambios de signo. Sin embargo,
λsiendo una constante positiva. La solución a (8) para una elección deλ
una vez que fijamos una regla para elegir uno entre todos los candidatos, la
se llama estimación SCSA.
función de costos puede considerarse convexa.
Partes diagonales de las matrices MVAR.{h(pag)}modelar la
autocorrelación de las fuentes y preferiblemente no debe podarse. Sin
D. Conectividad escasa como regularización embargo, en algunos casos, la estabilidad numérica puede verse
En la práctica, normalmente tenemos que considerar un retraso de largo incrementada si estas variables también son penalizadas,
alcance.PAG Explicar las estructuras temporales de secuencias de datos. Sin especialmente siDyPAG son grandes. Por esta razón, en la práctica
embargo, esto hace que se estimen demasiados parámetros de forma fiable. utilizamos una ligera variación de la función de costos (8), que incluye
La estimación de máxima verosimilitud puede conducir fácilmente a un ∥( )∥
∥ ( ∥
sobreajuste, especialmente si el número de observacionestes pequeño. Por λ∥h(1) 11, . . . ,hPAG
11) , . . . , hDD
(1) , . . . , h(PAG
DD) ∥ (9)
2
este motivo, es recomendable adoptar un esquema de regularización. Varios
como pena adicional.
autores han sugerido que la complejidad de los modelos MVAR se puede
reducir reduciendo los coeficientes MVAR a cero. En [14] y [19], la
E. Relación con otros métodos
conectividad cerebral funcional basada en MVAR se estima a partir de
registros de resonancia magnética funcional (fMRI) utilizando un El método propuesto amplía los enfoques de descubrimiento causal disperso
- 1-penalización basada en normas (lazo), que tiene la propiedad de reducirse basados en MVAR previamente sugeridos [5], [14] mediante un enfoque lineal.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1957

es equivalente a un modelo fuente-MVAR de longitud infinita). Además,


no es posible introducir una regularización escasa para MVARICA, ya
que este método lleva a cabo el paso de estimación de MVAR en el
espacio del sensor, donde no se puede asumir ninguna escasez.
Mediante la variación del parámetro de regularización, nuestro
método puede cubrir todas las posibilidades entre los extremos de un
modelo de fuente totalmente correlacionado (similar a CICA) y un
modelo que no permite diafonía entre fuentes. Curiosamente, el último
extremo puede verse como una variante del ICA instantáneo
tradicional, en el que la independencia se mide en términos de
previsibilidad mutua con un criterio tipo Granger.

Fig. 1. Relaciones entre (a) SCSA, (b) MVARICA y (c) CICAAR. Todos los enfoques F. Optimización
asumen una secuencia de innovación no gaussiana.ε. SCSA y MVAR-ICA ajustan un
modelo IIR a la secuencia observadaX, mientras que CICAAR asume un filtro FIR 1) CSA:El gradiente de la función de costos no regularizados (7) se obtiene
para ello. Por lo tanto, en SCSA y MVARICA, el filtro inverso deXa la innovaciónεes
de la siguiente manera:
un FIR. MVARICA es un enfoque de dos pasos en el que AR se ajusta a la secuencia
∂l ( −
)
observada.Xy desmezcla espacial de la innovaciónMεobtenido en el primer paso.
Por otro lado, SCSA es un enfoque de un solo paso que calcula el filtro FIR inverso =δ(pag) (PAG-T)W.(pag) mid
mediante CICA. Observamos que el ajuste AR en MVARICA se basa únicamente en ∂W(pag
d )
estadísticas de segundo orden, lo que puede causar caídas de rendimiento en ( )
comparación con CSA. ∑t ∑PAG
+ tanh W.(pag
d ) X(t-p)X(t-p) (10)
t=PAG+1 pag=0

demezcla, que es apropiada para el análisis de conectividad EEG/MEG. dóndeW.(pag .


d ):=W.(pag) mid,es decir, eldvector de columna deW.(pag)
Aunque el modelo de fuentes correlacionadas (1) conduce a un modelo Usando (10), CSA se puede resolver fácilmente mediante un
MVAR de la secuencia de observación [12], no se puede esperar escasez optimizador L-BFGS [27].1
de coeficientes después de mezclarlos por efectos de conducción de 2) SCSA mediante un algoritmo L-BFGS modificado:Al utilizar una regularización
volumen. Nuestro método se compara con MVARICA [12], que utiliza el escasa, surgen dos dificultades en comparación con la función de costos no
mismo modelo (1), pero estima sus parámetros de manera diferente. regularizada. En primer lugar, utilizando la factorización (5), es probable que la
Más precisamente, los autores de MVARICA sugieren adaptar función de costos tenga mínimos locales, que podrían encontrarse en lugar del
inicialmente un modelo MVAR en el espacio del sensor. Luego, la verdadero mínimo global. Además,
desmezcla se puede obtener realizando ICA instantánea en las la función (8) no es diferenciable, cuando uno de los términos
innovaciones MVAR, es decir, se utiliza una función de contraste
‖(h(1)df, . . . , h(PAG
df)) ‖2,d -=Fse vuelve cero, lo que se espera
dedicada (Infomax) para modelar la independencia de las innovaciones.
ser el caso en el nivel óptimo. Para abordar estas dificultades, aquí
Las fuentes obtenidas siguen un modelo MVAR con efectos retardados
proponemos utilizar una versión modificada del algoritmo L-BFGS,
(interacciones), pero idealmente sin correlaciones instantáneas (como
que permite la optimización no lineal conjunta deBy {H(pag)},
las causadas por la conducción de volumen).
teniendo especial cuidado en la no diferenciabilidad del
Como se mencionó, nuestro modelo (1) es muy similar al modelo CICA. La
regularizador. El gradiente de (8) para el casod -=Fse obtiene de la
única diferencia es que (1) emplea un filtro FIR para extraer las innovaciones,
siguiente manera:
mientras que en la literatura de CICA se suele utilizar un filtro de respuesta
∂lSCSA ∑t
infinita [respuesta de impulso infinito (IIR)] (ver, por ejemplo, [13]). Esta
=− tanh (s)d(t)−sd(t)) sF(t-p)
discrepancia se explica por las diferentes filosofías asociadas a ambos ∂H(pag
df) t=PAG+1
métodos. Si bien en nuestro enfoque, las innovacionesε(t)surgen como
h(pag)
residuos de un modelo fuente-MVAR de longitud finita, CICA los entiende df
+ λ∥ ( )∥ (11)
como fuentes de una mezcla convolucional (directa) de longitud finita. Sin ∥ h(1) ∥
embargo, nuestra función de costos no regularizados puede considerarse ∥ df , . . . , h(PAG)
df ∥
2
como un enfoque de máxima verosimilitud para una versión IIR de CICA.
(análogamente parad≡F)y
Esto nos lleva también a una nueva visión de CICA como si realizara una
∂lSCSA
desmezcla instantánea en fuentes correlacionadas. Por lo tanto, es posible
= (PAG-T)B−mi d
realizar un análisis de conectividad de origen utilizando CICA (consulte la Fig. ∂Bd
1 para ver una ilustración). {
∑t ∑D
En comparación con MVARICA y las implementaciones de CICA en el + tanh (s)d(t)−sd(t))
dominio del tiempo, como CICAAR [13], nuestra formulación tiene la ventaja t=PAG+1d=1
de que la conectividad escasa se puede modelar fácilmente mediante una ( )}
penalización adicional. Esto no es posible para CICAAR, porque CI-CAAR sólo
∑PAG
× X(t)− Xd(t-p)h(pagd) . (12)
estima indirectamente los coeficientes MVAR a través de sus filtros inversos.
pag=1
Sin embargo, estos generalmente no son escasos, incluso si la verdadera
estructura de conectividad es escasa. Generalmente tampoco es posible 1Usamos una implementación de Naoaki Okazaki, http://www.chokkan.org/
invertir los coeficientes inversos (recuerde que CICA software/liblbfgs/.
1958 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010

Nuestro algoritmo L-BFGS modificado comprueba antes de cada gra- función de pérdida en términos desse define de la siguiente manera:

∑t ∑ ( D )
11),
. . . ,h(1) DD, . . . ,
evaluación de los pacientes, si‖(h(1)11, . . . ,h(PAG 1
h(PAG) lMETRO(s) =− sech (s̃d(t)−sd(t)) . (13)
df)) ‖2,d -=F π
registro
df, . . . , h(PAG
DD)‖2o algunos de los términos‖(h(1)
t=PAG+1d=1
ya son (cerca de) cero. Si alguno de los términos es igual a cero, el
El gradiente es
gradiente no se define de forma única, sino como un conjunto
∂lMETRO
(subdiferencial). Sin embargo, es sencillo calcular el elemento del = tanh(s̃d(t)−sd(t)) (14)
subdiferencial con la norma mínima, cuya inversión de signo es ∂sd(t)
siempre una dirección descendente. Hay que tener cuidado porque, en Dejarad(t) (d=1, . . . , D,t=PAG+1, . . . , t)denota las variables
la práctica, no encontraríamos ninguno de los términos antes duales asociadas con la transformada de Legendre. La función de
mencionados exactamente igual a cero. Así, truncamos los elementos pérdida conjugada se define en el intervalo [−1,1]y evalúa a
dehcorrespondiente a los términos con normas pequeñas por debajo DMETRO(a)
de algún umbral a cero antes de calcular el subgradiente de norma
∑t ∑ D ( )
mínima. Si efectivamente se alcanza el mínimo en el punto truncado, el sech (s̃d (t)−s (td ) )
= sorber − ad(t)sd(t) + yo og
subgradiente de norma mínima será cero. De lo contrario, el
t=PAG+1d=1 s̃d(t)
π
subgradiente sacará la solución de cero. En la práctica se debe tener (
más cuidado para evitar que la solución oscile dentro y fuera de algún ∑DT∑ 1−a d(t) 1−a (td)
= registro
cero. 2 2
t=PAG+1d=1
Encontramos que utilizando el procedimiento de optimización descrito se
)
pueden encontrar soluciones dispersas en menos tiempo, si se utiliza la 1 + und(t ) 1 + und ( t) 2
solución de la función de costos no regularizada como inicializador. El punto + − ad(t)sd(t) . (15)
π
registro + iniciar sesión
2 2
de partida se puede obtener utilizando la transformación inversa de (5).
3) SCSA mediante un algoritmo EM:Utilizando la optimización
El gradiente de la pérdida conjugada viene dado por
conjunta de By{h(pag)}, la poda heurística de conexiones podría en
algunos casos conducir a soluciones subóptimas con respecto a la ∂DMETRO(a) 1 1 + und (t)
función de costos compuesta. Por esta razón, presentamos un = registro − sd(t). (dieciséis)
∂ad(t) 2 1−ad(t)
esquema de optimización alternativo, que no requiere ningún paso
heurístico. La idea aquí es alternar entre la estimación de ambas El hessiano es diagonal con elementos.
incógnitas. Hacerlo puede justificarse como una aplicación del ∂2DMETRO(a) 1
algoritmo EM (ver [28]). = . (17)
∂ad(t)2 2(1−a2 d(t))
Estimación deBdado{h(pag)}(aquí llamado paso E) equivale a resolver
un problema de optimización no lineal sin restricciones. Es importante Habiendo definido los pasos E y M, hemos convertido un problema
destacar que este problema también es convexo, en contraste con el de estimación no convexa en una secuencia de dos problemas
enfoque conjunto para el ajuste de parámetros SCSA. La convexidad se convexos, los cuales pueden resolverse exactamente. Ahora se puede
deriva de la concavidad deregistro|X|yregistro(sech(hacha))para obtener una estimación final de los parámetros del modelo alternando
constantea(y del hecho de que la suma de funciones convexas es entre los pasos E y M hasta la convergencia.
convexa). La gran ventaja de los problemas convexos es que presentan
un mínimo único (local y global). En nuestro caso, el objetivo es suave; III. PAGRENDIMIENTOUd.NDERREALISTICOCCONDICIONES
por lo tanto, se garantiza que el algoritmo L-BFGS encontrará el
Realizamos las siguientes simulaciones para evaluar el
mínimo, haciendo uso del gradiente en (12).
rendimiento del análisis de conectividad de fuente propuesto en
Optimización con respecto a{h(pag)}para fijoB(Paso M) es más complicado,
comparación con los de los enfoques existentes.
ya que permanece el regularizador de lazo de grupo no diferenciable. Es
poco probable que los métodos de optimización fluidos como L-BFGS
A. Generación de datos
encuentren la solución exacta en este caso. Sin embargo, este problema no
es tan difícil como el problema de optimización conjunta, ya que es convexo. Simulamos siete series temporales (pseudofuentes) de longitud
Esto se puede ver por el hecho de que está compuesto por una suma de− norte=2000,según un modelo de orden MVARPAG=4.Siete de las 42
registro(sech(hacha))términos (función de pérdida) y el término del lazo de interacciones posibles se modelaron permitiendo que el
grupo (regularizador), que es una suma de-2-normas y, por tanto, convexas. coeficientes MVAR fuera de la diagonal correspondientesh(pag) df, d -=F,1≤
Por lo tanto, podemos resolver este problema utilizando el procedimiento pag≤PAGser distinto de cero. Las innovaciones se extrajeron de la
Lagrangiano dual aumentado (DAL) [29], que se ha introducido distribución sech (tenga en cuenta que el supuesto de no gaussianidad
recientemente como un método para minimizar funciones de pérdida es crucial para recuperar fuentes mixtas).
convexas arbitrarias con penalizaciones de lazo o lazo de grupo adicionales. Las pseudofuentes se asignaron a 118 canales de EEG utilizando la
La aplicación de DAL requiere la función de pérdida y su gradiente, el dispersión teórica de siete dipolos colocados al azar. La extensión se calculó
conjugado convexo (transformada de Legendre) de la función de pérdida, utilizando un modelo frontal realista [30] que se construyó a partir de
así como el gradiente y el hessiano de la imágenes anatómicas de resonancia magnética de la "cabeza de
pérdida conjugada. Dejars(t) =BX(t)ser las fuentes desmezcladas y Montreal" [31]. En la Fig. 2 se puede ver un ejemplo que ilustra la generación
∑ PAG
s(t) = pag=1h(pag)s(t-p)sean sus aproximaciones AR. El de datos.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1959

en cada momento instantet. En las variantes N4-N6, la estructura


temporal fue∑
determinado por ununivariadoModelo AR de orden 20, es decir,
20
ξi(t) = pag=1h(pag)ξi(t-p)
+ε(t)para el tipo de ruido N4. Tenga en cuenta
que, dado que no se modelaron dependencias
retardadas en el tiempo entre fuentes de ruido, el
ruido no introdujo efectos causales de Granger adicionales. Usamos una
SNR de 2 en todos los experimentos, donde la SNR se define de la siguiente
manera:

‖METRO(s(1), . . . ,s(t))‖F
SNR = (19)
‖(ξ(1), . . . ,ξ(t))‖F

y‖ · ‖Fes la norma de Frobenius (suma de elementos al cuadrado)


de una matriz. Para cada categoría se construyeron cien conjuntos
de datos con diferentes realizaciones de coeficientes MVAR,
innovaciones y ruido.
Realizamos dos experimentos adicionales (100 repeticiones cada
uno) para investigar el rendimiento de los diversos métodos bajo
variación de la estructura de conectividad de las fuentes subyacentes,
así como la SNR. Se consideraron siete grados de conectividad (de 0% a
Figura 2. Ejemplo de datos simulados (tipo de ruido N1) y re- 100%) y siete opciones de SNR (de 1 a 4). Estos rangos incluyeron los
construcción por SCSA. (a) Dipolo simulado. (b) Patrón de campo que describe la parámetros utilizados en los experimentos anteriores (17% = 7/42 de
influencia del dipolo en el EEG (una columna deMETRO). (c) Dipolo reconstruido, obtenido
todas las posibles interacciones presentes, SNR = 2). La variación de la
a partir del patrón estimado. (d) Patrón de campo estimado por SCSA a partir de series
temporales de EEG ruidosas. SNR se investigó utilizando ruido blanco del sensor sin estructura
temporal (N1), mientras que el efecto de la conectividad se estudió para
TABLA I el caso sin ruido.
SIXtTIPOS DEnorteOISEUd.SED EN ELSIMULACIONES En todos los experimentos, se aplicó una reducción de dimensionalidad
basada en PCA al pseudo-EEG tomando solo los componentes de señal más
fuertes. Dado que nuestro esquema de evaluación se basa en un mapeo uno
a uno entre los componentes estimados y verdaderos (ver Sección III-C),
aquí utilizamos exactamente tantas dimensiones como fuentes originales.D=
7.En la práctica, esta información, por supuesto, no está disponible y el
número de dimensiones se puede elegir de manera que, por ejemplo, se
explique el 99% de la varianza en el EEG. Nuestra experiencia aquí muestra
que tomar demasiadas dimensiones es generalmente menos dañino que lo
contrario, ya que las dimensiones sobrantes pueden usarse simplemente
En realidad, las mediciones nunca están libres de ruido y se cumple el
para eliminar el ruido.
siguiente modelo en lugar de (1):

X(t) =METROs(t) +ξ(t). (18)B. Métodos


Dado que ninguno de los métodos comparados aquí (ver más adelante) Probamos la capacidad de ICA, MVARICA, CICAAR y los dos métodos
modela explícitamente un término de ruido, es importante evaluar su solidez para propuestos CSA y SCSA para reconstruir las siete fuentes y su
modelar la violación. Con este fin, construimos variantes adicionales del conjunto estructura de conectividad. Aunque el objetivo de la ICA instantánea es
de datos pseudo-EEG agregando seis tipos diferentes de ruido. ξ. Las seis fundamentalmente diferente del análisis de conectividad de origen,
variantes (N1-N6) se resumen en la Tabla I. Estas variantes difieren en su grado de también se incluyó aquí en la comparación. Esto se debe a que, incluso
correlación espacial y temporal de la siguiente manera. En las variantes N1 y N4,ξi( si no se cumple la independencia de las fuentes, ICA aún podría
t), i=1, . . . , m, se dibujaron de forma independiente para cada sensor, es decir, no proporcionar componentes mínimamente dependientes, cuya
tienen correlación espacial. conectividad podría analizarse. La variante ICA utilizada aquí se basa en
lación. Para las variantes N2 y N5 términos de ruidoξ∗ i(t), i=1, . . . , D, la descorrelación temporal [32]-[35] (implementada mediante una
fueron dibujados de forma independiente para cadafuente. En este caso, las diagonalización conjunta rápida y aproximada [36]). El número de
fuentes y las contribuciones de ruido al EEG comparten la misma covarianza retrasos temporales se fijó en 100.
dada por la matriz de mezcla.METRO, es decir,X(t) =METRO(s(t) +ξ∗(t)). Para MVARICA, CICAAR, CSA y SCSA se probaron con PAG∈ {1,2, . . . ,7}
las últimas variantes N3 y N6, se simularon fuentes de ruido espacialmente retrasos temporales, donde cuatro es el verdadero orden del modelo
independientes en todos los nodos de una cuadrícula que cubre todo el MVAR para CSA, SCSA y MVARICA. CICAAR tiene aquí la desventaja de
cerebro, dando así el modeloX(t) =METROs(t) +METRO∗ξ∗(t). Aquí, a diferencia que generalmente puede requerir filtros temporales extendidos para
del modelo anterior, las contribuciones del ruido no son colineales con las reconstruir fuentes, siguiendo el modelo (1). Sin embargo, debido a
fuentes. Además, distinguimos entre fuentes de ruido con y sin estructura limitaciones de tiempo de cálculo,PAG=7se tomó como el retraso
temporal. En las variantes (N1-N3), los términos de ruido se extrajeron de máximo también para este método. Para MVARICA y CICAAR,
una distribución normal. utilizamos implementaciones proporcionadas por los respectivos
1960 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010

autores. Estas implementaciones adoptan el criterio de información


bayesiano (BIC) para seleccionar el número apropiado de desfases de
tiempo. Se utilizó el mismo criterio para seleccionar el orden del modelo en
CSA y SCSA. La constante de regularizaciónλde SCSA se estableció mediante
validación cruzada quíntuple, es decir, evaluando la probabilidad en los
datos de prueba. Estimaciones de SCSA de{h(pag)}yBse obtuvieron de forma
conjunta utilizando el algoritmo L-BFGS modificado o alternativamente
utilizando 20 pasos EM adicionales. Estas variantes se denominan aquí SCSA
y SCSA_EM, respectivamente.

C. Medidas de desempeño

El criterio de rendimiento más importante es la reconstrucción de la


matriz de mezcla, ya que de ella se pueden derivar básicamente todas las
demás magnitudes relevantes. Todos los métodos considerados
proporcionan una estimación.METRO−1de la desmezcla, que se puede
invertir para producir una matriz de mezcla estimada. Las columnas de la Fig. 3. Errores de estimación de la matriz de mezcla según el criterio GOF.
matriz de mezcla corresponden a patrones de campo espacial de las fuentes Se muestran los resultados para las variantes de CSA propuestas (escasamente)
(SCSA_EM, SCSA y CSA) y tres enfoques alternativos (CICAAR, MVARICA e ICA).
estimadas, pero desafortunadamente, estos patrones generalmente sólo Diferentes subfiguras representan el desempeño de los métodos en el caso sin
pueden determinarse hasta el signo, la escala y el orden. Por este motivo, se ruido (N0), así como en presencia de diferentes tipos de ruido (N1-N6, ver Tabla I).
realizó el emparejamiento óptimo de patrones verdaderos y estimados,
como se describe en [37]. En comparación con [37], utilizamos una medida
de similitud ligeramente modificada, que era la bondad de ajuste (GOF) Aquí se siguió una forma de estimación de la conectividad, ya que no todos los

lograda mediante una regresión lineal de mínimos cuadrados de uno a otro métodos de desmezcla proporcionan estimaciones de conectividad integradas. Sin

patrón. Para un patrón verdaderoMETROdy un patrón estimadoMETROF,el embargo, para SCSA, el análisis de interacción también podría haberse realizado

coeficiente de regresión óptimo es examinando directamente los coeficientes MVAR.

METROF METROd
C(METROd, M̂F) = (20)D. Resultados
2
‖METROF‖
La figura 3 muestra qué tan bien se aproximó la matriz de mezcla
y el GOF es mediante los diferentes enfoques. Se dibuja un diagrama de caja para el

‖cmF − d
METRO‖
caso sin ruido (N0) y cada una de las seis variantes ruidosas (N1-N6, consulte
GOF(METROd, M̂F) = . (21) la Tabla I). Los gráficos muestran el rendimiento medio en 100 repeticiones,
‖METROd‖
así como los cuartiles inferior y superior y los valores extremos. Se
Habiendo encontrado el emparejamiento óptimo, las columnas de eliminaron los valores atípicos (cruces rojas). Como resultado de las
METROfueron permutados y escalados para aproximarseMETROlo simulaciones, SCSA normalmente logra el error de reconstrucción más
mejor posible utilizando los coeficientes de regresión óptimos. El GOF pequeño, seguido de CSA, CICAAR, MVARICA e ICA. En muchos casos, las
con respecto a toda la matriz.METROSe utilizó para evaluar la calidad diferencias también son significativas (las muescas no superpuestas de dos
de las diferentes descomposiciones. Además, utilizando los patrones de cuadros indican que las dos medianas difieren al nivel de significancia del
mezcla óptimos, se realizaron exploraciones dipolares, es decir, para 5%).
cada ubicación discreta en el cerebro (tamaño de cuadrícula de 5 mm), La estimación correcta de la matriz de (des)mezcla afecta tanto el error de
se instaló una fuente de corriente dipolar. Se determinó la ubicación localización que se puede lograr aplicando métodos inversos a los patrones
del dipolo que mejor explica el patrón EEG. Se midió la desviación de estimados como el error de cualquier análisis de conectividad realizado en
estas ubicaciones de las reales. En la Fig. 2 se muestra un ejemplo las fuentes desmezcladas. Como resultado de una buena aproximación de la
típico de un patrón de mezcla estimado por SCSA y el dipolo matriz de mezcla, SCSA también logra errores de localización de dipolos más
reconstruido correspondiente. pequeños que todos los demás métodos, excepto en un escenario, como se
Finalmente, según [5], el descubrimiento causal se llevó a cabo en muestra en la Fig. 4. La misma situación ocurre cuando se trata de estimar la
las fuentes desmezcladas. La técnica exacta utilizada fue la estimación conectividad entre fuentes (ver Fig. 5).
de MVAR con regresión de crestas. Para los parámetros MVAR En cuanto a la influencia del ruido, se podría decir que la degradación
estimados mediante regresión de crestas, se puede derivar una relativa del rendimiento en presencia de ruido es la misma para todos los
distribución gaussiana multivariada aproximada, que se utilizó para métodos. Generalmente, el ruido que es colineal con las fuentes (N2/N5)
probar que los coeficientes fueran significativamente diferentes de conduce a un mayor rendimiento que el ruido que no está correlacionado
cero. una influencia desiasjse definió, si elpag-valor de uno de los entre sensores (N1/N4) y el ruido con una estructura de correlación espacial
coeficientesh(pag
yo,) pag=1, . . . , PAG,cayó por debajo del valor crítico. Como arbitraria (N3/N6). Estas diferencias se explican parcialmente con la
Un tercer criterio de desempeño, la puntuación del área bajo la curva (AUC) efectividad del paso PCA realizado para la reducción de dimensionalidad. La
para descubrir correctamente la estructura de interacción, se calculó varianza total promedio explicada por el subespacio PCA fue del 96% para
variando el umbral de significancia y comparando la matriz de conectividad los tipos de ruido N1/N4 y del 81% para los tipos de ruido N3/N6, mientras
estimada y verdadera para cada umbral. Tenga en cuenta que esto que fue del 100% para el ruido colineal.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1961

Fig. 6. Rendimiento de aproximación de matriz mixta de variantes (escasas) de CSA


(SCSA_EM, SCSA y CSA) y tres enfoques alternativos (CICAAR, MVARICA e ICA)
(izquierda) bajo variación del grado de conectividad y (derecha) SNR. Se investiga
el rendimiento a diferentes niveles de ruido para el ruido blanco del sensor sin
estructura temporal (N1), mientras que la influencia de la conectividad se estudia
en el caso sin ruido (N0).

Fig. 4. Errores de localización de ajustes dipolares realizados en los patrones de campo


de mezcla estimados. Se muestran los resultados para las variantes propuestas
(escasamente) de CSA (SCSA_EM, SCSA y CSA) y tres enfoques alternativos (CICAAR,
MVAR-ICA e ICA). Diferentes subfiguras representan el desempeño de los métodos en el
caso sin ruido (N0), así como en presencia de diferentes tipos de ruido (N1 – N6, ver Tabla
I).

Figura 7. Tiempo de ejecución promedio de las variantes CSA (escasamente) propuestas


(SCSA_EM, SCSA y CSA) y tres enfoques alternativos (CICAAR, MVARICA e ICA), se
hicieron cargo de todos los experimentos realizados para este estudio.

explicarse mejor mediante modelos con menos conexiones de origen de las


realmente presentes, lo que podría tener razones numéricas.
El tiempo que cada método consumió en promedio para procesar un
conjunto de datos se muestra en la Fig. 7. La mayoría de los métodos
finalizan en un tiempo bastante corto, mientras que la implementación EM
de SCSA está en el rango medio y CICAAR requiere el mayor tiempo. Sin
embargo, para SCSA todavía hay margen de mejora, ya que el parámetro de
regularización de este método actualmente se selecciona mediante el
procedimiento de validación cruzada, que podría cambiarse.

IV. DDISCUSIÓN
Recordemos las suposiciones que hacemos para identificar fuentes
Figura 5. Errores de estimación respecto de la estructura de conectividad de la fuente como medida. cerebrales individuales y estimar sus interacciones. Si bien la ICA da como
Esto se garantiza ajustando posteriormente un modelo MVAR a las fuentes desmezcladas y resultado una descomposición única asumiendo independencia estadística,
probando los coeficientes obtenidos para determinar si hay interacción significativa. La medida
tal suposición es inconsistente cuando se estudian las interacciones
de desempeño informada es la puntuación AUC obtenida variando el nivel de significancia.
cerebrales. Sin embargo, todas las interacciones neuronales requieren un
retraso mínimo dentro de la resolución temporal de las mediciones
N2/N5. Como consecuencia, sugerimos que, en la práctica, una regla del 99% electrofísicas de la actividad cerebral. Por lo tanto, tiene sentido asumir
debería ser la más adecuada, incluso si el número de fuentes puede estimarse de procesos de innovación independientes y modelar todas las interacciones
manera aproximada. explícitamente utilizando matrices AR. En relación con ICA, pagamos un
Como se muestra en el panel derecho de la Fig. 6, el rendimiento de precio por ello: en nuestro caso, la independencia se explota eficazmente
todos los métodos disminuye al disminuir la SNR, mientras que la diferencia con la información reducida contenida en los residuos del modelo. En
entre los métodos permanece bastante estable en todos los niveles de SNR. principio, esto puede ser una causa de estimaciones menos estables. Para
El panel izquierdo de la Fig. 6 muestra que la superioridad de los métodos aumentar la estabilidad, hemos incluido suposiciones de escasez basadas en
propuestos aquí (CSA y SCSA) sobre CICAAR, MVARICA e ICA es estable la idea de que sólo unas pocas conexiones cerebrales pueden ser tan fuertes
incluso bajo variación del grado de conectividad. Sólo que las variantes SCSA como para ser observables en los datos de EEG, lo que es especialmente
parecen perder su ventaja sobre CSA en casos de estructura de conectividad cierto en presencia de artefactos y ruido de fondo.
muy densa. Esto es algo inesperado, ya que SCSA proporciona un
mecanismo (evaluación del error de predicción fuera de muestra) para Hacemos hincapié en que los métodos BSS que explotan estadísticas de
ajustarse a la cantidad real de conectividad. En algunos casos, los datos orden superior sin utilizar información temporal fallarían por completo si los
aparentemente podrían datos tuvieran una distribución gaussiana (cf., el análisis empírico).
1962 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010

evaluación por [12]). Los procesos tienden a ser supergaussianos si no [6] G. Nolte, O. Bai, L. Wheaton, Z. Mari, S. Vorbach y M. Hallett, "Identificación de la
siempre están activos, lo cual es una suposición razonable para las verdadera interacción cerebral a partir de datos de EEG utilizando la parte
imaginaria de la coherencia".Clínico. Neurofisiol., vol. 115, págs. 2292-2307,
fuentes cerebrales y más aún para los artefactos, que también deben octubre de 2004.
incluirse en el modelo. Aquí, asumimos un modelo dinámico lineal y [7] AG Guggisberg, SM Honma, AM Findlay, SS Dalal, HE Kirsch,
procesos de innovación supergaussianos, es decir, la única causa de la MS Berger y SS Nagarajan, "Mapeo de la conectividad funcional en pacientes
con lesiones cerebrales".Ana. Neurol., vol. 63, págs. 193–203, febrero de
no gaussianidad es el proceso de innovación en sí. Las redes cerebrales 2008.
reales son, por supuesto, más complicadas. Sin embargo, la cuestión de [8] L. Astolfi, F. Cincotti, D. Mattia, C. Babiloni, F. Carducci, A. Basilisco,
si los modelos dinámicos no lineales pueden mejorar los resultados o PM Rossini, S. Salinari, L. Ding, Y. Ni, B. He y F. Babiloni, "Evaluación de la
conectividad funcional cortical mediante estimación inversa lineal y función
incluso son esenciales para una descomposición correcta está más allá de transferencia dirigida: simulaciones y aplicación a datos reales".Clínico.
del alcance de este artículo y se abordará en el futuro. De manera Neurofisiol., vol. 116, págs. 920–932, abril de 2005.
[9] L. Marzetti, C. Del Gratta y G. Nolte, "Comprensión de la conectividad cerebral a partir de
similar, asumimos que el número total de fuentes es menor o igual al
datos de EEG mediante la identificación de sistemas compuestos de fuentes que
número de canales. Aparentemente, la importancia de este problema interactúan".NeuroImagen, vol. 42, págs. 87–98, agosto de 2008.
disminuye cuando se utiliza una gran cantidad de canales. [10] G. Nolte, L. Marzetti y P. Valdés Sosa, “Análisis de componentes de superposición
mínima (MOCA) de datos EEG/MEG para más de dos fuentes”.J. Neurosci. Métodos,
vol. 183, págs. 72 a 76, septiembre de 2009.
VCONCLUSIÓN [11] PA Valdés-Sosa, M. Vega-Hernández, JM Sánchez-Bornot,
E. Martı́nez-Montes y MA Bobes, “Imágenes de fuente EEG con análisis de
Analizar la conectividad cerebral funcional es un problema desafiante, ya
componentes independientes no negativos tomográficos espaciotemporales”.
que los efectos de conducción de volumen en las mediciones de EEG/MEG Tararear. Mapa cerebral., vol. 30, págs. 1898-1910, junio de 2009.
pueden dar lugar a efectos espurios. En este artículo, hemos establecido un [12] G. Gómez-Herrero, M. Atienza, K. Egiazarian y JL Cantero, “Medición del
acoplamiento direccional entre fuentes de EEG”.NeuroImagen, vol. 43, págs.
nuevo método de análisis de conectividad SCSA que supera estos problemas
497–508, noviembre de 2008.
de una manera elegante y numéricamente atractiva. En detalle, EEG/MEG se [13] M. Dyrholm, S. Makeig y LK Hansen, “Selección de modelo para ICA
modela como una mezcla lineal de fuentes correlacionadas, luego, convolutiva con una aplicación al análisis espaciotemporal de EEG”.
Computación neuronal., vol. 19, págs. 934–955, abril de 2007.
estimamos conjuntamente el proceso de desmezcla y el modelo MVAR (que
[14] PA Valdés-Sosa, JM Sánchez-Bornot, A. Lage-Castellanos, M. Vega-Hernández,
es la base del modelo para las fuentes correlacionadas). Para evitar el J. Bosch-Bayard, L. Melie-García y E. Canales-Rodríguez, “Estimación de la
sobreajuste, regularizamos el modelo utilizando la penalización de lazo conectividad funcional cerebral con escasa autorregresión multivariada”,
Filos. Trans. Roy. Soc. B, vol. 360, págs. 969–981, 2005.
grupal. De esta manera, podemos lograr una interpolación basada en datos
[15] H. Attias y CE Schreiner, "Separación y deconvolución de fuentes ciegas: el algoritmo
entre dos extremos: un modelo de fuente que tiene correlaciones completas de análisis de componentes dinámicos",Computación neuronal., vol. 10, págs.
y uno que no permite la diafonía entre las fuentes extraídas. En el medio, 1373-1424, agosto de 1998.
[16] L. Parra y C. Spence, "Separación de fuentes ciegas convolutivas de fuentes no
nuestro método extrae un modelo de conectividad dispersa.
estacionarias",Traducción IEEE. Proceso de audio del habla., vol. 8, núm. 3, págs.
320–327, mayo de 2000.
El trabajo futuro estudiará el vínculo entre los métodos para compensar [17] J. Anemüller, TJ Sejnowski y S. Makeig, "Análisis complejo de componentes
independientes de datos electroencefalográficos en el dominio de la frecuencia"
la no estacionariedad en los datos, como el análisis subespacial estacionario
Red neuronal., vol. 16, págs. 1311-1323, noviembre de 2003.
(SSA, [38]) y nuestra novedosa evaluación de la conectividad. Además, [18] M. Mørup, KH Madsen y LK Hansen. (2009). “Modelado causal
nuestro objetivo es localizar los componentes extraídos de la conectividad latente de datos de neuroimagen” [en línea]. Disponible: http://
www2.imm.dtu.dk/pubdb/p.php?5804
utilizando modelos de fuentes distribuidas para mejorar la interpretabilidad
[19] JM Sánchez-Bornot, E. Martínez-Montes, A. Lage-Castellanos,
fisiológica (ver, por ejemplo, [22] y [39]). Un tercer campo de próxima M. Vega-Hernández y PA Valdés-Sosa, "Descubriendo la conectividad efectiva del
investigación es la extensión de nuestro modelo causal a datos cerebro disperso: un enfoque basado en vóxeles que utiliza regresión penalizada".
Estadística Sínica, vol. 18, núm. 4, págs. 1501-1518, 2008.
multidireccionales basándose en el trabajo de [40].
[20] M. Yuan e Y. Lin, “Selección y estimación de modelos en regresión con variables
agrupadas”.J. Roy. Estadística. Soc. B Metanfetamina., vol. 68, núm. 1, págs. 49–67,
ARECONOCIMIENTO 2006.
[21] SF Cotter, BD Rao, K. Engan y K. Kreutz-Delgado, “Soluciones dispersas para
Los autores desean agradecer a GG Herrero y M. Dyrholm problemas lineales inversos con múltiples vectores de medición”.
por hacer disponible el código fuente de sus algoritmos, así Traducción IEEE. Proceso de señal., vol. 53, núm. 7, págs. 2477–2488, julio de 2005.
[22] S. Haufe, V. Nikulin, A. Ziehe, K.-R. Müller y G. Nolte, "Combinación de escasez
como a N. Krämer por las discusiones. e invariancia rotacional en la reconstrucción de fuentes EEG/MEG".
NeuroImagen, vol. 42, núm. 2, págs. 26-738, 2008.
REFERENCIAS [23] M. van Gerven, C. Hesse, O. Jensen y T. Heskes, "Interpretación de datos de ensayos
únicos mediante la regularización grupal".NeuroImagen, vol. 46, págs. 665–676,
[1] G. Nolte, A. Ziehe, VV Nikulin, A. Schlögl, N. Krämer, T. Brismar y KR Müller, 2009.
"Estimación robusta de la dirección del flujo de información en sistemas [24] D. Wipf y S. Nagarajan, "Un marco bayesiano unificado para imágenes de fuente
físicos complejos".Física. Rev. Lett., vol. 100, págs. 234101-1– 234101-4, junio MEG/EEG",Neuroimagen, vol. 44, págs. 947–966, febrero de 2009.
de 2008. [25] R. Tomioka y KR Muller, "Un marco discriminativo regularizado para el análisis de
[2] C. Granger, "Investigación de las relaciones causales mediante modelos econométricos y EEG con aplicación a la interfaz cerebro-computadora".NeuroImagen, vol. 49, págs.
métodos transespectrales".econometria, vol. 37, págs. 424–438, 1969. 415–432, enero de 2010.
[3] MJ Kaminski y KJ Blinowska, "Un nuevo método de descripción del flujo [26] D. Marinazzo, M. Pellicoro y S. Stramaglia, “Método del núcleo para la cusalidad no
de información en las estructuras cerebrales".Biol. Cibern., vol. 65, lineal de Granger”,Física. Rev. Lett., vol. 100, págs. 144103-1–144103-4, 2008.
págs. 203-210, 1991.
[4] LA Baccalá y K. Sameshima, “Coherencia dirigida parcial: un nuevo concepto en la [27] J. Nocedal. (1980, julio). Actualización de matrices cuasi-newton con almacenamiento
determinación de la estructura neuronal”.Biol. Cibern., vol. 84, págs. 463–474, junio limitado.Matemáticas. Computadora., [En línea].35(151), págs. 773–782.
de 2001. Disponible: http://www.jstor.org/stable/2006193
[5] S. Haufe, G. Nolte, K.-R. Müller y N. Krämer, "Descubrimiento causal escaso en series [28] R. Neal y GE Hinton, “Una visión del algoritmo em que justifica variantes
temporales multivariadas",J. Mach. Aprender. Res. W&CP, vol. 6, págs. 97-106, incrementales, dispersas y de otro tipo”, enAprendizaje en modelos gráficos.
2010. Norwell, MA: Kluwer, 1998, págs. 355–368.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1963

[29] R. Tomioka y M. Sugiyama, “Método lagrangiano aumentado dual para una Guido NolteNació en Dortmund, Alemania, en
reconstrucción dispersa eficiente”Proceso de señal IEEE. Letón., vol. 16, núm. 2, 1962. Recibió el Ph.D. Licenciado en Física por la
págs. 1067–1070, diciembre de 2009. Universidad de Oldenburg, Oldenburg, Alemania,
[30] G. Nolte y G. Dassios, "Expansión analítica del campo de derivación del EEG para en 1995.
conductores de volumen realistas",Física. Medicina. Biol., vol. 50, págs. 3807–3823, De 1995 a 2000 estuvo en el Hospital Universitario de la
2005. Universidad Libre de Berlín, Berlín, Alemania. De 2000 a 2002,
[31] CJ Holmes, R. Hoge, L. Collins, R. Woods, A. Toga y AC Evans, "Mejora de estuvo en el Departamento de Ciencias de la Computación de la
imágenes de RM mediante el registro para promediar señales".J. Universidad de Albuquerque, Albuquerque, Nuevo México. De
Computación. Asistir. Tomogr., vol. 22, núm. 2, págs. 324–333, 1998. 2002 a 2005, estuvo en la Sección de Control Motor Humano,
[32] L. Molgedey y HG Schuster, "Separación de una mezcla de señales independientes Instituto Nacional de Trastornos Neurológicos y Accidentes
utilizando correlaciones retardadas en el tiempo".Física. Rev. Lett., vol. 72, págs. Cerebrovasculares (NINDS/NIH),
3634–3637, junio de 1994. Bethesda/Maryland. Desde 2005, ha estado en el Instituto Fraunhofer FIRST,
[33] A. Belouchrani, K. Abed-Meraim, JF Cardoso y E. Moulines. (1997, agosto). Una técnica Berlín, donde ha sido líder del grupo "Análisis de datos inteligente" desde 2009.
de separación de fuentes ciega que utiliza estadísticas de segundo orden. Sus intereses de investigación actuales incluyen cálculo directo e inverso, análisis
Traducción IEEE. Proceso de señal., [En línea].45(2), págs. 434–444. Disponible: de series temporales no lineales, separación de fuentes, y conectividad cerebral en
http://dx.doi.org/10.1109/78.554307 el contexto del análisis de datos de electroencefalografía/magnetoencefalografía.
[34] A. Ziehe y K.-R. Müller, "TDSEP: un algoritmo eficiente para la separación ciega
utilizando estructura de tiempo", enProc. En t. Conf. Artif. Red neuronal.
(ICANN 1998), págs. 675–680.
[35] A. Ziehe, K.-R. Müller, G. Nolte, B.-M. Mackert y G. Curio, "Reducción de artefactos en
magnetoneurografía basada en correlaciones de segundo orden retardadas en el
tiempo".Traducción IEEE. Biomédica. Ing., vol. 47, núm. 1, págs. 75 a 87, enero de
2000.
[36] A. Ziehe, P. Laskov, G. Nolte y K.-R. Müller. (2004, diciembre). Un algoritmo rápido Klaus-Robert MüllerRecibió el Diploma en Física
para la diagonalización conjunta con transformaciones no ortogonales y su Matemática en 1989 y el Ph.D. Licenciado en
aplicación a la separación ciega de fuentes.J. Mach. Aprender. Res., [En línea]. 5, informática teórica en 1992, ambos de la
págs. 777–800. Disponible: http://portal.acm.org/citation.cfm?id=1016784 Universidad de Karlsruhe, Karlsruhe, Alemania.
[37] P. Tichavský y Z. Koldovský, "Emparejamiento óptimo de componentes de señal De 1992 a 1994, fue postdoctorado en Gesellschaft
separados por técnicas ciegas",Proceso de señal IEEE. Letón., vol. 11, núm. 2, págs. für Mathematik und Datenverarbeitung mbH (GMD)
119-122, febrero de 2004. FIRST, Berlín, Alemania. De 1994 a 1995, fue
[38] P. von Bünau, FC Meinecke, F. Király y K.-R. Müller, "Encontrar subespacios investigador de la Comunidad Europea en la
estacionarios en series de tiempo multivariadas",Física. Rev. Lett., vol. 103, Universidad de Tokio, Tokio, Japón. En 1995, fue el
págs. 214101-1–214101-4, 2009. fundador del grupo de Análisis Inteligente de Datos en
[39] S. Haufe, VV Nikulin, A. Ziehe, K.-R. Müller y G. Nolte, “Estimación de campos vectoriales GMD FIRST (más tarde Fraunhofer FIRST) y
utilizando expansiones de campos de base dispersa”, enAvances en los sistemas de lo dirigió hasta 2008. De 1999 a 2006 fue profesor de informática en la Universidad de
procesamiento de información neuronal,vol. 21, D. Koller, D. Schuurmans, Y. Bengio y L. Potsdam, Potsdam, Alemania. Desde 2006, ha sido profesor de informática en el Instituto
Bottou, Eds. Cambridge, MA: MIT Press, 2009, págs. 617– Tecnológico de Berlín (TU Berlin), Berlín, y también director del Bernstein Focus on
624. Neurotechnology Berlin, Goettingen, Alemania. Sus intereses de investigación actuales
[40] M. Mørup, LK Hansen, SM Arnfred, LH Lim y KH Madsen, "Descomposición incluyen el análisis de datos inteligentes, el aprendizaje automático, el procesamiento
multilineal invariante de cambios de datos de neuroimagen" NeuroImagen, estadístico de señales y la teoría del aprendizaje estadístico con focos de aplicación en
vol. 42, págs. 1439-1450, octubre de 2008. finanzas computacionales, química computacional, neurociencia computacional, análisis
de datos genómicos y el estudio de la interfaz entre el cerebro y la máquina: basado en
electroencefalografía no invasiva. interfaz cerebro-computadora.

El Dr. Müller recibió el Premio Olympus de la Sociedad Alemana de


Reconocimiento de Patrones (DAGM) en 1999 y el Premio de Comunicación Alcatel
SEL en 2006.
Stefan HaufeRecibió el Diploma en Ciencias de la Computación
de la Universidad Halle, Halle, Alemania, en 2005. Actualmente
está trabajando para obtener el doctorado. Licenciado en el
grupo de aprendizaje automático del Prof. Müller del Instituto
Tecnológico de Berlín, Berlín, Alemania.
Sus intereses de investigación actuales incluyen la
localización de fuentes de electroencefalografía/
magnetoencefalografía y el análisis de conectividad, con Motoaki Kawanaberecibió el B.Eng., M.Eng. y Ph.D.
aplicaciones en la interfaz cerebro-computadora y el Licenciatura en estadística matemática del
monitoreo del estado mental. Departamento de Ingeniería Matemática de la
Universidad de Tokio, Tokio, Japón, en 1990, 1992 y
1995, respectivamente.
Fue profesor asistente en el Departamento de
Ingeniería Matemática de la Universidad de Tokio.
Actualmente es Investigador Senior en el Instituto
Fraunhofer FIRST, Berlín, Alemania. Sus intereses de
investigación incluyen la ingeniería biomédica y el
Ryota Tomiokarecibió el BE, MS y Ph.D. títulos de análisis de datos multimedia.
la Universidad de Tokio, Tokio, Japón, en 2003,
2005 y 2008, respectivamente.
De 2008 a 2009, fue becario postdoctoral en el Departamento
de Ciencias de la Computación del Instituto de Tecnología de
Tokio, Tokio. Desde 2009 es profesor asistente en el
Departamento de Informática Matemática de la Universidad de
Tokio. Sus intereses de investigación actuales incluyen el
aprendizaje automático, la optimización, la reconstrucción de
señales/imágenes y sus aplicaciones.

También podría gustarte