Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tesis Doctoral
2009
DEPARTAMENTO DE AUTOMÁTICA, INGENIERÍA ELECTRÓ NICA
E INFORMÁTICA INDUSTRIAL
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES
Tesis Doctoral
2009
T´ıtulo:
COMUNICACIÓN CON COMPUTADOR MEDIANTE SEÑALES
CEREBRALES. APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.
Autor:
José Luis Martı́nez Pérez.
Tribunal:
Vocales :
XXXXXXX
Secretario : XXXXXXX
Suplentes :
Madrid, XX de YY de 2008
A mi padre y madre: Luis y Eladia.
Resumen
ix
Índice general
Lista de Figuras. XV
1. Introducción. 1
1.1. La tecnolog´ıa de Interfaz Cerebro Computador. . . . . . . . . . . . . . . . . 1
1.1.1. Clasificación de dispositivos ICC. . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Componentes de un dispositivo ICC. . . . . . . . . . . . . . . . . . . 5
1.2. Aplicación de la tecnologı́a ICC. . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1. Ciencia de la rehabilitación. . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2. Teleoperación de robots industriales. . . . . . . . . . . . . . . . . . . 11
1.2.3. Sector militar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.4. Sector del ocio y entretenimiento. . . . . . . . . . . . . . . . . . . . . 11
1.3. Motivaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Objetivos de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Aportaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Estructura de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Estado de la técnica. 15
2.1. Fundamentos fisiológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1. Fisiolog´ıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2. La neurona. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. El Sistema Nervioso. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.4. El Cerebro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2. Técnicas para la adquisición de actividad cerebral. . . . . . . . . . . . . . . 27
2.2.1. Electroencefalografı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2. Magnetoencefalografı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.3. Imagen cerebral mediante rayos X. . . . . . . . . . . . . . . . . . . . 41
2.2.4. Imagen cerebral mediante imagen nuclear. . . . . . . . . . . . . . . . 42
2.2.5. Imagen cerebral mediante tomograf´ıa computerizada. . . . . . . . . . 43
2.2.6. Imagen cerebral: MRI. . . . . . . . . . . . . . . . . . . . . . . . . . . 44
XII ÍNDICE GENERAL
4. Tipologı́a de clasiftcadores. 67
4.1. Métodos estadı́sticos : Comparación de dos poblaciones ...................................... 68
4.1.1. Introducción ................................................................................................... 68
4.1.2. Descripción del test de contraste de la igualdad de dos poblaciones ...... 71
4.1.3. Procedimiento operacional ............................................................................................74
4.2. Métodos estadı́sticos: Análisis por discriminantes lineales .................................... 77
4.2.1. Introducción ................................................................................................... 77
4.2.2. Referencia histórica ....................................................................................... 78
4.2.3. Discriminación lineal clásica ........................................................................ 78
4.2.4. Discriminante lineal de Fisher .....................................................................................80
4.2.5. Procedimiento operacional ............................................................................................82
4.3. Clasificadores basados en redes neuronales ......................................................................... 83
4.3.1. Clasificador Perceptrón Multicapa MLP .................................................... 85
4.3.2. Clasificador basado en red neuronal de tipo RBF ............................................ 94
4.3.3. Clasificador basado en red neuronal de tipo PNN .......................................... 102
4.4. Clasificador bietapa basado en Modelo Oculto de Markov y RBF ......................... 104
4.4.1. Descripción Modelo Oculto de Markov .................................................... 104
4.4.2. Solución a los problemas canónicos ........................................................... 107
4.4.3. Densidades de observación continuas en MOM ....................................... 114
4.4.4. Tipos de Modelos Ocultos de Markov .......................................................................115
4.4.5. Consideraciones prácticas en la implementación de Modelos Ocultos
de Markov ..................................................................................................................................122
4.4.6. Descripción del algoritmo de clasificación bietapa .................................. 125
4.5. Clasificador basado en Máquina de Soporte de Vectores .................................... 129
4.5.1. Introducción a las Máquinas de Soporte de Vectores ............................. 129
4.5.2. Descripción del clasificador lineal óptimo ................................................ 130
4.5.3. Descripción del problema de optimización lineal .................................... 131
4.5.4. Margen blando.................................................................................................................. 133
ÍNDICE GENERAL XIII
Introducción.
En cuanto a las técnicas empleadas para procesar la señal existen numerosas opciones
disponibles para el procesamiento de señal ICC. La decisión del criterio a aplicar
vendrá dado por la comparación de medidas de velocidad y precisión en experimentos
en l´ınea.
Métodos de procesamiento de señal son importantes en el diseño de sistemas ICC,
pero no resuelven todos los problemas. Pueden mejorar las relación señal ruido, pero
no pueden tratar directamente con los cambios de la señal, por lo que el desarrollo de
la tecnologı́a ICC depende del manejo apropiado de la interacción adaptativa entre
el usuario y el sistema, ası́ como en la selección del método de procesamiento de
señal adecuado.
Los objetivos deben ser claramente definidos, as´ıcomo las necesidades hacia las que va
destinado, deseos y motivadores primarios, aplicaciones y utilización por parte del usuario,
para todo lo cual será preciso el análisis comportamental del conjunto, incluido el usuario.
El desarrollo de ICC no sólo debe incorporar principios técnicos y electrofisiológicos, sino
que también es preciso bases de aprendizaje bien definidas, [Florian 98], [Harrington 97].
Usuarios con una enfermedad progresiva, como por ejemplo Esclerosis Lateral
Amiotrófica, ELA, podrı́an utilizar dispositivos ICC que particularizaran sus
caracterı́sticas de entrada al usuario y su salida controlará un interfaz convencional
de comunicación aumentada, [Reilly 99], [Isaacs 00]. De tal modo que según avance la
enfermedad, el usuario podrı́a realizar una transición suave, del uso del interfaz de
comunicación aumentada estándar al dispositivo ICC, [Jacques 94].
El desarrollo reciente y la aplicación comercial de “Freehand Functional Electrical
Stimulation system (FES)” en “Case Western Reserve University”, Cleveland OH.,
demuestra las condiciones necesarias para el éxito, [Lauer 00]. Estas condiciones incluyen:
estabilización de todos los aspectos de diseño y documentación, una población de usuarios
bien definida, protocolos de entrenamiento normalizados, demostración de la viabilidad de
aplicaciones especı́ficas, medida de caracterı́sticas de salida bien definidas que documenten
adecuadamente el uso y eficiencia, asistencia regular en varios centros y la identificación
de centros de fabricación y estrategia de comercialización. Todo lo cual requiere la
colaboración de los usuarios y el convencimiento por parte de los mismos de que la
tecnologı́a empleada es útil y segura. Es también precisa la cooperación de profesionales
de centros de salud, los cuales deben convencerse de que la relación beneficio / riesgo es
favorable, que la tecnologı́a es segura y útil, y que es igual o superior a las alternativas
actualmente disponibles. Por último es preciso convencer a las compañı́as de seguros, que
a largo plazo la inversión realizada en este tipo de tecnologı́a será recuperada con creces.
Pacientes que estén paralizados, o con daño traumático que afecte a la médula
espinal, o prótesis en extremidades superiores, se podrı́an beneficiar de la aplicacion
de la tecnolog´ıa ICC, siempre y cuando sea segura y efectiva. Para ser justificable, un
sistema implantado debe ofrecer una sustancial ventaja funcional sobre la tecnolog´ıa de
comunicación aumentada convencional o métodos ICC no invasivos.
Las áreas de aplicación en las que se propone la utilización de esta tecnologı́a son:
que permitan ha personas paralizadas comunicarse bien con el entorno que les
rodea, [Birbaumer 03], [Robinson 00a], [Birbaumer 00], o bien con un entorno simulado,
[Bayliss 03], o mejorar su capacidad de movimiento ayudándose con dispositivos robóticos,
por ejemplo el control de movimiento de prótesis mecánicas de miembros perdidos, [Bai 01],
[Birch 00], [Kositsky 03]. Del mismo modo se han desarrollado prototipos para el control
de sillas de ruedas motorizadas, [Birch 00], [Millan 03], [Millan 04], [Gerstner 04].
Además de su empleo en casos de parálisis asociados con accidentes traumáticos,
Esclerosis Lateral Amiotrófica, [Leeb 05], u otras enfermedades neurodegenerativas, la
tecnolog´ıa ICC ha sido propuesta como posible v´ıa de comunicacion afasia y otros
desórdenes de comunicación, como autismo, haciendo que la persona autista interaccione
con entornos virtuales 3D, cuya complejidad aumenta progresivamente aproximándose a
la real según criterio del rehabilitador, [Birbaumer 00]. Mediante la prevención de las
zonas de lenguaje comprometidas de la zona del cortex temporal-frontal, y por medio del
mecanismo de plasticidad cerebral, [Ratey 03], [Bronzino 95b], [Jessell 91], se podrı́an
concebir mecanismos de comunicación, siendo una alternativa efectiva para pacientes que
no puedan controlar el alfabeto, o un sistema de representación pictórica.
Como bancos de demostración se han desarrollado prototipos que permiten el control
unidimensional y bidimensional de un cursor en la pantalla de un computador, empleando
los resultados obtenidos en aplicaciones para deletrear palabras y teclados de conceptos,
[Donchin 00], [Allison 03], [Bayliss 00], [Bianchi 03].
1.2.2. Teleoperación de robots industriales.
En el campo de la teleoperación de dispositivos se han hecho demostradores
tecnológicos que evalúan la aplicabilidad de la tecnologı́a ICC en la teleoperación de robots
industriales, [Chapin 99], [Taylor 03], [HONDA 09].
1.2.3. Sector militar.
El sector militar fue el que a través de las investigaciones en biónica del Dr. J.J.Vidal,
en la década de los 70, dio lugar al nacimiento de esta tecnologı́a, [Vidal 77].
En la actualidad la tecnologı́a ICC, basando en el efecto de realimentación neuronal3 ,
se emplea en el entrenamiento avanzado de pilotos de combate para potenciar la
concentración en misiones que requieren un alto nivel de alerta, ası́ como la gestión y
evaluación de riesgos en el menor tiempo posible, [NASA 08].
1.2.4. Sector del ocio y entretenimiento.
En este área, compañı́as como IBVA (http://www.ibva.com), proponen el empleo de
dispositivos basados en tecnologı́a ICC como medio para el desarrollo de actividades lúdico-
creativas, como la composición de música a través del tratamiento de los ritmos cerebrales.
Ası́ mismo es de esperar que mediante la utilización de técnicas basadas en
Neurofeedback, se desarrollen dispositivos de uso personal, que permitan ser aplicados
junto con técnicas de relajación al objeto de combatir los altos niveles de estrés presentes
en la sociedad actual.
3
En inglés a esta técnica se la denomina “Neurofeedback”
12 Introducción.
Descripción detallada de las bases fisiológicas en las que se basa la tecnologı́a ICC
en sus diferentes versiones.
Estado de la técnica.
En este capı́tulo se comienza dando unas nociones básicas de la fisiologı́a del sistema
nervioso, necesarias para comprender los principios biológicos en los que se fundamenta
la tecnolog´ıa de Interfaz Cerebro Computador, que si bien pueden ser innecesarias para
investigadores familiarizados con ciencias biológicas, pueden no serlo tanto para
investigadores del área de las ingenierı́as, menos familiarizados con las bases fisiológicas
del sistema nervioso.
Posteriormente se hace una revisión de las técnicas empleadas para la adquisición
de señal de la actividad cerebral, entre las que se encuentran la electroencefalografı́a,
magnetoencefalografı́a y diversas técnicas aplicadas en imagen médica como: imagen
cerebral por rayos X, imagen nuclear, tomograf´ıa computerizada, imagen de resonancia
magnética, tomografı́a computerizada por emisión individual de fotones (SPECT),
tomografı́a por emisión de positrones (PET); a la vez que se analiza su aplicabilidad a
la tecnolog´ıa de Interfaz Cerebro Computador.
Seguidamente se analizan las referencias históricas sobre el desarrollo de la tecnologı́a
ICC, para finalmente presentar el estado actual en el que se encuentra esta tecnolog´ıa.
2.1.1. Fisiologı́a.
La fisiolog´ıa es la ciencia que tiene por objeto el estudio de las funciones de los seres
orgánicos. Su aplicación al sistema nervioso es clave para comprender las diferentes
variantes que existen sobre ICC.
El estudio de la fisiolog´ıa del sistema nervioso humano no es reciente, existen referencias
en las que sacerdotes del antiguo Egipto pretendı́an reconocer a través de la inspección
visual de la cabeza los instintos, sentimientos y hasta la capacidad intelectual de la persona
en cuestión. La civilización griega adquirió y mejoró dichos conocimientos, dando lugar al
nacimiento de ciencias como la Psicologı́a, o a representaciones artı́sticas de dioses o héroes,
en donde la configuración de la cabeza estaba en armonı́a con los atributos y facultades
que se querı́an presentar al pueblo llano en sus formas más palpables. Los escritos más
antiguos acerca del particular son los de Platón o Aristóteles [Velázquez 97].
En el siglo IX de nuestra era, el fı́sico y médico Avicena investigó sobre la localización de
las facultades cerebrales [Chinchilla 43]. Investigaciones que fueron retomadas por Alberto
el Grande cuatrocientos años después, en el siglo XIII, quien dibujó una cabeza en la
que representó el sitio en que radicaban las diferentes facultades humanas [Espinoza 03],
colocó el sentido común en la frente o en el primer ventrı́culo, el juicio en el segundo, la
memoria y la fuerza motriz en el tercer ventr´ıculo.
Trabajos similares fueron realizados en Italia por Pedro de Montagna, quien en 1491
publica su obra adornada con una lámina que representaba el sitio del sentido común y la
imaginación dentro de la cabeza [Montaner 91].
2.1.2. La neurona.
La unidad fundamental del
sistema nervioso de los vertebrados
y del hombre es la neurona, veanse
las figuras 2.2 y 2.3, su capacidad de
transferir información de una
parte del organismo a otra en forma
de impulsos electroquı́micos la
distingue del resto de las células;
desde un punto de vista abstracto es
probablemente la célula del cuerpo
más variable atendiendo tanto a su
forma como a su tamaño.
Toda neurona está compuesta
por tres partes básicas: Figura 2.3: Neuronas.
La longitud de las neuronas es muy variable, puede ir desde unos pocos milı́metros hasta
algunos decı́metros, como en el caso de neuronas cerebrales y táctiles respectivamente. De
igual modo la forma también es muy variable dependiendo de la actividad que lleven a cabo,
las neuronas motoras que controlan la contracción muscular tienen el cuerpo de la célula
en un extremo, un axón largo en el medio y dendritas en el otro extremo; mientras que
las neuronas sensoras tienen dendritas en ambos extremos, conectados por largos axones
con el cuerpo en el medio. Las neuronas también varı́an con respecto a sus funciones:
Neuronas sensoras o aferentes. Transportan señales desde zonas externas del cuerpo
(periferia) hacia el sistema nervioso central.
2.1 Fundamentos ftsiológicos. 19
No todos los tipos de actividad neuronal tienen el mismo tipo de impacto sobre los
registros electroencefalográficos. Factores como la profundidad, orientación y la simetrı́a
intr´ınseca de las conexiones en el cortex, presentan una marcada influencia sobre dichos
registros. Las células de mayor importancia en el neocortex son las de tipo piramidal. Es
conocido que sus neurotransmisores son potentes transmisores excitatorios. Las células
piramidales reciben muchas entradas de células tipo estrella, que también son de tipo
excitatorio. Las células piramidales, a diferencia de otro tipo de neuronas, permiten que
los axones produzcan potenciales de acción, que transmiten información de una neurona
a otra, mientras que en las dendritas se pueden producir potenciales lentos, tanto de tipo
excitatorio como inhibitorio, que se suman al del axón. En el caso de las neuronas
piramidales, las dendritas apicales, con forma de eje alargado entre la región basal y la
apical, pueden provocar potenciales de acción, que a su vez actúan para amplificar los
potenciales de acción producidos por las salidas de los sistemas sensorial, motor o
autónomo. Por esta razón se considera que, las neuronas piramidales son las causantes de la
porción más significativa de la señal electroencefalográfica.
Nervios espinales. Los nervios espinales salen desde las vértebras y se distribuyen
por las regiones del tronco y las extremidades. Se encargan de enviar información
sensorial (tacto, dolor y temperatura) del tronco y las extremidades, as´ı como de la
posición y el estado de la musculatura y las articulaciones del tronco y las
extremidades hacia el sistema nervioso central; desde el mismo reciben órdenes
motoras para el control de la musculatura esquelética que se conducen por la médula
espinal.
Los 31 pares de nervios están interconectados, formando dos plexos: el braquial, que se
dirige a las extremidades superiores, y el lumbar que alcanza las inferiores.
Los nervios craneales se extienden desde la cabeza y el cuello hasta el cerebro pasando
a través de las aberturas del cráneo; los nervios espinales o medulares están asociados
con la médula espinal y atraviesan las aberturas de la columna vertebral. Ambos tipos de
nervios se componen de un gran número de axones que transportan los impulsos hacia el
2.1 Fundamentos ftsiológicos. 25
sistema nervioso central y llevan los mensajes de éste hacia el exterior. Las primeras vı́as
se llaman aferentes y las últimas eferentes. En función de la parte del cuerpo que alcanzan,
a los impulsos nerviosos aferentes se les denomina sensitivos y a los eferentes, somáticos o
motores viscerales. La mayor´ıa de los nervios son mixtos, es decir, estan constituidos por
elementos motores y sensitivos.
El Sistema Nervioso Negetativo está compuesto por grupos de fibras de neuronas
motoras que llevan los impulsos nerviosos a los órganos que se encuentran en las cavidades
del cuerpo, como el corazón, pulmones, estómago, intestinos, páncreas, hı́gado, etc.,
permitiendo su regulación. El Sistema Nervioso Vegetativo se divide en dos secciones con
una función más o menos antagónica y con unos puntos de origen diferentes al Sistema
Nervioso Central. Las fibras del Sistema Nervioso Vegetativo Simpático se originan en la
región media de la médula espinal, unen la cadena ganglionar simpática y penetran en
los nervios espinales, desde donde se distribuyen de forma amplia por todo el cuerpo. Las
fibras del Sistema Nervioso Vegetativo Parasimpático se originan por encima y por debajo
de las simpáticas, tanto en el cerebro como en la parte inferior de la médula espinal. Estas
dos secciones controlan las funciones de los sistemas respiratorio, circulatorio, digestivo y
urogenital.
26 Estado de la técnica.
2.1.4. El Cerebro.
El cerebro humano, comparado con el de los demás seres vivos, tiene un volumen y
estructura tan diferenciados, que dan idea de la preeminente importancia que posee el
cerebro para el total funcionamiento del organismo; incluso los mismos procesos psı́quicos
no pueden desarrollarse enteramente sin su integridad.
El cerebro está dividido en dos hemisferios, separados por un surco medio profundo, la
cisura interhemisférica, dichos hemisferios están comunicados entre sı́ mediante el Cuerpo
Calloso, que se extiende desde el fondo de la cisura interhemisférica hasta la base cerebral.
La superficie se denomina corteza cerebral, está formada por replegamientos
denominados circunvoluciones; su parte inferior presenta en su tercio posterior una forma
arriñonada, separada del tercio anterior por la cisura de Silvio, que junto con la cisura de
Rolando y la occipital dividen cada hemisferio en los diferentes lóbulos: frontal, parietal,
temporal y occipital, véase la figura 2.12.
Subyacente a la misma se encuentra por arriba el cuerpo calloso y el quiasma óptico,
espacio perforado anterior, hipófisis, tubérculos mamilares y espacio perforado posterior
en la base. En el interior del cerebro se encuentran una serie de cavidades, los ventr´ıculos
cerebrales, que se comunican entre sı́ y están llenos de lı́quido cefalorraquı́deo.
En una sección del cerebro es posible ver la sustancia gris y la sustancia blanca. La
primera se caracteriza por una gran densidad de células nerviosas y comprende a la corteza
cerebral y a diversos núcleos: tálamo óptico, hipotálamo, núcleo caudado, núcleo lenticular,
y a la amı́gdala. La sustancia blanca tiene, en su mayor parte, una estructura más sencilla:
fibras nerviosas sostenidas por un armazón de neuroglia; algunas de estas fibras conectan
neuronas situadas en porciones similares de ambos hemisferios, otras unen distintas zonas
de un mismo hemisferio, finalmente algunas se dirigen desde la corteza cerebral a centros
del cerebro dispuestos en niveles inferiores y en otras porciones del sistema nervioso
central. Aunque nada se ha demostrado sobre el modo en como se conectan en la corteza
los procesos neurológicos con los psı́quicos, sı́ se ha observado que la lesión de ciertas
áreas de la corteza cerebral provoca la alteración de funciones, lo que ha permitido que
muchas funciones motoras y sensoriales hayan sido asociadas a zonas especı́ficas de la
corteza cerebral, ver figura 2.12. Por lo general, estas áreas aparecen en ambos hemisferios
cerebrales y están al servicio del lado opuesto del cuerpo.
Las áreas de asociación no están bien definidas y se localizan sobre todo en la parte
frontal de la corteza. Están involucradas en funciones del pensamiento y emocionales, y
relacionan los estı́mulos recibidos desde los diferentes sentidos. Las áreas del lenguaje son
una excepción: tanto el área de Wernicke, que está relacionada con la comprensión del
lenguaje hablado, como el área de Broca, que gobierna la producción del habla, han sido
localizadas de forma precisa en la corteza.
El cerebro es un órgano extraordinariamente vascularizado, como corresponde a sus
necesidades metabólicas, de modo que cualquier accidente vascular (trombosis, embolia,
hemorragia) reviste gran importancia por las lesiones y consecutivos trastornos funcionales
que origina.
2.2 Técnicas para la adquisición de actividad cerebral. 27
2.2.1. Electroencefalografı́a.
La electroencefalografı́a es la parte de la medicina que trata de la obtención e
interpretación de registros gráficos obtenidos por medio de electroencefalógrafos, estos
dispositivos registran las corrientes eléctricas producidas por la actividad del encéfalo
[Baker 89].
28 Estado de la técnica.
Para el registro de la actividad eléctrica del cerebro se pueden utilizar tres tipos
de electrodos: superficiales, corticales e intracorticales. Cuando se emplean electrodos
superficiales el registro se denomina electroencefalograma (EEG), mientras que si los
electrodos se disponen sobre la superficie expuesta del cerebro al registro se denomina
electrocorticograma (ECoG), por último, si se utilizan electrodos intracorticales se
emplea el termino registro profundo para denominar a esta técnica, [Webster 04]. Con
independencia del tipo de electrodo, las variaciones de potencial registradas representan
la actividad de neuronas en las que se están produciendo los correspondientes potenciales
de acción y fluctuaciones de membrana.
denominó “ritmo alfa”. Este ritmos desaparece cuando el sujeto se concentra, se muestra
alerta o focaliza su atención en objetos de su campo visual. No es hasta 1949 cuando
Moruzzi y Magoun establecen las bases fisiológicas de dichas observaciones, demostrando
la existencia de caminos ampliamente distribuidos a través del núcleo reticular central
del tallo cerebral, que son capaces de ejercer una influencia de activación sobre el cortex
cerebral. A este sistema de activación reticular se la ha llamado selector de respuesta
cerebral, debido a que alerta al cortex para focalizarse en ciertas piezas de información
entrante, mientras que otras son descartadas [Webster 95].
[Webster 78], introdujo la técnica de promediado de señal, ya que aun disponiendo los
electrodos sobre las zonas adecuadas del cráneo los registros que se obtienen no son claros
debido a la actividad de base del cerebro, esta técnica asume que el potencial evocado
se encuentra temporalmente asociado al est´ımulo, mientras que la actividad de fondo del
cerebro se trata como una señal aleatoria, el tiempo de retardo entre la aparición del
potencial evocado y la generación del estı́mulo da lugar al criterio de denominación, as´ı
por ejemplo los potenciales evocados P300 son aquellos que se detectan transcurridos
unos 300mseg desde que se provoca el est´ımulo hasta que se detecta el potencial.
En la actualidad con los convertidores analógico/digital y los micropocesadores esta
técnica es fácilmente realizable. El primer paso consiste en realizar un filtro paso banda
de la señal electroencefalográfica, de modo que sólo es considerado el rango de frecuencias
adecuado, valores t´ıpicos de los filtros paso banda son de 0.25 - 25 Hz. Posteriormente la
señal EEG se muestrea convirtiéndola en digital, frecuencias de muestreo tı́picas son
100 Hz o superiores. La resolución de amplitud depende del número de bits seleccionados,
valores comunes son 8, 12 y 16 bits. Los potenciales evocados promediados son procesados
por la alineación de muestras temporales después del estı́mulo y sumadas sus amplitudes
algebraicamente. El potencial evocado surge de la actividad de fondo en proporción al
número de grabaciones estı́mulo - respuesta analizadas. Se demuestra que si la respuesta
evocada es √ la señal (S) y el EEG de fondo tiene un ruido (R), la relación señal ruido
(S/R) es (n)(S/R), donde n es el número de secuencias estı́mulo - respuesta analizadas.
Valores t´ıpicos son n = 100 o superiores.
2.2.2. Magnetoencefalografı́a.
La magnetoencefalografı́a es la parte de la medicina que trata de la obtención e
interpretación de registros gráficos obtenidos por magnetoencefalógrafos, estos dispositivos
registran los campos magnéticos provocados por las corrientes eléctricas producidas por
la actividad del encéfalo.
La magnetoencefalografı́a se basa en la detección de los campos magnéticos, que se
originan cuando se produce el movimiento de iones a través de las membranas celulares,
durante la activación (despolarización) y recuperación (repolarización) de las neuronas.
Ya que la naturaleza del principio en el que se basa la magnetoencefalografı́a es el
mismo que la electroencefalografı́a, ambas reflejan el mismo tipo de evento, aunque cada
una suministra información en modo diferente. En el caso de la magnetoencefalografı́a
apenas se produce atenuación del campo magnético al atravesar la señal el tejido vivo,
mientras que en el caso de la electroencefalografı́a el voltaje medido es altamente atenuado.
Por otro lado la magnetoencefalografı́a permite la determinación de la localización y
la dirección de la fuente bioeléctrica activa, ya que el campo magnético es direccional, sin
que sea preciso el contacto directo entre el cuerpo y el dispositivo sensor, es decir, es un
método sin electrodos.
Sin embargo la intensidad del campo magnético producido por las neuronas es muy
pequeño, ver figura 2.21, por lo que es necesario disponer de salas con aislamiento
magnético y emplear la técnica de promediado de la señal adquirida para obtener unas
adecuadas relaciones señal ruido [Baker 89].
Magnetoencefalogramas
promediados de campos
magnéticos auditivos evo-
cados han sido reportados
por el grupo de Dr. Hari
en 1980, junto con los po-
tenciales auditivos evocados
[Baker 89]. La figura 2.23
ilustra los potenciales audi-
tivos evocados registrados
por un electrodo en Pz, y los
campos magnéticos evocados
en las localizaciones P3 y F7,
sobre el lado izquierdo de la
cabeza.
Figura 2.22: Magnetocardiograma.
El est´ımulo consist´ıa en un
pulso de frecuencia 1KHz de
0,8seg de duración presenta-
do simultáneamente en ambos
o´ıdos. El tiempo entre pulsos
era de 4seg. El magnetoence-
falograma muestra tres com-
ponentes a 100 y 180 mseg
y la componente continua del
campo. La polaridad para di-
chas componentes fue estudia-
da en varios emplazamientos
sobre el hemisferio derecho a
lo largo de la cisura de Silvio,
las cruces representan campos
entrantes, los c´ırculos cerra-
dos campos salientes. Se de-
muestra que aunque el área
auditiva se extiende sobre el
lóbulo temporal, existen res-
puestas corticales que se re-
parten a todo lo largo del ce-
rebro, tal y como demuestran
los potenciales auditivos evo-
cados. Del mismo modo el Dr.
Okada en 1981, realizó mag-
netoencefalogramas de la res-
puesta sensora evocada sobre
el hemisferio cerebral izquier-
do debida a la estimulación Figura 2.24: Magnetoencefalograma con campos magnéticos
del nervio medio derecho sensitivos inducidos.
utilizando pulsos de 1milisegundo de duración con una frecuencia de repetición de 1.9Hz.
La figura 2.24 muestra las respuestas obtenidas en diferentes posiciones sobre el cráneo a
lo largo de la cisura de Rolando, el registro comienza en la sien y se desplaza 1 cm hacia
abajo. La localización cortical mostrada por los campos magnéticos sensoriales evocados es
similar a la obtenida con los potenciales sensoriales evocados. A pesar de su utilización por
más de dos décadas, el futuro de la magnetoencefalografı́a aún no se puede predecir, como
herramienta de investigación es extremadamente útil por su capacidad de localizar fuentes
bioeléctricas, pero el coste asociado para su implantación es su principal desventaja en la
medicina cl´ınica.
2.2 Técnicas para la adquisición de actividad cerebral. 41
hecho con 11 C. Si una porción del cerebro se encuentra activada, el incremento del flujo
de sangre transporta el isótopo hasta ella, apareciendo en la imagen. Funcionamientos
anormales, tumores, ataques y otro tipo de anomal´ıas pueden ser mapeados de este modo.
Por ejemplo, medidas del metabolismo de FDG (glucosa-fluordeoxyglucosa) se emplea
para determinar el crecimiento de tumores. La detección de tumores tempranos es posible
antes de que se produzcan cambios estructurales detectables mediante MRI o CT, ya que
pequeñas cantidades de FDG pueden ser visualizadas [Webster 78], [Baker 89].
3
SPECT: Single-photon emission computed tomography.
46 Estado de la técnica.
Este experimento demostró que utilizando únicamente dos electrodos, se podrı́a controlar el
movimiento bidimensional de un cursor.
Al año siguiente, este mismo grupo mostró su sistema ICC en lı́nea, basado en detectar
potenciales de generación en dos electrodos sobre las zonas C3 y C4 de cortex senso-
motor. Un voluntario fue entrenado durante cuatro sesiones de media hora, la actividad de
entrenamiento consistió en el movimiento horizontal de un cursor en pantalla. El
procedimiento de adquisición de la señal fue el siguiente:
1. Un pitido prepara al usuario para el comienzo de la actividad.
2. Un segundo después se indica la dirección objetivo, mostrando un cuadrado en la
zona izquierda o derecha de la pantalla.
3. Al cabo de otro segundo, aparece un cursor en el medio de la pantalla, indicando
que el usuario debe presionar el pulsador adecuado.
Una sesión de grabación queda compuesta por unos ochenta intentos. En cada sesión
la señal del segundo en el que se planifica el movimiento es procesada para obtener
los valores espectrales de potencia. Utilizando estos datos y la dirección de movimiento
actual, se produce el aprendizaje de la asociación de movimientos planificados con
movimientos reales. Tras una sesión de entrenamiento el clasificador predice un 70 % de
movimientos correctamente, al cabo de cuatro esta cifra se incrementa hasta un 85 %. Lo
cual demuestra que el usuario modifica su señal electroencefalográfica mediante el empleo
de biorealimentación.
En 1994 el grupo del Dr. Pfurtscheller mostró como movimientos de los dedos ı́ndice
derecho e izquierdo, movimientos del pı́e y de la lengua podı́an ser identificados mediante
sus ERD’s. Aplicaron el hecho de que movimiento de los dedos o mano son acompañados
por el bloqueo del ritmo μ y por un corto retardo del ritmo γ (30-40Hz ERS). Emplearon
ocho electrodos dispuestos en una matriz rectangular sobre la zona senso-motora y
realizaron la estimación de potencia espectral en las siguientes bandas para cada señal: 10-
12 Hz (dedos y lengua), 30-33 Hz (dedos del pie), 38-40Hz(dedos y lengua). La estimación
se realizaba cada 250 mseg.
Este trabajo llevó al diseño del segundo sistema ICC en Graz, con el cual controlar
tres tipos diferentes de movimientos. La señal ERD asociada con el movimiento de los
dedos ´ındice derecho e izquierdo o del pie derecho fue registrada en tres canales EEG
bipolares (6 electrodos sobre la zona del cortex senso-motora). La estimación de potencia
espectral se calculaba para cada muestra con una duración de 250 mseg. Estas medidas
eran concatenadas cada segundo, para formar un vector que era clasificado por el algoritmo
de aprendizaje. Cuatro voluntarios fueron entrenados en el uso del dispositivo en cuatro
sesiones de 90 min. durante un periodo de dos semanas. Cada sesión consistió en cuatro
bloques de 60 pruebas con un descanso de cinco minutos entre bloques. Cuando la
indicación desaparece, al cabo de 1.25 seg, el voluntario presiona el pulsador con su dedo
ı́ndice derecho, izquierdo, o mueve los dedos del pie derecho hacia arriba. Las señales
electroencefalográficas son clasificadas por el sistema en el siguiente segundo. Los datos
del primer segundo son utilizados para entrenar el clasificador, mientras que en la cuarta
sesión no se muestran los resultados. En las sesiones segunda y tercera, en las que si existe
realimentación de resultados se consigue una exactitud del 81 %, sin embargo en la cuarta
la cifra baja al 77 %.
2.4 Estado actual de la tecnologı́a. 51
10
En terminologı́a inglesa se denomina “Bit Rate”
52 Estado de la técnica.
Adquisición y procesamiento de
señal EEG.
En este capı́tulo se presentan las técnicas de adquisición y procesamiento de señal
electroencefalográfica, previas al empleo de las diferentes técnicas de clasificación descritas
en el capı́tulo 4. Las técnicas de adaptación y procesamiento de señal utilizadas incluyen:
1. Acondicionamiento de la señal electroencefalográfica.
2. Muestreo y cuantificación.
3. Normalización y enventanado.
4. Transformación de la señal del espacio temporal al espacio frecuencial.
5. Obtención del vector de caracterı́sticas.
6. Detección de artefactos.
1
La denominación proviene del sistema internacional de referencia electroencefalográfico 10-20.
58 Adquisición y procesamiento de señal EEG.
Canal 1
+
Canal 2 − Vcc
Canal 3
t
Ventana.
Señal ventaneada.
2|n− M−1
2 |
Ventana triangular o de Bartlett. h(n) = 1 − .
M −1
» q –
I oα ( 2 ) −(n− 2 )
M−1 2 M−1 2
Σ Σ
Ventana de Tukey. h(n) = 1
1 + cos( n−(1+α)(M −1)/2 π)
2 (1−α)(M −1)/2
α(M −1)
2 ≤ |n − M2−1 | ≤ M −1
2 .
los otros dos canales ha podido ser modificada por la actividad electromiográfica debida a
movimientos de los ojos. Ası́ mismo con independencia del análisis de la actividad ocular,
la propia señal electroencefalográfica es sometida a un proceso de detección de artefactos,
en donde se considera que la ventana de análisis en consideración tiene artefactos si
la diferencia en el valor de amplitud entre una muestra y su inmediata anterior es nula o
excede en dos veces el valor de desviación tı́pica de dicha ventana de análisis. Este
procedimiento es similar a la técnica estadı́stica de ’Bootstraping’ empleada en la
identificación y extracción de muestras anómalas del conjunto de muestras bajo estudio
[McLachlan 04], [Peña Sánchez 86].
Si el número de veces que se detectan artefactos en una ventana de análisis es superior a
tres, dicha ventana no se considera como válida para la posterior fase de clasificación. Para
evitar que dicha ventana pueda modificar los resultados obtenidos del resto de ventanas de
análisis de la sesión experimental considerada, su vector de caracterı́sticas es sustituido
por el valor medio del resto de vectores de caracterı́sticas obtenidos de ventanas de análisis
válidas de dicha sesión experimental. Una posible alternativa que causarı́a un menor
impacto podrı́a ser la sustitución del vector de caracterı́sticas de la ventana de análisis
con artefactos por la media de los vectores de caracter´ısticas asociados a las ventanas de
análisis inmediatamente anterior y posterior.
Actualmente en el estudio de la detección y clasificacion de patrones cerebrales
asociados a enfermedades nerviosas (como por ejemplo la epilepsia), basado en el empleo
de EEG, se han propuesto algoritmos que permiten la detección, identificación y
supresión de artefactos, sin embargo estos algoritmos requieren disponer de la señal
electroencefalográfica completa, lo que les hace inviables para su uso en aplicaciones On-
Line con un número reducido de muestras [Tomé 07].
Capı́tulo 4
Tipologı́a de clasificadores.
Las técnicas estadı́sticas permiten fijar el marco con el que realizar el análisis de
la capacidad de discriminación entre las poblaciones de muestras electroencefalográficas
de actividad cerebral mediante las pruebas bilaterales de comparación de poblaciones;
mientras que por su parte mediante la técnica de Análisis de Discriminantes Lineales
se define la metodologı́a a emplear para la reducción de la dimensión del espacio de
caracterı́sticas original a través de la combinación lineal de las mismas.
Tras presentar las técnicas empleadas para el análisis de la capacidad de discriminación
se procede a describir los clasificadores empleados basados en diferentes tipos de tecnolog´ıas
como son: redes neuronales de aprendizaje supervisado (MLP, RBF y PNN), modelos
ocultos de Markov (HMM), y máquinas de soporte de vectores (SVM).
68 Tipologı́a de clasiftcadores.
Buscar hipotesis
alternativa H1
p = P (d ≥ d̂|H0 ) (4.4)
Hay que destacar que el valor de p no se fija a priori, sino que se fija a partir de las
observaciones realizadas. Cuanto menor sea p, menor será la credibilidad de H0 . Ası́ pues la
aceptación o rechazo de H0 dependerá de:
La opinión a priori que se tenga se su validez.
Las consecuencias de sus errores.
La evidencia aportada por la muestra.
4.1 Métodos estadı́sticos : Comparación de dos poblaciones. 71
El nivel de significación se fija en función de los dos primeros, mientras que el nivel crı́tico
pone de manifiesto el tercero.
A parte del nivel de significación, o Error Tipo I, existe el complementario, Error Tipo
II, o la probabilidad de aceptar H0 cuando ésta es falsa:
Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 ƒ= Δ (4.5)
Considerando que:
Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 ƒ= Δ (4.16)
Aunque en este caso, tras realizar el test de comparación de varianzas, la igualdad de la
misma en ambas poblaciones debe ser descartada.
(X̄1 − X̄2 ) − (μ1 − μ2 ) (4.17)
TExp = . ~tf
Sˆ1 Sˆ2
n1 + n 2
TT eo = t(f,1− 2α ) (4.19)
Cálculo matemático.
Imaginación de movimiento.
Relax.
5. Realización del test de contraste de varianzas, realizando una comparación dos a dos
las poblaciones de los vectores de caracter´ısticas, con la finalidad de determinar si las
poblaciones consideradas son homocedásticas o heterocedásticas.
6. Realización del test de contraste de la igualdad de dos poblaciones para cada una de
las parejas de poblaciones analizadas, teniendo en cuenta el resultado anterior del
contraste de varianza asociado a la pareja de poblaciones considerada.
7. Análisis de los resultados de los tests determinando si, para las caracterı́sticas
consideradas de la pareja de actividades cognitivas analizadas, existe evidencia
estadı́sitica de su diferencia en función del tipo de ventana de filtrado utilizada,
en caso de que la diferencia existiera se determina el nivel cr´ıtico p del contraste con
la finalidad de elegir aquellas componentes del vector de caracter´ısticas que mayor
poder de discriminación presentan.
v =⇒ x̃ ∈ X ⊂ Rp
Sea X ⊂ Rp el espacio de caracterı́sticas de entrada; K ⊂ N el número de Ci clases
diferentes consideradas, i = {1, 2, ..., K}.
8
Restricción facilmente asumible a través del Teorema Central del Lı́mite. Esta restricción puede ser
comprobada a través del test de Kolmogorov-Smirnof. [Peña Sánchez 86]
9
Esta restricción puede ser comprobada a través del test de homocedasticidad. [Peña Sánchez 86]
4.2 Métodos estadı́sticos: Análisis por discriminantes lineales. 79
Se pueden identificar tres formas distintas en las que la aproximación de una función,
f , puede ser empleada como clasificador.
f
f: p (4.20)
R −→ C ⊂ N
1. Tomando fk (γx) = p(k|γx) = E[I(Y = k|X = γx)]; k = {1, 2, . . . , K} y f (γx) = (fk (x̃)).
El teorema de Bayes selecciona el maximizador de fk (γx), definiendo la clase objetivo,
tk , como el k-ésimo vector unitario. Aplicando que
3. La aplicación del teorema de Bayes maximiza logP (k| x̃), a la vez que el modelo
logı́stico múltiple es un modelo lineal para estas funciones logarı́tmicas de
probabilidad a posteriori. Variantes con menor fundamento pero ampliamente usadas
son modelos log´ısticos independientes para cada clase, que se comparan contra el
resto o contra las clases de referencia [Ripley 96].
Una aproximación alternativa consiste en asignar las n muestras del conjunto de
entrenamiento a g grupos de observaciones, los cuales a su vez son asignados a las K
clases objetivo.
v =⇒ x̃ p f1 f2
∈X ⊂R −→ G −→ C ⊂ N
Si el clasificador se basa en seleccionar el mejor grupo, se estará empleando
implı́citamente un clasificador basado en estructura de coste que penaliza la elección
incorrecta del grupo más que la clase, ya que aunque se elige la clase que tiene mayor
probabilidad a posteriori, ésta se obtiene como suma de las probabilidades a posteriori de
cada uno de los grupos que la forman.
8 Tipologı́a de clasiftcadores.
0
Asumiendo que la función de probabilidad para las observaciones de cada grupo se
distribuyen según una función normal Xj ~ N (μγj , Σ), la aplicación del teorema de Bayes
asigna una nueva observación al grupo para el cual
BB B
1 1
autovalores como: SB = U ΛUT → SB = U Λ 2 U T . De donde definiendo V = S B2 W se
1
2
obtiene:
1 1
S 2 S−1 S 2 V = λV (4.35)
B W B
1 1
que es un problema de un autosistema con una matriz simétrica positiva S 2 S −1 S 2 , con
B W B
soluciones λk como autovalor y Vk como autovector, dando lugar a la solución:
− 1
W = S B 2V (4.36)
Xa ⇒ XaJ = W T ∗ Xa (4.40)
Xb ⇒ Xb = W T ∗ Xb
J
(4.41)
Xc ⇒ XcJ = W T ∗ Xc (4.42)
Perceptrón multicapa.(MLP).
De modo general, con las muestras adquiridas en los diferentes experimentos, para
cada uno de los clasificadores desarrollados se realizan las siguientes operaciones:
1. Lectura de las muestras asociadas a cada una de las diferentes actividades mentales:
Cálculo matemático.
Imaginación de movimiento.
Relax.
4. Normalización de la señal.
Rectangular.
Triangular.
Blackman.
Hamming.
Hanning.
Kaiser.
Tukey.
13
Véase el apartado 3.3
84 Tipologı́a de clasiftcadores.
8. Cálculo del vector de caracterı́sticas, obtenido para cada una de las ventas de análisis
de 128 muestras de la señal.
14
La aplicación de la técnica de Análisis de Discriminantes Lineales permite concluir que es factible
realizar una reducción del espacio de original de caracterı́sticas de entrada sin perder la capacidad de
discriminación, sin embargo los resultados obtenidos de su aplicación indican que de las dos posibles
proyecciones ( téngase en cuenta que se consideran tres actividades cognitivas) sólo una se muestra
significativa, por lo que como técnica alternativa se ha optado por procesar los vectores de caracterı́sticas a
través de la técnica de Análisis de Componentes Principales, manteniendo el 90 % de la variabilidad de los
datos como valor explicativo, mientras que el 10 % restante se atribuye a ruido.
4.3 Clasiftcadores basados en redes neuronales. 85
Funciones sigmoideas.
Funciones lineales.
g(a) = Ka (4.48)
Funciones de activación.
1.5
0.5
−0.5
−1
F. Escalón
F. Logística
F. Tangente hiperbólica
Lineal
−1.5
−10 −8 −6 −4 −2 0 2 4 6 8 10
Las salidas de la red neuronal se obtienen transformando los resultados de las neuronas
de la capa oculta a través de la capa de salida, obteniéndose la siguiente ecuación para
cada una de las k-ésimas unidades de salida:
M M
Σ Σ
(2) (1)
ak = w kj zj + w k0 = w(2)kjzj (4.49)
j=1 j=0
yk = g̃(ak ) (4.50)
En donde g̃(.) representa la función de activación de la neurona de salida, resaltando que
no tiene por que ser el mismo tipo de función que el empleado para las neuronas de la
capa oculta.
Combinando las ecuaciones 4.43, 4.44, 4.49 y 4.50 se obtiene la expresion expl´ıcita de la
función representada en el diagrama de la figura 4.6 [Bishop 95][Ripley 96]:
. M Σ
Σ (2) . Σ d Σ
(1)
yk = g̃ wkj g wji xi (4.51)
j=0 i=0
Hay que destacar que si las funciones de activación de las neuronas de salida son
lineales g̃(a) = a, la expresión anterior se convierte en un caso especial de función de
discriminación lineal generalizado, en el que las funciones de base son obtenidas de las
funciones zj definidas por 4.43 y 4.44, siendo la principal diferencia que los pesos de
ponderación al ser adaptativos cambian durante el proceso de entrenamiento [Bishop 95].
Error log´ıstico.
N
Σ yˆi
E= (yˆi log( ) + (1 − ŷi )log( 1 − yˆi )) (4.53)
i=1
yi 1 − yi
por el vector de entrada y salida objetivo, o bien una vez que todos los patrones de
entrenamiento han sido presentados y evaluados, las necesidades computacionales en cada
caso son diferentes, ya que en el primer caso se obtiene una convergencia más lenta pero
requiere menos memoria que el segundo, ya que trabaja directamente sobre los parámetros
de la red; no siendo preciso, como en el segundo caso, almacenar las modificaciones a aplicar
una vez han sido procesados todos los patrones del conjunto de entrenamiento.
El proceso de modificación de los parámetros de la red se itera, bien hasta que se alcanza
un error total inferior al permitido, o bien hasta que se alcanza un número máximo de
ciclos.
Con el objetivo de evitar el sobre-aprendizaje del conjunto de entrenamiento, lo que
ocasionarı́a una mala generalización, se emplean varias técnicas:
Descomposición del conjunto de patrones disponibles en conjunto de entrenamiento,
validación y test. Con el conjunto de entrenamiento se modifican los parámetros de
la red, con el conjunto de validación se determina el error esperado, mientras que
con el conjunto de test se determina la capacidad de generalización.
Definición de la red neuronal de menos a más. Comenzando con un número reducido
de neuronas en la capa oculta, se procede a realizar el proceso de entrenamiento,
evaluando los errores obtenidos con los conjuntos de entrenamiento, validación y
test. El número de neuronas en la capa oculta se incrementa paulatinamente hasta
que se obtienen niveles de error aceptables. El disponer de un número reducido de
neuronas en la capa oculta, en comparación con el número de patrones presentes
en el conjunto de entrenamiento, indica que los parámetros de cada neurona se ven
influidos por más de un patrón, asegurando cierta capacidad de generalización.
Detención del proceso de aprendizaje en un número relativamente bajo de
iteraciones, de modo tal que no se permite a los parámetros de la red alcanzar valores
definitivos causados por el efecto de memorización de los patrones del conjunto de
entrenamiento; por lo general el ı́ndice que error asociado a esta técnica también es
alto.
en donde zi es la activación de una neurona en una capa precedente, o una entrada, que
conecta con la neurona j, wji es el peso asociado a dicha conexión, el sumatorio se aplica
a todas las neuronas o entradas que se conectan a la neurona j. La suma es transformada
por la función de activación no lineal g(.) para dar lugar a la salida zj .
zj = g(aj ) (4.56)
4.3 Clasiftcadores basados en redes neuronales. 91
El objetivo es determinar los valores apropiados para los pesos de la red a través
de la minimización de la función de error elegida, la cual podrá ser expresada como
sumatorio de los errores obtenidos con cada uno de los n patrones que forman el conjunto
de entrenamiento.
Σ
E= En (4.57)
n
en donde el sumatorio se efectúa sobre todas las neuronas a las que la neurona j envı́a
conexiones. Sustituyendo la definición de δ de la ecuación 4.61 en 4.64 se obtiene la
siguiente fórmula de back-propagation:
Σ
δj = g J (aj ) wkj δk (4.65)
k
que indica que el valor de δ para una neurona oculta se obtiene propagando hacia atrás los
valores de δJ s desde las neuronas superiores, como las derivadas de las funciones de salida
son conocidas, aplicando de forma recursiva 4.65 se obtienen los δJ s de todas las neuronas
de la capa oculta. Ası́ pues los pasos a seguir para evaluar la derivada de la función de
error En con respecto a los pesos son:
1. Aplicación de un vector de entrada xn a la red y propagar hacia delante, utilizando
las ecuaciones 4.55 y 4.56, para hallar la activación de todas las neuronas de la red.
2. Evaluar δk para todas las neuronas de salida utilizando 4.63.
3. Propagar hacia atrás los δJ s utilizando 4.65 para obtener δj de cada una de las
neuronas ocultas.
4. Utilizar 4.62 para evaluar las derivadas requeridas.
La derivada total del error se obtiene repitiendo los pasos anteriores para cada uno de
los patrones que forman el conjunto de entrenamiento y realizando su suma:
δE Σ δEn
= (4.66)
δwij n δwij
Cuando es necesario evaluar la sensibilidad de la salida, yk, ante los valores de entradas
xi es posible emplear el método de propagacion hacia atrás para el cálculo de la matriz
jacobiana 4.67.
δyk
Jki ≡ (4.67)
δxi
Ası́ mismo este método es útil cuando es preciso evaluar la segunda derivada del error
con respecto a los pesos de la red, matriz hessiana:
δ 2E
H≡ (4.68)
δwji δwlk
Cuyos elementos desempeñan papeles importantes en muchos aspectos del cálculo
neuronal, entre los que se incluyen:
1. Algoritmos de optimización no lineal empleados durante la fase de entrenamiento.
2. Base para un rápido proceso de reentrenamiento de redes neuronales progresivas,
empleando pequeños cambios en el conjunto de entrenamiento [Bishop 95].
3. Identificación de los pesos menos significativos, como parte de algoritmos de poda.
4. Asignación de margenes de error de las predicciones realizadas.
5. Cálculo de parámetros de regularización a partir de autovalores de la matriz hessiana.
6. El determinante de la matriz hessiana se puede utilizar como medida de comparación
de las probabilidades relativas de diferentes modelos de redes neuronales.
4.3 Clasiftcadores basados en redes neuronales. 93
Las redes neuronales de tipo RBF se emplean entre otras aplicaciones como:
aproximadores de funciones, regularizadores, interpolación ruidosa, estimación de
funciones de densidad, teorı́a de clasificación óptima, funciones potenciales [Bishop 95].
Debido a la gran multitud de aplicaciones, los métodos de entrenamiento utilizados
con las redes neuronales de tipo RBF han llegado a ser sustancialmente más rápidos que
los empleados en el entrenamiento de las redes neuronales de tipo perceptrón multicapa;
esto en parte es debido al procedimiento de entrenamiento en dos fases derivado de la
interpretación dada a la forma de representación interna de las neuronas de la capa oculta.
En la primera fase, los pesos de las funciones de base radial que corresponden a las neuronas
de la capa oculta se determinan mediante métodos no supervisados, más rápidos que los
métodos supervisados al considerar sólo los vectores de entrada de los patrones del conjunto
de entrenamiento y no tener que considerar los valores asociados de la salida [Nabney 02],
en una segunda etapa de entrenamiento se determinan los pesos de las neuronas de la
capa de salida, lo que implica la solución de un problema lineal, empleándose métodos de
resolución rápidos, eficientes y optimizados [Ripley 96] [Rich 94].
4.3 Clasiftcadores basados en redes neuronales. 95
Ecuación que tiene la misma forma que una función de discriminación lineal generalizada
[Bishop 95]. Las condiciones de interpolación pueden expresarse en forma matricial como:
ΦW = t (4.73)
−1
W=Φ t (4.74)
x2
Figura 4.8: Función de activación, φ(x ) = e − 2 σ2
− 2σ
φj (x) = e (4.85)
2
j
Considerando que las matrices de covarianza Σj son simétricas, cada función de base
tiene d(d + 3)/2 parámetros independientes ajustables, en donde d es la dimensión del
espacio de entrada, en comparación con los d+1 parámetros independientes de las funciones
de base radial de la ecuación 4.85, en la práctica se busca un equilibrio entre usar un
número pequeño de funciones de base con muchos parámetros ajustables, muy flexibles, y
un número mayor de funciones de base menos flexibles.
Teniendo en cuenta que la salida de la red neuronal queda dada por la ecuación:
M
Σ
yk(x) = wkjφj(x) (4.87)
j=0
y(x) = Wφ (4.88)
1 ΣΣ
E= (y k (xn) − (tnk))2 (4.89)
2 n k
ΦJ ΦWJ = ΦJ T (4.90)
en donde (T)nk = tn yk (Φ)nj = φj(xn). El valor de los pesos de las neuronas de la red
viene dados por:
W J = Φ† T (4.91)
en donde en la ecuación 4.98 representa una red de funciones de bases, en la que la función
base de normalización está dada por:
x = b(w̄ − p̄)
2
φ(x) = e−x (4.101)
Constante de extensión, b = 0.25 (Determina la zona de influencia de cada neurona19 .
Número de neuronas de salida: 3. Tantas como clases consideradas.
Como conclusión principal, tal y como puede extraerse del apartado 6.3, los
clasificadores basados en este tipo de redes neuronales presentan elevados porcentajes de
clasificación correcta, cercanos a los conseguidos con los clasificadores basados en redes de
tipo PNN, pero con una mejor capacidad de generalización, lo que les hace preferibles a
estos últimos.
19
El valor de esta constante se obtuvo tras un análisis previo en donde se utilizaron diferentes valores en el
intervalo [0.1 - 1], el mayor número de clasificaciones correctas se obtuvo para un valor de la constante de
amplitud de 0.25.
102 Tipologı́a de clasiftcadores.
nk
]
P̂k = (4.105)
n
4.3 Clasiftcadores basados en redes neuronales. 103
) Este tipo de redes neuronales se asemeja a las redes neuronales de tipo RBF, en que
ambas utilizan funciones de base radial en las neuronas de la capa oculta, como medio para
estimar la distancia entre un nuevo vector de entrada y los vectores patrones propuestos
durante la fase de entrenamiento. Sin embargo las redes neuronales probabil´ısticas se
diferencian de las RBF en que, las neuronas de la capa de salida suma las contribuciones
para cada clase produciendo un vector de probabilidades, el cual es procesado a través de
una función de transferencia de tipo competitivo, en la que la salida selecciona el valor
máximo de dichas probabilidades, asignando un 1 a dicha clase y un 0 a todas las demás. Por
otro lado, el algoritmo empleado en la fase de entrenamiento también es diferente,
ya que aunque en ambos casos queda encuadrado dentro de la clasificación de algoritmo
de entrenamiento supervisado en dos etapas, para el caso de redes neuronales PNN en
la primera etapa se crean tantas neuronas en la capa oculta como patrones se emplean en
el conjunto de entrenamiento, procedimiento derivado de la técnica de interpolación
exacta; en la segunda fase se procede a definir los pesos de las neuronas de la capa de
salida minimizando una función de error del tipo:
n
Σ
E= ||yi − ti|| (4.107)
i=1
0 ≤ aij ≤ 1 1 ≤ i, j ≤ N (4.108)
ΣN
2. Segundo problema. Datos los parámetros del modelo, λ, encontrar la secuencia más
probable de estados ocultos, Q, que puedan haber generado una secuencia de salida
dada. Este problema se resuelve con el algoritmo de Viterbi [Forney 73]. Trata de
descubrir la parte oculta del modelo.
Siguiendo con el modelo del ejemplo anterior una aplicación de este problema serı́a
determinar la secuencia de estados que da lugar a la secuencia inversa.
106 Tipologı́a de clasiftcadores.
Aunque la base teórica de los MOM fue establecida a finales de la década de los sesenta
y principio de los setenta [Baum 66], [Baum 70], [J. 75], no fue hasta dos décadas después
cuando, tras realizarse publicaciones de diversos tutoriales y desarrollo de aplicaciones
utilizando MOM en revistas de ingenier´ıa, empezaron a popularizarse y a utilizarse como
modelizadores de señal, sistemas de predicción, sistemas de reconocimiento e identificación,
clasificadores, etc., encontrándose su principal campo de aplicación en sistemas de
reconocimiento del habla [Rabiner 89], [Allen 77], [Cox 00], [Juang 91], [S.E.; 83].
Más próximas en el tiempo son la aplicación de los MOM en la identificación de
fuerzas en aplicaciones de teleoperación de sistemas robotizados [Herreo 98], ası́ como en la
identificación y caracterización de señales cerebrales [Chiappa 06], [Rezek 00], [Zhong 02],
siendo aplicados en el desarrollo de la tecnolog´ıa de Interfaz Cerebro Computador en la
identificación y clasificación de los patrones de señal electroencefalográfica asociados a
la imaginación de movimiento [Guger 99], [Neuper 01], [Obermaier 01a], [Muller 03a]. La
idea básica es la creación de modelos temporales de los ritmos μ y β que permitan la
identificación, aprendizaje y posterior reconocimiento de los cambios que se producen en
la señal cerebral cuando se realizan diferentes actividades cognitivas como la planificación
de movimientos, la realización de un cálculo matemático, u otro tipo de tarea mental
con elevada capacidad de discriminacion. En todos los casos, tal y como se ha indicado en
el apartado 1.1.2, la señal electroencefalográfica es filtrada, procesada para extraer sus
caracter´ısticas definitorias (potencia de determinadas bandas frecuenciales, coeficientes
adaptativos de modelos autorregresivos, etc.) las cuales son introducidas en los
correspondientes MOM’s. Por cada actividad mental se genera y entrena un MOM diferente,
comparándose posteriormente la probabilidad con la que nuevas secuencias de
observación serı́an generadas por cada uno de ellos, la nueva secuencia de observación se
asigna a aquel modelo, y por tanto actividad mental, cuya probabilidad de generación sea la
más alta. Los MOM muestran cierta mejora de clasificación sobre análisis de discriminación
lineal [Mardia 79].
Las principales ventajas de los MOM son dos:
1. Poseen una estructura matemática muy rica, de la que se desprende que puedan ser
usados en una gran cantidad de aplicaciones.
2. Los resultados prácticos obtenidos son muy próximos a los deseados.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 10
7
4.4.2. Solución a los problemas canónicos.
4.4.2.1. Solución al primer problema.
El objetivo es calcular la probabilidad de una secuencia de observaciones O = O1 , O2 ,
...,
{ OT , dado }un modelo λ. El modo más directo de efectuarlo es enumerando toda
posible secuencia de longitud T .21
Considerando una secuencia de estados Q = q { 1, q2, ..., qT} . La probabilidad de la
secuencia de observaciones O para la anterior secuencia de estados viene expresada por 22:
T
P (O|Q, λ) = P (Ot|qt, λ) (4.113)
t=1
Desarrollando la expresión anterior se obtiene:
P (O|Q, λ) = bq1 (O1) · bq2 (O2) · . . . · bqT (OT ) (4.114)
La probabilidad de la secuencia de estados Q, dado el modelo λ, se puede expresar como:
P (O|Q, λ) = πq1 aq1q2 aq2q3 . .. aqT−1qT (4.115)
La probabilidad conjunta de O y Q, es decir, de que O y Q ocurran simultáneamente es
el producto de las dos ecuaciones anteriores:
2. Inducción:
ΣΣ
N Σ
αt+1(j) = αt(i)aij bj(Ot+1) 1 ≤ t ≤ T − 1; 1 ≤ j≤ N (4.120)
i=1
3. Terminación:
N
Σ
P (O|λ) = αT (i) (4.121)
i=1
El primer paso inicializa las probabilidades hacia delante como la probabilidad conjunta
de encontrarse el sistema en el estado Si y que se dé la observación O1 , véase figura 4.12.
El estado j puede alcanzarse en el instante t + 1 desde N posibles estados. Ya que αt(i) es
la probabilidad conjunta de que O1 . . . Ot sean observados, y que el estado en el instante
t sea Si, αt(i)aij es la probabilidad conjunta de que O1 . . . Ot sean observados, y de que el
estado Sj sea alcanzado a través del estado Si en el instante t + 1. Sumando este producto
para todos los posibles estados se obtendrá la probabilidad de estar en el estado
Sj en el instante t + 1 teniendo en cuenta las observaciones realizadas.
Conociendo el estado Sj , αt+1 se obtendrá teniendo en cuenta la observación Ot+1 , y
multiplicando su probabilidad por la suma de probabilidades αt(i)aij anteriores.
Por último, la probabilidad P (O|λ) se obtiene como la suma de las variables hacia
delante terminales, es decir αT (i).
En este caso, el número de cálculos necesarios es del orden de N 2 T . Siendo más exactos
son necesarias N (N +1)(T −1)+N multiplicaciones y N (N −1)(T −1) sumas [Rabiner 89],
para el caso del ejemplo anterior se tendr´ıan 5 · (5 + 1) · (7 − 1) + 5 = 185 multiplicaciones
y 5 · (5 − 1) · (7 − 1) sumas.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 10
9
Aunque en la solución del primer problema no se utilizan las variables hacia atrás, si
lo son en la solución del tercer problema. Por semejanza con la descripción realizada, su
explicación se realiza a continuación.
Se define la variable hacia atrás, βt (i) como:
2. Inducción:
N
Σ
βt (i) = aij bj (Ot+1 )βt+1 (j) t = T − 1, T − 2, . . . , 1; 1 ≤ i ≤ N (4.124)
j=1
δ1(i) = πibi(O1)
Ψ1(i) = 0 1≤ i ≤N (4.128)
2. Inducción:
Σ Σ
δ t(j) = max1≤i≤N (δt−1(i)aij) bj(O t) 2≤ t≤T (4.129)
Ψ t(j) = argmax1≤i≤N (δt−1(i)aij) 1≤ j≤N (4.130)
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 111
3. Terminación:
P ∗ = smax
˛¸x (δT (i)) (4.131)
1≤i≤N
qT∗ = argmax(δT (i)) (4.132)
s ˛¸ x
1≤i≤N
4. Obtención de la secuencia:
Realizando el sumatorio de cada uno de los valores que representa la ecuación anterior
para todo instante t, se obtiene la esperanza del número de veces que va a ser alcanzado el
estado Si a lo largo del tiempo, o lo que es lo mismo, el número de transiciones hechas desde
el estado Si. De forma semejante, si se realiza el sumatorio de εt(i, j) para todo instante
t, lo que se obtiene es la esperanza de transiciones desde el estado Si al S j. Expresando lo
anterior formalmente:
T
Σ −1
γt (i) ≡ esperanza del número de transiciones desde Si
t=1
T
Σ −1
εt (i, j) ≡ esperanza del número de transiciones desde Si a Sj
t=1
Con las fórmulas anteriores se puede obtener un método para la reestimación de los
parámetros de un Modelo Oculto de Markov:
Al igual que con las funciones de reestimación, Baum y su equipo [J. 75], probaron que
la maximización de Q implica aumentar la verosimilitud:
Es decir, no se permiten transiciones a estados cuyos ´ındices sean menores que el actual.
El estado inicial tiene la propiedad:
.
= ƒ0 i = 1 (4.154)
π1i i = 1
En la figura 4.16 se muestra una representación gráfica de lo que serı́a este modelo
suponiendo que lo componen cuatro estados.
116 Tipologı́a de clasiftcadores.
Ası́ mismo es habitual imponer a este tipo de modelos un mayor número de restricciones
para evitar cambios grandes en los ´ındices del estado:
aNN = 1 (4.156)
aNi = 0 i<N (4.157)
existe una variable yt que depende tanto del estado oculto en el que se encuentra el modelo,
qt, como de una variable de entrada observable, xt, [Bengio 96].
La variable de entrada representa el proceso observado, por lo que en la práctica
puede existir cierto preprocesamiento asociado al mismo; mientras que la variable de salida
representa las clases.
La distribución conjunta de estado y variables de salida condicionadas a las variables
de entrada vienen dada por:
T
P (q1:T , y1:T |x1:T ) = P (y1|x1, q1)P (q1|x1) P (yt|xt, qt)P (qt|xt, qt−1) (4.158)
t=2
En donde:
W
Σ U
.Σ Σ
zk = wkjf ujixit (4.160)
j=0 i=0
Q(λ, λi−1) = E(logP (q1:T , y1:T |x1:T , λ))P (q1:T ,y1:T |x1:T ,λi−1) (4.163)
26
Todas aquellas secuencias menores de T son separadas bien para su descarte final o bien para formar
una secuencia de tamaño apropiado.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 119
ΣT
+ E(log(P (qt |xt , qt−1 , λ)))P (qt−1:T |x1:T ,y1:T ,λi−1) +
t=2
+E(log(P (q1|x1, λ)))P (q1 |x1:T ,y1:T ,λi−1) (4.165)
En donde se observa que el paso de Expectación necesita conocer P (qt|x1:T , y1:T , λi−1 ) y P
| , y1:T , λi−1), siendo ambas probabilidades marginales una forma de inferencia del
(qt−1:T x1:T
modelo, la cual se puede obtener a través de las fórmulas 4.166, [Bengio 96]
Recursión hacia atrás. Calcula p(qt , y1:T |x1:T ) en función de p(qt+1 |x1:T , y1:T )
Σ
P (qt|x1:t, y1:t) = P (qt:t+1|x1:t, y1:t) =
qt+1
Σ
= P (qt|x1:t, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) =
qt+1
Σ
= P (qt|x1:t+1, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) (4.167)
qt+1
120 Tipologı́a de clasiftcadores.
i−1
λi = λi−1 α δQ(λ, λ ) (4.169)
.
+ . i−1
δλ λ=λ
En donde α es el parámetro de entrenamiento, que puede ser determinado utilizando
un conjunto de validación. Las derivadas de logP (yt |qt , xt , λ), logP (qt |qt−1 , xt , λ) y
logp(q1 |x1 , λ) con respecto a los parámetros del modelo se calculan empleando la regla
de la cadena (algoritmo de propagación hacia atrás [Rabiner 89]).
El procedimiento de entrenamiento descrito obliga a especificar la clase a la que
pertenece cada una de las secuencias de entrada, optimizando la función objetivo:
M
Al igual que en el caso anterior, una vez entrenado el modelo, una nueva secuencia
de entrada puede ser aplicada con la finalidad de encontrar la clase a la que con mayor
probabilidad pertenecerı́a.
De forma análoga al procedimiento anterior se utiliza el algoritmo GEM en la
determinación de los parámetros del modelo.
4.4.5.1. Escalado.
Considerando las fórmulas de reestimación se observa que son sumatorios que contienen
términos de la forma:
t−1 t
λ̄ = sλ + (1 − s)λJ (4.186)
De estudios previos se concluye que este tipo de red neuronal presenta un mejor
comportamiento que otros tipos de redes neuronales como por ejemplo MLP o PNN
[Mart´ınez 08].
Para el proceso de aprendizaje se consideran vectores de caracter´ısticas provenientes
de la señal EEG, capturada cuando el usuario realiza una de las diferentes actividades
mentales entre las que se quiere discriminar. De toda la población de caracterı́sticas
disponible por experimento, el 75 % se emplea para formar el conjunto de entrenamiento,
mientras que el 25 % restante se emplea para el conjunto de validación. Tras la
determinación de los conjuntos de aprendizaje y validación se obtienen las constantes
que permiten definir la normalización de los datos de entrada, posteriormente se obtiene
una matriz de transformación con objeto de reducir la dimensión del espacio de entrada de
la red neuronal [Martı́nez 07] [Martı́nez 08], dicha matriz permite proyectar los vectores de
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 127
caracterı́sticas en la dirección de los ejes sobre los que mejor se discriminan las actividades
cognitivas consideradas. Esta matriz de proyección se calcula de modo tal que el 90 % de
la variabilidad de las caracter´ısticas se mantenga, el 10 % restante de la variabilidad se
atribuye a ruido.
El proceso de entrenamiento permite el crecimiento dinámico del número de neuronas
de entrada que conforman la red neuronal de modo que se minimice el efecto de sobre-
aprendizaje, en la etapa de salida se utilizan tantas neuronas como actividades cognitivas a
discriminar. Por lo que los parámetros definitorios de la red neuronal y su proceso de
aprendizaje son: sc (define la zona de influencia de cada neurona de la red), el número
de actividades cognitivas a discriminar, y el error objetivo de entrenamiento (goal). El
bloque asignador que sigue a la red neuronal en la figura 4.19, se encarga de evaluar las
componentes del vector de salida de la red, detectar el que es mayor y si su valor es superior
a un determinado nivel de umbral δ, asignar la señal recibida al orden del componente
mayor del vector; si por el contrario resulta que ninguna de las componentes supera el valor
de umbral, la señal introducida no será asignada a ninguna de las actividades propuestas.
Una vez entrenada la red neuronal, cuando se introduce un vector de caracter´ısticas nuevo,
la actividad cognitiva que haya presentado muestras de aprendizaje más próximas al vector
de entrada presentado tendrá un nivel de activación más alto, y la salida correspondiente
tendrá un valor mayor al de las otras actividades mentales, véase fig.4.21.
Espacio de caracteris´ticas
Espacio de caracteristic´as original transformado
m<n
n
m
R
X2
R U
2 H0
Hiperplano de
H1
H2 separacio´n
óptima
Margen
X1
U1
Las operaciones que realiza una MSV en clasificación son [Gunn 98] [Cristianini 05a]:
Cálculo del hiperplano óptimo que maximiza la distancia entre las clases
consideradas. Si los datos son linealmente separables, el hiperplano obtenido
maximiza el margen de separación, a la vez que minimiza la función de penalización
que considera las clasificaciones incorrectas.
Hiperplano o´ptimo
Vectores
soporte Margen
yi(wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.193)
Todo lo cual da lugar a la expresión del siguiente problema de optimización 29 :
hj
hi
1
1
Φ
Rn −−−−→ Rm , m>n
en el cual es posible realizar una separación lineal de los datos transformados.
ΣN
1 T
Ω(w, h) = w w + C hi (4.207)
2 i=1
De donde se deduce que una posible función kernel, K(a · b), asociada a Φ(a) serı́a:
Este teorema no indica sin embargo como construir las funciones Φ(x). La tabla 4.2
recoge los tipos de funciones kernel más utilizados [Gunn 98].
Las funciones compuestas por sumas y/o productos de funciones kernel también son
funciones kernel [Cristianini 05b], [Burges 98], [Gunn 98].
|x−x |i 2
)
RBF Gaus- e−( 2σ2 El valor de σ lo especifica el usuario y es
sianas. común a todas las funciones kernel
|x−x |i
RBF Expo- e−( 2σ2 ) El valor de σ lo especifica el usuario y es
neciales. común a todas las funciones kernel
sin(N + 21)(x−y)
Serie de 1 El valor de N lo especifica el usuario.
sin( 2(x−y))
Fourier.
ΣN
Splines. r=0 xryr+ El orden de la curva k y el número
ΣN k k
s=1 (x − τs )+( y − τs )+ de los N puntos localizados en τs lo especifica
el usuario.
4.5.7. Implementaciones.
Tal y como se puede dedudir de la secciones anteriores, los parámetros del hiperplano
de separación óptima, H0 , se obtienen tras la resolución de un problema de optimización;
actualmente existen diferentes tipos de algoritmos especializados en la rápida resolución
de problemas de optimización aplicados a MSV.
Para el desarrollo del clasificador empleado en los resultados del capı́tulo 6 se han
valorado tres conjuntos de herramientas, “Toolboxes”, de distribución gratuita para
Matlab:
Eligiéndose la segunda opción por ser eficiente, disponer de una interfaz clara y
adecuada documentación, hay que destacar que junto con la primera opción también se
suministran abundantes ejemplos.
La implementación del algoritmo de clasificación descrito en esta sección se describe
en el apartado 5.6.5, a la vez que los resultados obtenidos de su utilización por varios
voluntarios se presentan en el apartado 6.5, la conclusión más significativa que se obtiene
en dicho apartado es que los clasificadores basados en Máquinas de Soporte de Vectores que
utilicen Kernels polinómicos de orden 4 ó 5 presentan mejores resultados que los basados
en Kernels gaussianos.
Capı́tulo 5
Procedimientos experimentales y
aplicación de demostración.
En este cap´ıtulo se describen las actividades cognitivas propuestas a modo de interfaz,
ası́ como los protocolos de preparación del usuario y del equipo de adquisición y
procesamiento, que han sido empleados en la realización de los procedimientos
experimentales a cuyos resultados se les aplican las diferentes técnicas de clasificación
presentadas en el capı́tulo 4. Por último se presenta una propuesta de arquitectura para
el empleo de la tecnologı́a ICC en un dispositivo genérico que ha sido implementada en la
aplicación de demostración.
2
Por defecto se considera Nrep = 10.
3
Por defecto se considera Nact = 3.
144 Procedimientos experimentales y aplicación de demostración.
En el proceso experimental
“On-line” al usuario se le reali-
menta información del proceso de
clasificación de la señal adquiri-
da en el instante inmediatamen-
te anterior. En pantalla se mues-
tra el icono objetivo, en forma
de cuadrado, dispuesto aleatoria-
mente en la parte izquierda o en
la derecha; un cursor, en forma
de rombo, se desplaza horizontal-
mente dependiendo del resultado
de la clasificación.
La figura 5.4 presenta el flujogra-
ma de desarrollo del experimen-
to. Se emplean las mismas acti-
vidades cognitivas que en el pro-
cedimiento “Off-line”, utilizando
los registros de señal previamente
adquiridos para entrenar un cla-
sificador basado en redes neuro-
nales de tipo RBF. El supervisor
del experimento indica el núme-
ro de actividades cognitivas con-
sideradas, Nact , y el número de
réplicas a realizar, Nrep , ası́ mis-
mo se realiza la asociación de ac-
tividad cognitiva con el sentido
de movimiento, comunicándoselo
verbalmente al usuario. La dura-
ción del experimento es de sie-
te segundos, presentando el icono
objetivo con una antelación de
cinco segundos. En cada réplica
el sistema presenta el icono obje-
tivo aleatoriamente en la derecha
o en la izquierda de la pantalla.
Postcondiciones.
La aplicación permanecerá activa mostrando los caracteres seleccionados hasta que el
supervisor decida finalizarla.
Las muestras de señal electroencefalográfica adquiridas, ası́ como el procesamiento de
las mismas y las selecciones llevadas a cabo serán almacenadas en los correspondientes
ficheros.
Flujos alternativos.
2.b Si el registro de actividad electroencefalográfica no puede clasificarse como
perteneciente a alguna de las actividades cognitivas asociadas a movimiento del
cursor, o su nivel de certeza en el reconocimiento es inferior a un determinado valor
de umbral, el cursor no se desplazará.
4
N será configurable, siendo su valor por defecto N = 3.
5
La selección de los caracteres se realiza por dicotomı́a.
154 Procedimientos experimentales y aplicación de demostración.
Flujos alternativos.
4.b Si el sistema detecta que la identificación de la sesión ya existe, procede a
comunicárselo al supervisor, devolviendo el control al punto 2.a, para evitar la
corrupción de datos de sesiones anteriores.
6
N será configurable, por defecto se consideran 5 segundos.
5.7 Descripción de arquitectura dispositivo ICC. 155
Postcondiciones.
La aplicación queda finalizada y la información asociada a la sesión realizada alma-
cenada en la estructura de ficheros, creada por el caso de uso Puesta en marcha del sistema.
Flujos alternativos.
1.b El usuario procede a seleccionar “Fin” como carácter a deletrear.
Figura 5.14: Diagrama de secuencia del caso de uso Puesta en marcha del sistema.
7
UML 2.0 reúne los diagramas de: Secuencia, Comunicación, Tiempo y Visión de Interaccion, dentro
del tipo de Diagramas de Interacción.
5.7 Descripción de arquitectura dispositivo ICC. 159
6.1.2. Análisis.
El análisis de las figuras 6.1 y 6.2 muestra la existencia de diferencia estadı́stica, entre las
poblaciones de caracterı́sticas extraı́das de la muestras de señal electroencefalográfica,
cuando el usuario realiza diferentes actividades cognitivas.2 As´ı mismo se observa que,
siendo el voluntario analizado diestro, la mayor capacidad de discriminación se obtiene en el
segundo canal electroencefalográfico, asociado a C4’ - C4” (hemisferio cerebral derecho), lo
que muestra una elevada lateralidad cerebral.
Estudiando cada una de las comparaciones de parejas de actividades cognitivas se
observa que:
Comparando “Cálculo matemático” con “Imaginación de movimiento”, véase lado
superior izquierdo de las figuras 6.1 y 6.2, se comprueba que las ventanas de
procesamiento de tipo Tukey, Kaiser y rectangular, son las que presentan mayor
evidencia de diferencia estadı́stica en la comparación de las poblaciones de los
vectores de caracter´ısticas en ambos hemisferios. As´ı mismo se observa que para todos
los tipos de ventanas de procesamiento, las componentes del vector de caracter´ısticas
con mayor poder de discriminación son β1 y β2 .
Analizando “Cálculo matemático” frente a “Realización de movimiento”, véase zona
superior central de las figuras 6.1 y 6.2, se observa que las ventanas de procesamiento
con mayor número de componentes significativas son las de Blackman, Hanning y
Tukey, ya que presentan caracter´ısticas significativas tanto en el hemisferio izquierdo
como en el derecho. Por otro lado las componentes con mayor relevancia en la
discriminación de actividades son α1 y α2 .
1
Este valor es equivalente a la suma de caracterı́sticas que muestran diferencia estadı́stica, divido por
el número de veces que el experimento ha sido replicado, N = 10.
2
Nótese que a efectos experimentales se ha considerado tanto la “Imaginación de movimiento” como
la “Realización de movimiento”, aunque está última actividad no deba ser considerada en dispositivos de
Interfaz Cerebro Computador.
6.1 Resultados del método estadı́stico de comparación de poblaciones. 163
6.1.3. Discusión.
Tras el análisis de la capacidad de discriminación de las diferentes actividades cognitivas
propuestas, considerando los registros EEG realizados sobre ambos hemisferios cerebrales,
se confirma que en todos los casos el hemisferio derecho muestra mayor capacidad de
discriminación que el izquierdo. Investigaciones en Neurologı́a indican que el hemisferio
izquierdo es calculador, comunicativo y capaz de construir planes complicados, mientras
que por su parte el derecho es causante de pensamientos creativos, integrales y hol´ısticos,
siendo más emotivo y conceptual [Alarcon 00], [Gazzaniga 92], [Jessell 97]. La razón de
que el hemisferio izquierdo se muestre menos discriminativo puede deberse a que su
nivel de actividad pueda llegar a enmascarar la diferencia ente las actividades cognitivas
propuestas; a este respecto son de especial relevancia los resultados obtenidos en la
comparación de las actividades de “Realización de movimiento” con “Imaginación de
movimiento”, en donde el hemisferio izquierdo (canal 1: C3’-C3”), no muestra ninguna
caracter´ıstica significativa, mientras que para el hemisferio derecho (canal 2: C4’-C4”) es la
pareja de actividades con mayor capacidad de discriminación.
De la inspección de los resultados de la comparación por parejas de las actividades
cognitivas propuestas, se obtiene la siguiente lista, ordenada de mayor a menor capacidad
de discriminación:
1. “Imaginación de movimiento” frente a “Realización de movimiento”.
2. “Cálculo matemático” frente a “Realización de movimiento”.
3. “Cálculo matemático” frente a “Imaginación de movimiento”.
4. “Cálculo matemático” frente a “Relax”.
5. “Imaginación de movimiento” frente a “Relax”.
166 Análisis y discusión de los resultados experimentales.
Del análisis de las ventanas de procesamiento, los mejores resultados se obtienen con
las ventanas de Tukey, Kaiser y rectangular. Las dos primeras son las que menos distorsión
en frecuencia ocasionan sobre la señal que enmarcan. Por su parte la ventana rectangular,
al tener una extensión igual al número de datos considerados en la FFT, N = 27 , minimiza
el efecto de fuga en el dominio frecuencial, ya que considera que la señal, es la repetición
periódica de la ventana de análisis considerada. El resto de las ventanas suavizan los bordes
de la ventana de análisis en el dominio temporal, aunque en menor grado, obteniéndose
los peores resultados con la ventana de tipo triangular o de Bartlett.
En la comparación de la actividad de “Relax” en sesiones diferentes, zona inferior de-
recha de las figuras 6.1 y 6.2, se detectan falsos positivos debido a la captación de ruido en
la señal electroencefalográfica de entrada. Obsérvese que la ventana de Tukey no muestra
diferencia para el hemisferio izquierdo, detectandose sólo la componente α2 , en el hemis-
ferio derecho, como falso positivo.
6.1.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas presentadas en el apartado
6.1.2, empleando tests estadı́sticos de comparación bilateral de poblaciones, descritos en
la sección 4.1, se obtienen las siguientes conclusiones:
1. Un clasificador que discriminara entre actividad matemática e imaginación de
movimiento deberı́a considerar en la fase de filtrado y acondicionamiento de la
señal electroencefalográfica ventanas de tipo Tukey y considerar al menos las
caracter´ısticas α2, β1 y β2. Es importante destacar que la ventana de Tukey minimiza
el número de falsos positivos, por lo que es más robusta que otros tipos de ventanas.
2. En los test llevados a cabo, el canal localizado en C4’-C4” es más significativo que
el formado por C3’-C3”.
6.2 Resultados obtenidos aplicando la técnica LDA. 167
3
Los resultados, análisis y conclusiones acerca de LDA han sido presentados en [Martı́nez 07] y
[Martinez 09].
4
Véase el apartado 4.1 del capı́tulo 4.
168 Análisis y discusión de los resultados experimentales.
6.2.2. Análisis.
De los contraste bilaterales llevados a cabo con un nivel de significación α = 2,5 %,
α = 1 p,
− representados en las figuras 6.3 a 6.8 para X1, se observa que:
En la mayorı́a de los casos, la hipótesis nula H0 , que mantiene la igualdad de las
poblaciones de las caracter´ısticas asociadas a las actividades cognitivas, debe ser
rechazada para ambos tipos de experimentos.
As´ı mismo, los niveles cr´ıticos p, de los contrastes obtenidos en las comparaciones de
“Cálculo matemático” frente a “Imaginación de movimiento”, son menores para los
experimentos “On-line” que los obtenidos para los experimentos “Off-line”, en ambos
canales; mientras que la dispersión de los resultados es similar en ambos casos.
En los voluntarios analizados, de forma general el canal C4’-C4”, asociado al
hemisferio derecho, presenta una mejor capacidad de discriminación que C3’-
C3”, excepto en la comparación realizada para experimentos “On- line” entre las
actividades cognitivas “Cálculo matemático” e “Imaginación de movimiento”, en
donde se observa un cambio de tendencia, véase figura 6.6.
La mayor potencia de contraste se obtiene en la comparación entre “Imaginación
de movimiento” y “Relax”, seguido de “Cálculo matemático” y “Relax”, el menor
de ellos se da para la comparación entre “Cálculo matemático” e “Imaginación de
movimiento.”
El mismo tipo de análisis para X2 , figuras 6.9 a 6.14, muestra que la diferencia apenas
aperece en los experimentos “Off-line” y en ningún caso para los experimentos “On-line”,
p < 0,975.
6.2.3. Discusión.
Por lo general, para los dos tipos de experimentos, todas las ventanas de filtrado
muestran evidencia de diferencia estad´ıstica entre las actividades cognitivas propuestas;
los mejores resultados, representados por niveles crı́ticos p más altos y menor dispersión,
son obtenidos para X1 con las ventanas de Tukey y Kaiser. De los resultados numéricos se
observa que cuanto mayor es la magnitud del autovalor, caso de X1 , mayor es la aportación
de una de las componentes del vector de caracter´ısticas original, normalmente en la banda
de frecuencia β, por el contrario, cuanto menor es el autovalor, mayor es la contribución
del resto de los componentes del autovector.
As´ı mismo se observa que, la presencia de artefactos es mayor para los experimentos
“On-line” que para los experimentos “Off-line”.
Por otra parte, para los sujetos analizados, se confirma que le hemisferio derecho
presenta una capacidad de discriminación superior a la del hemisferio izquierdo, excepto
cuando, empleando las actividades cognitivas de “Cálculo matemático” e “Imaginación de
movimiento”, al sujeto se le realimenta información sobre el resultado de la clasificación;
lo que confirma lo indicado en el apartado 6.1.3 acerca de la especialización del
funcionamiento de cada hemisferio.
6.2 Resultados obtenidos aplicando la técnica LDA. 175
6.2.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas presentadas en el apartado
6.2.2, basado en la utilización de la técnica de Análisis Discriminatorio Lineal, se obtienen
las siguientes conclusiones:
6.3.3. Discusión.
Con los vectores de caracterı́sticas considerados, basados en la estimación espectral
de potencia de las bandas frecuenciales: θ, α1, α2, β1, β2 y β3; los clasificadores basados
en redes neuronales de tipo probabilı́stico (PNN) o en funciones de base radial (RBF),
presentan mejores resultados que los clasificadores basados en redes neuronales de tipo
Perceptrón Multicapa (MLP), tanto desde el punto de vista de porcentanjes correctos
de clasificación, como en estabilidad de los mismos, conclusión similar se presenta en
[Garrett 03]. Este comportamiento se explica por la función de distribución de probabilidad
de los vectores de caracterı́sticas, y la mayor capacidad de interpolación de las redes
neuronales de tipo PNN o RBF, que la obtenida con las redes de tipo MLP.
186 Análisis y discusión de los resultados experimentales.
As´ı mismo, en l´ınea con lo discutido en los apartados 6.1.3 y 6.2.3, se observa que los
resultados obtenidos con el clasificador basado en redes RBF presenta mejores resultados
para el hemisferio derecho que para el izquierdo.
Por otro lado, la variabilidad de resultados entre los clasificadores basados en redes
neuronales de tipo PNN y los basados en redes neuronales de tipo RBF, se debe no tanto a
la estructura intrı́nseca de ambas redes neuronales, muy próximas entre sı́, tal y como puede
verse en los apartados 4.3.2 y 4.3.3, sino al proceso de aprendizaje y número de neuronas
considerados en la capa oculta. Mientras que para las redes neuronales RBF el número de
neuronas se determina incrementalmente mediante el proceso de aprendizaje, para las redes
neuronales PNN este número se determina a partir del número de elementos considerados
en el conjunto de entrenamiento, dando lugar a que las redes neuronales de tipo PNN
tengan más neuronas en la capa oculta que las redes neuronales de tipo RBF, lo que a su
vez provoca un mayor sobre-aprendizaje del conjunto de entrenamiento, caraterizado por
un porcentaje mayor en el número de clasificaciones correctas sobre dicho conjunto, pero
también una menor capacidad de generalización sobre los conjuntos de validación y test.
6.3.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas realizadas con cinco voluntarios,
presentados en el apartado 6.3.2, empleando clasificadores basados en redes neuronales
descritos en la sección 4.3, se obtienen las siguientes conclusiones:
1. Es factible la discriminación entre las actividades cognitivas propuestas, empleando
los registros de señal electroencefalográfica provenientes de los canales C3’-C3” y
C4’-C4”.
2. Es preferible el empleo de un clasificador en cuya arquitectura se empleen dos redes
neuronales diferentes, especializadas respectivamente en cada uno de los dos canales
de señal electroencefalográfica, siendo sus resultados evaluados en un ponderador
que otorgue mayor peso a la red asociada al hemisferio derecho.
3. Se recomienda la utilización de ventanas de procesamiento de Tukey o Kaiser, ya
que dan lugar a un porcentaje mayor de clasificaciones correctas.
6.4 Resultados obtenidos con clasiftcadores bietapa basados en redes neuronales y
Modelos Ocultos de Markov. 187
6.4.2. Análisis.
De los resultados obtenidos de la aplicación del algoritmo de clasificación propuesto se
observa que:
1. La capacidad de aprendizaje es superior a la que se obtiene con una red neuronal de
tipo RBF, 100 % de reconocimiento del conjunto de aprendizaje.
2. La variabilidad en los valores de clasificación de las réplicas es debida al empleo de
modelos ocultos de Markov, tanto en la fase de aprendizaje como durante la fase de
clasificación posterior.
3. Los ı́ndice de clasificación más altos se dan para valores de Sc = 0,5 y λ = 0,65;
aunque se observa una gran dependencia con respecto al usuario y su experiencia en
la utilización del sistema. La discrepancia de resultados entre RA1 y RA2 se
explicada por el proceso de aprendizaje en la utilizacion del dispositivo, la sesión
RA1 es previa a RA2.
4. Los resultados de las pruebas de validación cruzada son mejores que los obtenidos
con un clasificador equiprobable.
6.4.3. Discusión.
La dispersión de máximos en los valores de clasificaciones correctas obtenidos en
las pruebas de validación cruzada, indican que la combinación de los parámetros λ
y Sc es dependiente del usuario, por lo que para un dispositivo ICC que utilice un
algoritmo de este tipo, se deberı́a prever al menos una fase de sintonización que permitiera
ajustar estos parámetros. Si bien es cierto que el algoritmo se comporta mejor que un
clasificador equiprobable, su comportamiento no es todo lo óptimo que cabrı́a esperar
considerando su capacidad de aprendizaje, observándose un sobre-aprendizaje del conjunto
de entrenamiento. El tamaño del conjunto de datos de entrenamiento es determinante
en los resultados obtenidos en la fase de ejecución. El efecto de sobre-aprendizaje se
minimizar´ıa aumentando el conjunto de datos disponibles para el entrenamiento.
6.4.4. Conclusiones.
Del análisis y discución anteriores, empleando clasificadores bietapa basados en redes
neuronales de tipo RBF y Modelos Ocultos de Markov descritos en la sección 4.4.6, se
obtienen las siguientes conclusiones:
1. La información contenida en la secuencia de asignaciones mejora la capacidad de
clasificación, siendo los modelos ocultos de Markov una técnica válida para la
extracción y utilización de dicha información.
2. Los parámetros de ajuste del algoritmo, λ y Sc, han de modificarse en función
del usuario, ya que influyen notoriamente en la capacidad de generalización y
clasificación del algoritmo, por lo que se precisa un proceso previo de optimización
que determine el valor de dichos parámetros.
190 Análisis y discusión de los resultados experimentales.
Se han seleccionado estos valores con el propósito de evaluar la influencia que, tanto su
magnitud, como la forma de la función Kernel a la que dan lugar6 , tienen tanto sobre
el porcentaje de clasificaciones correctas obtenido, como sobre el número de vectores
soporte seleccionados. As´ı mismo destacar que, un clasificador basado en funciones Kernel
polinómicas de orden 1 darı́a lugar a un clasificador lineal.
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 100.00 0.1 96.87 10.85 100.00 0.1 96.81 11.06
Triangular 97.50 3.90 95.96 10.45 97.92 2.75 96.93 10.10
Blackman 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01
Hamming 98.33 3.39 96.18 10.25 98.75 1.66 96.82 10.50
Hanning 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01
Kaiser 99.67 0.78 96.77 10.83 100.00 0.10 96.81 11.06
Tukey 99.67 0.78 96.75 11.04 100.00 0.10 96.81 11.06
Figura 6.38: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=1.
Figura 6.39: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=1.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 197
Tabla 6.9: Resultados Kernel gaussiano (P:2).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 99.75 0.62 96.88 10.64 100.00 0.10 96.90 10.74
Triangular 84.67 10.89 93.49 10.38 85.25 11.26 96.15 9.19
Blackman 88.50 8.23 93.67 10.20 88.08 9.05 96.11 9.19
Hamming 90.33 7.08 94.48 9.87 90.17 7.63 96.50 9.20
Hanning 88.58 8.28 93.65 10.22 88.08 9.05 96.13 9.18
Kaiser 96.92 3.82 96.70 9.28 97.75 2.26 97.12 9.93
Tukey 98.58 2.97 96.33 10.46 99.08 1.24 96.98 10.45
Figura 6.40: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=2.
Figura 6.41: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=2.
198 Análisis y discusión de los resultados experimentales.
Tabla 6.10: Resultados Kernel gaussiano (P:3).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 98.83 2.08 96.84 9.77 98.67 1.92 97.17 9.81
Triangular 77.08 17.50 89.84 12.78 74.92 17.39 92.92 10.36
Blackman 81.00 14.89 90.74 11.90 77.83 16.04 93.59 10.61
Hamming 80.92 14.18 91.54 11.69 79.17 15.26 95.03 9.85
Hanning 80.08 15.10 90.82 11.83 77.92 16.06 93.63 10.58
Kaiser 91.00 6.58 95.68 8.84 91.08 5.99 96.58 9.28
Tukey 94.17 4.88 95.59 10.17 94.08 5.12 96.80 9.75
Figura 6.42: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=3.
Figura 6.43: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=3.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 199
Tabla 6.11: Resultados Kernel gaussiano (P:5).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 89.67 7.08 95.83 9.49 89.75 7.82 97.03 8.60
Triangular 77.50 17.83 81.03 14.47 75.08 17.87 83.88 11.78
Blackman 78.08 16.98 83.53 13.87 75.42 18.08 85.78 12.10
Hamming 77.00 17.79 84.78 14.11 74.67 18.22 86.89 11.52
Hanning 78.17 16.88 83.59 13.87 75.42 18.08 85.82 12.13
Kaiser 78.75 15.48 91.41 11.32 76.67 15.98 94.52 10.00
Tukey 81.58 13.48 92.60 11.23 79.67 14.48 95.13 10.44
Figura 6.44: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=5.
Figura 6.45: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=5.
20 Análisis y discusión de los resultados experimentales.
0 Tabla 6.12: Resultados Kernel gaussiano (P:10).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 74.67 19.06 88.08 13.56 74.25 18.48 91.52 11.03
Triangular 85.33 14.15 65.71 13.86 83.08 16.30 69.52 11.93
Blackman 84.00 14.81 67.94 14.00 82.33 17.12 72.38 12.24
Hamming 83.25 15.27 68.29 13.68 80.83 17.31 73.68 11.95
Hanning 84.00 14.81 67.97 13.96 82.33 17.12 72.48 12.24
Kaiser 78.58 17.80 78.27 14.75 76.00 17.65 81.22 12.00
Tukey 76.83 18.36 81.55 15.19 75.00 17.70 85.46 11.85
Figura 6.46: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=10.
Figura 6.47: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=10.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 201
Tabla 6.13: Resultados Kernel polinómico (P:2).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 69.33 18.97 66.63 15.51 71.83 20.85 67.47 13.96
Triangular 75.83 19.08 61.20 11.59 72.50 20.30 67.71 12.16
Blackman 77.42 19.64 60.99 9.95 73.50 20.02 66.93 12.44
Hamming 76.33 19.46 61.20 9.71 72.50 20.59 67.42 13.04
Hanning 77.42 19.64 60.97 9.95 73.42 20.10 66.95 12.42
Kaiser 73.50 19.57 63.51 11.89 71.33 20.50 66.59 13.14
Tukey 73.67 19.18 62.78 10.79 72.67 21.01 65.92 11.33
Canal 1. Kernel polinomico, n=2
80
Rect.
Trian.
Black.
Hamm.
Hann.
75 Kaiser
Tukey.
% Clasificaciones correctas.
70
65
60
55
55 60 65 70 75 80 85 90
% Vectores soporte.
Figura 6.48: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=2.
Canal 2. Kernel polinomico, n=2
80
Rect.
Trian.
Black.
Hamm.
Hann.
75 Kaiser
Tukey.
% Clasificaciones correctas.
70
65
60
55
55 60 65 70 75 80 85 90
% Vectores soporte.
Figura 6.49: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico P=2.
20 Análisis y discusión de los resultados experimentales.
2 Tabla 6.14: Resultados Kernel polinómico (P:3).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 56.00 15.62 85.54 11.81 55.92 16.75 86.57 12.48
Triangular 57.17 13.97 85.08 11.59 56.50 15.44 85.40 12.61
Blackman 57.58 13.63 87.26 9.82 57.58 15.38 85.51 12.82
Hamming 56.58 13.41 85.25 10.80 56.58 15.56 85.02 12.77
Hanning 57.58 13.66 85.83 10.91 57.58 15.38 85.51 12.82
Kaiser 54.67 14.59 85.81 11.43 54.58 15.64 86.98 12.30
Tukey 55.75 15.11 85.83 11.06 54.75 16.73 85.57 13.03
Canal 1. Kernel polinomico, n=3
94
Rect.
Trian.
92 Black.
Hamm.
Hann.
Kaiser
90 Tukey.
% Clasificaciones correctas.
88
86
84
82
80
78
76
46 48 50 52 54 56 58 60 62 64 66
% Vectores soporte.
Figura 6.50: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=3.
Canal 2. Kernel polinomico, n=3
94
Rect.
Trian.
92 Black.
Hamm.
Hann.
Kaiser
90 Tukey.
% Clasificaciones correctas.
88
86
84
82
80
78
76
46 48 50 52 54 56 58 60 62 64 66
% Vectores soporte.
Figura 6.51: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico P=3.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 20
Tabla 6.15: Resultados Kernel polinómico (P:4). 3
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 45.25 10.52 100.00 0.10 45.00 11.36 96.58 11.84
Triangular 48.00 10.79 99.40 1.35 45.42 8.20 99.94 0.20
Blackman 49.67 12.02 99.27 1.58 46.25 9.56 100.00 0.10
Hamming 47.83 10.14 99.53 1.22 45.25 8.41 100.00 0.10
Hanning 49.75 12.11 99.27 1.58 46.17 9.49 100.00 0.10
Kaiser 45.25 9.28 99.96 0.14 44.33 9.03 100.00 0.10
Tukey 45.50 9.96 99.98 0.10 43.25 10.90 96.26 12.96
Canal 1. Kernel polinomico, n=4
101
Rect.
Trian.
Black.
Hamm.
100.5 Hann.
Kaiser
Tukey.
% Clasificaciones correctas.
100
99.5
99
98.5
98
40 42 44 46 48 50 52 54 56
% Vectores soporte.
Figura 6.52: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=4.
Canal 2. Kernel polinomico, n=4
Rect.
102 Trian.
Black.
Hamm.
Hann.
Kaiser
100
Tukey.
% Clasificaciones correctas.
98
96
94
92
90
38 40 42 44 46 48 50 52
% Vectores soporte.
Figura 6.53: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico P=4.
204 Análisis y discusión de los resultados experimentales.
6.5.2. Análisis.
De la inspección de los resultados obtenidos con los clasificadores basados en Kernels
gaussianos se observa que:
Conforme se aumenta la extensión de la zona de influencia de la función Kernel: 1,
2, 3, 5 y 10; el porcentaje de clasificaciones correctas disminuye, con independencia
tanto del canal como del tipo de ventana de procesamiento, pasando de un 100 % de
clasificaciones correctas para n=1 con cualquier tipo de ventana de preprocesameinto
a valores comprendidos entre el 80 % - 90 % en el caso de ventanas de tipo rectangular,
Kaiser y Tukey, o 65 % - 75 % para el resto de ventanas de preprocesamiento, cuando
se consideran clasificadores con funciones Kernel gaussianas con n=10.
Conforme aumenta el parámetro de la función Kernel, el porcentaje de vectores
soporte considerados disminuye, pasando del 100 % del conjunto de datos de
entrenamiento para n=1, a valores comprendidos entre el 74 % - 85 % dependiendo del
tipo de ventana de preprocesamiento, al igual que para el porcentaje de clasificaciones
correctas, los valores menores se obtienen con ventanas de tipo rectangular, Kaiser y
Tukey, obteniéndose la menor variabilidad para ventanas de Kaiser.
El mismo tipo de análisis llevado a cabo sobre los clasificadores basados en Kernels
polinómicos muestra que:
Al aumentar el orden del polinomio aumenta el número de clasificaciones correctas,
a la vez que disminuye el porcentaje de vectores soporte, llegándose a obtener un
100 % de clasificaciones correctas con Kernels polinómicos de orden 4 o superior, para
Kernels de orden 4 se obtiene un 100 % de clasificaciones correctas con ventanas de
preprocesamiento de tipo rectangular, Kaiser y Tukey, ver figuras 6.32 y 6.33.
Para Kernels de orden 4 o superior el porcentaje de vectores soporte seleccionados se
estabiliza entre el 45 % - 50 % dependiendo del tipo de ventana de preprocesamiento,
los valores menores se obtienen para ventanas de tipo rectangular, Kaiser, Tukey (ver
figuras 6.36, 6.37, 6.52, 6.53), volviéndose a obtener la menor variabilidad para
ventanas de Kaiser.
Realizando una comparación entre los resultados obtenidos con clasificadores cuya
información proviene del canal C3’-C3” frente a los del C4’-C4”, se observa que
el segundo muestra un mejor comportamiento al presentar porcentajes ligeramente
mayores de clasificaciones correctas con menores porcentajes de vectores soporte que
los mostrados por sus homólogos en C3’-C3”, ver figuras 6.30 y 6.31, 6.32 y 6.33.
6.5.3. Discusión.
Los clasificadores basados en Kernels gaussianos tienden al sobre-aprendizaje del
conjunto de entrenamiento, ya que cuando el parámetro caracterı́stico es pequeño, todos
los patrones de entrenamiento presentados se convierten en vectores soporte, conforme el
parámetro caracterı́stico del Kernel aumenta, lo que es equivalente a aumentar la zona
de influencia de cada uno de los vectores soporte seleccionados, el número de los mismos
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 205
6.5.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas realizadas con cinco voluntarios,
presentados en los apartados anteriores, empleando clasificadores basados en MSV
descritas en la sección 4.5.5, se obtienen las siguientes conclusiones:
1. Es preferible la utilización de Kernels polinómicos a Kernels gaussianos.
2. La arquitectura del clasificador a emplear deberı́a emplear Kernels polinómicos
de orden 4 ó 5 ( 5 con la finalidad de aumentar la confianza en la capacidad de
generalización del mismo, mas no de orden superior, ya que no se aprecia mejora
significativa), utilizando una ventana de preprocesamiento de tipo Kaiser, Tukey o
rectangular.
206 Análisis y discusión de los resultados experimentales.
6.6. Corolario.
A modo de resumen, las principales conclusiones de los apartados anteriores se
condensan en los puntos siguientes:
Es factible la discriminación de las actividades cognitivas propuestas, partiendo de
los registros de señal electroencefalográfica adquiridos cuando el usuario desarrolla
dichas actividades.
En todos los experimentos realizados, el hemisferio derecho muestra mayor capacidad
de discriminación que el izquierdo, confirmando las observaciones de diferencias
funcionales entre los mismos.
La consideración de ventanas de procesamiento de Tukey, derivadas del análisis
del efecto de enmarcado de la señal, permite obtener una mejor capacidad de
discriminación de las actividades cognitivas consideradas.
Las componentes del vector de caracter´ısticas que muestran una mejor capacidad de
discriminación son α2 , β1 y β2 .
El espacio de caracterı́sticas original puede ser transformado, mediante combinación
lineal de las mismas, en un espacio de caracter´ısticas menor, sin que por ello se pierda
la capacidad de discriminación de las actividades cognitivas propuestas.
La realimentación del resultado de la clasificación al usuario da lugar a una ligera
disminución en la capacidad de discriminación, pero sin llegar a comprometer su
utilización en dispositivos ICC en lı́nea.
Las caracterı́sticas de la señal electroencefalográficas, intrı́nsecas a cada una de
las actividades cognitivas propuestas, pueden ser aprendidas e identificadas por
clasificadores que empleen el procedimiento de aprendizaje supervisado.
Los mejores resultados se obtienen con clasificadores basados en Máquinas de Soporte
de Vectores con funciones Kernel polinómicas de orden cuatro o superior, seguidos de
los que se basan en redes neuronales de tipo RBF y PNN. Clasificadores basados en
Máquinas de Soporte de Vectores con Kernels gaussianos muestran peores resultados
que los basados en Kernels polinómicos, mientras que por su parte los clasificadores
basados en redes neuronales de tipo MLP no llegan a aprender de modo efectivo el
conjunto de muestras de entrenamiento.
En la arquitectura de los clasificadores basados en redes neuronales, las versiones que
emplean redes diferentes dedicadas a cada canal encefalográfico, muestran valores de
capacidad de discriminación superiores a las versiones en las que se emplea una única
red neuronal que considere ambos canales al mismo tiempo.
La secuencia de clasificaciones contiene información que mejora la capacidad
de discriminación entre las actividades cognitivas consideradas, mostrándose los
modelos ocultos de Markov como técnica válida para la extracción y utilización
de esta información.
Los parámetros de ajuste del clasificador bietapa presentado, son muy dependientes
del usuario, por lo que es necesario un proceso de presintonización que determine el
valor de los mismos.
Capı́tulo 7
Adquisición de señal.
Las señales biológicas, al igual que la gran mayorı́a de señales presentes en la naturaleza,
son de carácter analógico lo que implica su continuidad en el tiempo y en los valores de su
amplitud; sin embargo los procesadores digitales operan sobre códigos discretos asociados
a determinados instantes de tiempo. La conversión analógico/digital permite convertir un
tipo de señal en otro, conservando la mayor cantidad de información, idealmente la señal
analógica recuperada a partir de la señal digital deberı́a ser una copia fiel de la señal
analógica de partida.
La conversión analógico/digital contempla la realización de tres procesos distintos:
muestreo, cuantificación y codificación; a través de los cuales la información de la señal se
convierte de un tipo a otro.
A.2. Cuantificación.
Mediante este procedimiento no lineal se representa el valor de amplitud de la señal
analógica mediante una serie finita de niveles de amplitud. Existen dos tipos de
cuantificación.
El valor eficaz del ruido es equivalente a la ra´ız cuadrada de la suma del valor medio al
cuadrado y la varianza, obteniéndose
q
R= √ (A.7)
2 3
De dónde se desprende que para reducir el valor del ruido hay que reducir
proporcionalmente el intervalo de cuantificación, q. Reducción que queda limitada
por factores tecnológicos y el ruido asociado a los componentes electrónicos.
La relación señal / ruido (S/R), calculada como el cociente del valor eficaz de una
señal senoidal de amplitud entre 0 y (2n − 1/2)q y el ruido presente será:
(2n − 1/2)2 q2/2 2n
S/R = = 6·2 para n > 4. (A.8)
q2/12
S/R(dB) = 10log6 + 20nlog2 = 7,78 + 6,02n (A.9)
Como puede comprobarse la expresión anterior se obtiene para señales cuyo rango de
amplitud cubre el margen de entrada del cuantificador, como es obvio para señales
menores la relación S/R será menor, motivo por el que es muy importante amplificar
la señal de entrada antes de proceder a la cuantificación
A.3. Codificación.
Mediante el proceso de codificación se asocia biunı́vocamente cada uno de los
valores discretos de la salida del codificador a un sı́mbolo dentro de un alfabeto finito,
[Shannon 48]. Si el alfabeto queda compuesto por combinaciones de dos caracteres, y la
posición de cada uno de ellos se corresponde con una potencia entera de dos, se obtienen
los códigos binarios, entre los que se encuentran:
Otros códigos. Existen codificadores que realizan operaciones más exóticas a efectos
de evitar y detectar comportamientos anómalos, como por ejemplo:
Matriz de confusión.
Para presentar los resultados de clasificación obtenidos con la tras la aplicación de un
clasificador a un conjunto de datos se utilizan las matrices de confusión. Éstas proporcionan
información detallada sobre el rendimiento del clasificador para cada una de las clases
consideradas [Nabney 02].
En la matriz de confusión C, las filas representan la asignación real de las muestras
candidatas a cada una de las clases, mientras que las columnas representan las asignaciones
predichas. De este modo la componente Cij de la matriz de confusión representa al número
de muestras que perteneciendo a la clase i han sido asignadas dentro de la clase j; as´ı pues
el clasificador ideal, aquél que no comete errores, serı́a una matriz diagonal.
Uno de los beneficios de la utilización de las matrices de confusión es comprobrar si el
clasificador confunde dos o más clases entre sı́.
Para obtener resultados representativos sobre la bondad del clasificador, es
recomendable que el número de muestras considerados en cada una de las clases sea
semejante, en caso contrario la tasa de error puede llega a no ser representativa de la
bondad de su rendimiento.
A modo de ejemplo considérense las matrices de confusión mostradas en las tablas
B.1 y B.2. En la primera, del clasificador ideal, se observa que todas las muestras son
asignadas a las clases correctas, y el número de muestras considerado es equivalente en las
tres clases.
Cálculo matemático Imaginación movimento Relax
Cálculo matemático 60 0 0
Imaginación movimento 0 65 0
Relax 0 0 55
Mientras que en la matriz de la tabla B.2 se observa que un tercio de las muestras
pertenecientes a Cálculo matemático son clasificadas de forma errónea, con tendencia a
confundirlas con las muestras de la clase Relax. Por su parte todas las muestras de
Imaginación de movimiento son catalogadas de forma correcta. Por último, analizando
la clase Relax se observa que el número de muestras consideradas es del orden de la
220 Matriz de confusión.
quinta parte del considerado en las otras dos clases, y la confusión de cinco de las doce
muestras como pertenecientes a la clase Imaginación de movimiento hace sospechar que
el clasificador en cuestión no pueda discriminar entre ambas clases.
Cálculo matemático Imaginación movimento Relax
Cálculo matemático 40 8 12
Imaginación movimento 0 65 0
Relax 0 5 7
[Allison 03] B. Z. Allison & J. A. Pineda. ERPs evoked by different matrix sizes:
implications for a brain computer interface (BCI) system. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
110–113, 2003.
[Ambler 05] Scott W. Ambler. The elements of uml 2.0 style. Cambridge University
Press, 2005.
[Arlow 05] Jim Arlow & Ila Neustadt. Uml 2. Anaya Multimedia, Madrid, 2005.
[Barreno 97] Pedro Garc´ıa Barreno. Medicina virtual. en los bordes de lo real.
Debate, Madrid, 1997. 019: M. 1045-1997; Pedro Garc´ıa Barreno.
[Baum 66] L.E. Baum & Petrie T. Statistical Inference for probabilistic functions
of Finite State Markov Chains, 1966.
[Baum 70] L.E. Baum, Petrie T., Soules G. & Weiss N. A Maximization Technique
Ocurring in the Statistical Analysis of Probabilistic Functions of
Markov Chains, 1970.
[Bayliss 00] J. D. Bayliss & D. H. Ballard. A virtual reality testbed for brain-
computer interface research. Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 188–190, 2000.
[Bayliss 03] J. D. Bayliss. Use of the evoked potential P3 component for control in
a virtual apartment. Neural Systems and Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Rehabilitation
Engineering], vol. 11, no. 2, pages 113–116, 2003.
[Bengio 96] Y. Bengio & P. Frasconi. Input-output HMMs for sequence processing,
1996.
[Bronzino 95a] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press
: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;
Includes bibliographical references and index.
[Bronzino 95b] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press
: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;
Includes bibliographical references and index.
[Burges 98] Christopher J.C. Burges. A Tutorial on Support Vector Machines for
Pattern Recognition., 1998.
224 BIBLIOGRAFÍA
[Cajal 05] Santiago Ramon y Cajal. Histologı́a del sistema nervioso del hombre y
de los vertebrados, 1905.
[Chang 07] Chih-Chung Chang & Chih-Jen Lin. LIBSVM – A Library for Support
Vector Machines, 2007.
[Chapin 99] J. K. Chapin & K. A. Moxon. Real-time control of a robot arm using
simultaneously recorded neurons in the motor cortex, 1999 1999.
[Colbert 98] Charles Colbert. A measure of perfection: Phrenology and the fine arts
in america. The University of North Carolina Press, 1998.
[Cristianini 05a] Nello Cristianini. Kernel Methods for General Pattern Analysis, 2005.
BIBLIOGRAFÍA 225
[Cristianini 05b] Nello Cristianini & John Shawe-Taylor. And Introduction to Support
Vector Machines and other kernel-based learning methods. Cambridge
University Press, The Edinburgh Building, Cambridge CB2 2RU, UK,
2005.
[Duda 01] Richard Oswald Duda, Peter Elliot Hart & David G. Strok. Pattern
classification. John Wiley and sons, New York etc., 2001. Richard O.
Duda, Peter E. Hart, David G. Strok.
[Fuente O’Connor 93] José Luis Fuente O’Connor. Tecnologı́as computacionales para
sistemas de ecuaciones, optimización lineal y entera. Editorial Reverte,
España, 1993.
226 BIBLIOGRAFÍA
[Galan 07] F. Galan & R. Millan. Feature Extraction for Multi-class BCI using
Canonical Variates Analysis. Presentacion WISP 2007 2007 IEEE
International Symposium on Intelligent Signal Processing, Octuber
2007.
[Gazzaniga 92] Michael Gazzaniga. Nature’s Mind: The biological roats of thinking,
emotions, sexuality, language and Intelligence. Harmonsdsworth,
Penguin Books, 1992.
[Guger 99] B. Obermaier; C. Guger & G. Pfurtscheller. HMM used for the offline
classification of EEG data, 1999.
[Gunn 98] Steve R. Gunn. Support Vector Machines for Classification and
Regression, 1998.
[Gunn 05] Steve Gunn. Matlab Support Vector Machine Toolbox, 2005.
[Juang 91] B. H. Juang & Lawrence R. Rabiner. Hidden Markov Models for Speech
Recognition, August 1991 1991.
[Kennedy 97] Philip R. Kennedy & Roy A. E. Bakay. Activity of single action
potentials in monkey motor cortex during long-term task learning.
Brain Research,, vol. 760, no. 1-2, pages 251–254, 6/20 1997.
[Kumlbler 01] Andrea Kumlbler, Nicola Neumann, Jochen Kaiser, Boris Kotchoubey,
Thilo Hinterberger & Niels P. Birbaumer. Brain-computer
communication: Self-regulation of slow cortical potentials for verbal
communication. Archives of Physical Medicine and Rehabilitation,,
vol. 82, no. 11, pages 1533–1539, 11 2001.
[Martinez 01] A. M. Martinez & A. C. Kak. PCA versus LDA. IEEE Transactions
on Pattern Analysis and Machine Intelligence, vol. 23, no. 2, pages
228–233, February 2001 2001.
[Martinez 09] J.L. Martinez & A. Barrientos. Feedback effect analysis by comparison
of discrimination capability of On-line and Off-line experimental
procedures based on LDA. Proceedings of the BIODEVICES
International Conference on Biomedical Electronics and Devices.,
vol. 1, no. 1, pages 20–25, January 2009.
[Martinez 10] J.L. Martinez & A. Barrientos. Brain Computer Interface. Application
of an adaptive bi-stage classifier based on RBF-HMM. Proceedings of
the BIODEVICES International Conference on Biomedical Electronics
and Devices., vol. 1, no. 1, page Próxima aparición, January 2010.
[Mart´ınez 06] J.L. Mart´ınez & A. Barrientos. The windowing Effect in Cerebral
Pattern Classification. An Application to BCI Technology. IASTED
Biomedical Engineering BioMED 2006, pages 1186–1191, February
2006.
[Mart´ınez 07] J.L. Mart´ınez & A. Barrientos. Linear Discriminant Analysis on Brain
Computer Interface. IEEE. Internacional Symposium on Intelligent
Signal Processing. Conference Proceedings Book, pages 859–864,
November 2007.
230 BIBLIOGRAFÍA
[Mart´ınez 08] J.L. Mart´ınez & A. Barrientos. Brain Computer Interface. Comparison
of neural networks classifiers. Proceedings of the BIODEVICES
International Conference on Biomedical Electronics and Devices.,
vol. 1, no. 1, pages 3–10, January 2008.
[McLachlan 97] McLachlan & T. Krishnan. The em algorithm and extensions. John
Wiley and Sons, 1997.
[Millan 03] J.R. Millan & J. Mourino. Asynchronous BCI and local neural
classifiers: an overview of the adaptive brain interface project. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
159–161, 2003.
[Nabney 02] Ian Nabney. Netlab : algorithms for pattern recognition. Springer,
London, 2002. Ian T. Nabney.; Includes bibliographical references (p.
[407]-412) and indexes.; NETLAB toolbox is available via the Internet.
[NASA 08] NASA. Air Force and NASA Research on pilots has revealed the
secrects of peak mental performance, 2008.
[Obermaier 01b] Bernhard Obermaier, Christa Neuper, Christoph Guger & Gert
Pfurtscheller. Information Transfer Rate in a Five-Classes Brain-
Computer Interface. IEEE Transactions on Neural Systems and
Rehabilitation Engineering, vol. 9, no. 3, pages 283–288, September
2001. Importante.
[Peña Sánchez 86] Daniel Peña Sánchez. Estadı́stica : modelos y métodos, volume 109-
110. Alianza, Madrid, 1986. Daniel Peña Sánchez de Rivera; 2 v. 23
cm; 1. Fundamentos – 2. Modelos lineales y series temporales.
[Pilone 05] Dan Pilone & Neil Pitman. Uml 2.0 in a nutshell. O’Reilly, 2005.
[Pineda 03] J. A. Pineda & et al. Learning to Control Brain Rhythms: Making a
Brain-Computer Interface Possible. IEEE TRANS. ON REH. ENG.,
vol. 11, no. 2, pages 181–184, June 2003.
[Pintado 77] Prudencio Gomez Pintado. Caminos abiertos por santiago ramon y
cajal. ”Libreria y Casa Editorial Hernando, S.A.”, 1977.
[Rezek 00] A. Flexer; P. Sykacek; I. Rezek & G. Dorffner. Using hidden Markov
models to build an automatic, continuous and probabilistic sleep stager,
2000.
[Rich 94] Elaine Rich & Kevin Knight. Inteligencia artificial. McGraw-
Hill, Madrid, 1994. Elaine Rich, Kevin Knight; Agotado (3-11-05);
19950223.
[Ripley 96] Brian D. Ripley. Pattern recognition and neural networks. Cambridge
University Press, United Kingdom, 2000 1996.
[Rockstroh 89] Brigitte Rockstroh. Slow brain potentials and behavior. Urban
and Schwarzenberg, Baltimore, 1989. Brigitte Rockstroh ... [et al.].;
Bibliography: p. 229-250.
[Rocon 06] Eduardo Rocon. Reducción activa de temblor patológico de miembro
superior mediante exoesqueletos robóticos. PhD thesis, Universidad
Politécnica de Madrid, 2006.
[Rousche 98] Patrick J. Rousche & Richard A. Normann. Chronic recording
capability of the Utah Intracortical Electrode Array in cat sensory
cortex. Journal of Neuroscience Methods,, vol. 82, no. 1, pages 1–15,
7/1 1998.
[Rubio 00] José Luis Bardasano Rubio & José Ignacio Elorrieta Pérez de Diego.
Bioelectromagnetismo. ciencia y salud. McGraw-Hill, Madrid etc.,
2000. 019: M. 10344-2000; José Luis Bardasano Rubio, José Ignacio
Elorrieta Pérez de Diego.
[Rumbaugh. 99] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.
Addison Wesley Iberoamericana, Madrid, 1999.
[Rumbaugh. 00a] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.
manual de referencia. Pearson Educacion, Madrid, 2000.
[Rumbaugh 00b] Jacobson; Booch; Rumbaugh. El proceso unificado de desarrollo de
software. Pearson Educacion, Madrid, 2000.
[Rupp 06] R. Rupp, G. MÃ41 ller-Putz, R. Scherer, G. Pfurtscheller & H. J.
Gerner. Moving thoughts. A brain-computer interface for control of
grasp neuroprostheses in tetraplegic patients. Journal of Biomechanics,,
vol. 39, no. Supplement 1, pages S371–548, 2006.
[Sarcinelli 09] Andre Ferreira; Teodiano Freire; Mario Sarcinelli & J. L. MartÃn
Sanchez. Evaluation of PSD components and AAR parameters as
input features for a SVM classifier applied to a robotic wheelchair.
Proceedings of the BIODEVICES International Conference on
Biomedical Electronics and Devices., vol. 1, no. 1, pages 7–12, January
2009.
[Schalk 04] G. Schalk. BCI2000: a general-purpose brain-computer interface (BCI)
system, 2004. ID: 1.
[Scherer 04] R. Scherer, G. R. Muller, C.Ñeuper, B. Graimann & G. Pfurtsche-
ller. An asynchronously controlled EEG-based virtual keyboard: impro-
vement of the spelling rate. Biomedical Engineering, IEEE Transactions
on, vol. 51, no. 6, pages 979–984, 2004.
BIBLIOGRAFÍA 235
[Webster 04] John G. Webster. Bioinstrumentation. John Wiley & Sons, Hoboken,
N.J., 2004. John G. Webster, editor.; Includes bibliographical
references and index.
[Williams 99] Justin C. Williams, Robert L. Rennaker & Daryl R. Kipke. Long-term
neural recording characteristics of wire microelectrode arrays implanted
in cerebral cortex. Brain Research Protocols,, vol. 4, no. 3, pages 303–
313, 12 1999.
[Zhong 02] S. Zhong & J. Ghosh. HMM’s and coupled HMM’s for multi-channel
EEG classification, 2002.