Está en la página 1de 259

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES

COMUNICACIÓN CON COMPUTADOR


MEDIANTE SEÑALES CEREBRALES.
APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.

Tesis Doctoral

José Luis Martı́nez Pérez.


Ingeniero Industrial por la ETSII de Madrid

2009
DEPARTAMENTO DE AUTOMÁTICA, INGENIERÍA ELECTRÓ NICA
E INFORMÁTICA INDUSTRIAL
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES

COMUNICACIÓN CON COMPUTADOR


MEDIANTE SEÑALES CEREBRALES.
APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.

Tesis Doctoral

Autor: José Luis Martı́nez Pérez.


Ingeniero Industrial por la ETSII de Madrid

Director: Dr. Antonio Barrientos Cruz.


Doctor Ingeniero Industrial.

2009
T´ıtulo:
COMUNICACIÓN CON COMPUTADOR MEDIANTE SEÑALES
CEREBRALES. APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.

Autor:
José Luis Martı́nez Pérez.

Tribunal:

Presidente : Ramón Galán

Vocales :

XXXXXXX

Secretario : XXXXXXX

Suplentes :

Acuerdan otorgar la calificación de:

Madrid, XX de YY de 2008
A mi padre y madre: Luis y Eladia.
Resumen

Avances recientes en hardware para ordenadores personales y procesamiento de señal


ha hecho posible el uso de señales EEG u ondas cerebrales para comunicación entre
personas y computadores. Pacientes que sufren de s´ındromes bloqueantes disponen ahora
de una nueva forma de comunicación con el resto del mundo, pero incluso con las más
modernas técnicas, estos sistemas aún tienen tasas de comunicación del orden de 2-3
actividades / minuto. En suma, los dispositivos existentes no son diseñados con la idea de
flexibilidad en mente, dando lugar a sistemas lentos que son dif´ıciles de mejorar.
Este proyecto explora la efectividad de las técnicas de análisis en tiempo y en
frecuencia para la clasificación de diferentes actividades mentales haciendo uso de
electroencefalografı́a (EEG). Señales EEG de de dos canales provenientes de varios
voluntarios han sido estudiadas durante la realización de tres tareas mentales (lı́nea
base, imaginación de movimiento, actividad matemática). La distinción entre ellas en
clasificación On-line es el principal objetivo del proyecto.
Diferentes métodos basados en representaciones temporales y frecuenciales han sido
considerados para la clasificación entre las tareas mencionadas. Los resultados indican
la utilización de este método para ventanas de un tercio de segundo, distinguir las
caracter´ısiticas de los datos, con porcentajes de acierto aceptables.

ix
Índice general

Lista de Figuras. XV

Lista de Tablas. XXI

1. Introducción. 1
1.1. La tecnolog´ıa de Interfaz Cerebro Computador. . . . . . . . . . . . . . . . . 1
1.1.1. Clasificación de dispositivos ICC. . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Componentes de un dispositivo ICC. . . . . . . . . . . . . . . . . . . 5
1.2. Aplicación de la tecnologı́a ICC. . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1. Ciencia de la rehabilitación. . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2. Teleoperación de robots industriales. . . . . . . . . . . . . . . . . . . 11
1.2.3. Sector militar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.4. Sector del ocio y entretenimiento. . . . . . . . . . . . . . . . . . . . . 11
1.3. Motivaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Objetivos de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Aportaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Estructura de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2. Estado de la técnica. 15
2.1. Fundamentos fisiológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1. Fisiolog´ıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2. La neurona. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. El Sistema Nervioso. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.4. El Cerebro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2. Técnicas para la adquisición de actividad cerebral. . . . . . . . . . . . . . . 27
2.2.1. Electroencefalografı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2. Magnetoencefalografı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.3. Imagen cerebral mediante rayos X. . . . . . . . . . . . . . . . . . . . 41
2.2.4. Imagen cerebral mediante imagen nuclear. . . . . . . . . . . . . . . . 42
2.2.5. Imagen cerebral mediante tomograf´ıa computerizada. . . . . . . . . . 43
2.2.6. Imagen cerebral: MRI. . . . . . . . . . . . . . . . . . . . . . . . . . . 44
XII ÍNDICE GENERAL

2.2.7. Imagen cerebral: SPECT ................................................................................................45


2.2.8. Imagen cerebral: Tomografı́a por Emisión de Positrones (PET). ........... 45
2.3. Referencias históricas sobre la tecnologı́a ICC ....................................................... 46
2.4. Estado actual de la tecnolog´ıa ..............................................................................................................................51

3. Adquisición y procesamiento de señal EEG. 57


3.1. Acondicionamiento de la señal electroencefalográfica ............................................ 59
3.2. Muestreo, cuantificación y codificación de la señal EEG ...................................... 60
3.3. Normalización y ventaneado ..................................................................................... 60
3.4. Transformación de la señal del espacio temporal al espacio frecuencial. ............ 64
3.5. Obtención del vector de caracterı́sticas ................................................................... 65
3.6. Detección de artefactos ............................................................................................. 65

4. Tipologı́a de clasiftcadores. 67
4.1. Métodos estadı́sticos : Comparación de dos poblaciones ...................................... 68
4.1.1. Introducción ................................................................................................... 68
4.1.2. Descripción del test de contraste de la igualdad de dos poblaciones ...... 71
4.1.3. Procedimiento operacional ............................................................................................74
4.2. Métodos estadı́sticos: Análisis por discriminantes lineales .................................... 77
4.2.1. Introducción ................................................................................................... 77
4.2.2. Referencia histórica ....................................................................................... 78
4.2.3. Discriminación lineal clásica ........................................................................ 78
4.2.4. Discriminante lineal de Fisher .....................................................................................80
4.2.5. Procedimiento operacional ............................................................................................82
4.3. Clasificadores basados en redes neuronales ......................................................................... 83
4.3.1. Clasificador Perceptrón Multicapa MLP .................................................... 85
4.3.2. Clasificador basado en red neuronal de tipo RBF ............................................ 94
4.3.3. Clasificador basado en red neuronal de tipo PNN .......................................... 102
4.4. Clasificador bietapa basado en Modelo Oculto de Markov y RBF ......................... 104
4.4.1. Descripción Modelo Oculto de Markov .................................................... 104
4.4.2. Solución a los problemas canónicos ........................................................... 107
4.4.3. Densidades de observación continuas en MOM ....................................... 114
4.4.4. Tipos de Modelos Ocultos de Markov .......................................................................115
4.4.5. Consideraciones prácticas en la implementación de Modelos Ocultos
de Markov ..................................................................................................................................122
4.4.6. Descripción del algoritmo de clasificación bietapa .................................. 125
4.5. Clasificador basado en Máquina de Soporte de Vectores .................................... 129
4.5.1. Introducción a las Máquinas de Soporte de Vectores ............................. 129
4.5.2. Descripción del clasificador lineal óptimo ................................................ 130
4.5.3. Descripción del problema de optimización lineal .................................... 131
4.5.4. Margen blando.................................................................................................................. 133
ÍNDICE GENERAL XIII

4.5.5. Descripción del clasificador no lineal ........................................................ 134


4.5.6. Comparación entre Máquinas de soporte de Vectores y Redes
Neuronales ......................................................................................................................... 136
4.5.7. Implementaciones........................................................................................................... 138

5. Procedimientos experimentales y aplicación de demostración. 139


5.1. Protocolo preparación del usuario ......................................................................... 139
5.2. Descripción del equipo de adquisición y procesamiento ...................................... 140
5.3. Descripción de las actividades cognitivas .............................................................. 141
5.4. Descripción del protocolo para el procedimiento Off-line ................................... 142
5.5. Descripción del protocolo para el procedimiento On-line ................................... 144
5.6. Procedimientos experimentales de clasificación ................................................... 145
5.6.1. Contraste estad´ıstico de poblaciones ..................................................................... 146
5.6.2. Análisis Discriminante Lineal .................................................................... 147
5.6.3. Clasificadores basados en redes neuronales ....................................................... 148
5.6.4. Clasificador bietapa RBF-MOM ............................................................................... 149
5.6.5. Clasificador basado en Máquinas de Soporte de Vectores ...................... 150
5.7. Descripción de arquitectura dispositivo ICC ........................................................ 151
5.7.1. Identificación de actores ............................................................................. 151
5.7.2. Descripción de casos de uso ....................................................................... 151
5.7.3. Estructura de clases de análisis ................................................................. 155
5.7.4. Realización de los Casos de Uso ................................................................ 158

6. Análisis y discusión de los resultados experimentales. 161


6.1. Resultados del método estadı́stico de comparación de poblaciones ................... 161
6.1.1. Presentación de resultados ......................................................................... 162
6.1.2. Análisis ......................................................................................................... 162
6.1.3. Discusión ...................................................................................................... 165
6.1.4. Conclusiones...................................................................................................................... 166
6.2. Resultados obtenidos aplicando la técnica LDA .................................................. 167
6.2.1. Presentación de resultados ......................................................................... 167
6.2.2. Análisis ......................................................................................................... 174
6.2.3. Discusión ...................................................................................................... 174
6.2.4. Conclusiones...................................................................................................................... 175
6.3. Resultados obtenidos con clasificadores basados en redes neuronales ...................176
6.3.1. Presentación de resultados ......................................................................... 176
6.3.2. Análisis ......................................................................................................... 185
6.3.3. Discusión ...................................................................................................... 185
6.3.4. Conclusiones...................................................................................................................... 186
6.4. Resultados obtenidos con clasificadores bietapa basados en redes neuronales
y Modelos Ocultos de Markov........................................................................................................ 187
XII
6.4.1. Presentación de resultados ......................................................................... ÍNDICE GENERAL
187
6.4.2. Análisis ......................................................................................................... 189
6.4.3. Discusión ...................................................................................................... 189
6.4.4. Conclusiones ...................................................................................................................... 189
6.5. Resultados obtenidos con clasificadores basados en Máquinas de Soporte de
Vectores ................................................................................................................................................................190
6.5.1. Presentación de resultados ......................................................................... 190
6.5.2. Análisis 204
6.5.3. Discusión 204
6.5.4. Conclusiones ...................................................................................................................... 205
6.6. Corolario ............................................................................................................................................. 206

7. Conclusiones y futuros desarrollos. 207


7.1. Conclusiones ..................................................................................................................................... 207
7.2. Futuros desarrollos ........................................................................................................................ 209

A. Adquisición de señal. 213


A.1. Muestreo de señales ................................................................................................. 213
A.2. Cuantificación ........................................................................................................... 215
A.3. Codificación .............................................................................................................. 217

B. Matriz de confusión. 219


Lista de Figuras

1.1. Representación del sistema ICC ................................................................................. 2


1.2. Clasificación de dispositivos ICC ............................................................................... 4
1.3. Componentes de un sistema ICC................................................................................................. 5

2.1. Diagrama frenológico ................................................................................................. 16


2.2. Neuronas. Ramón y Cajal ......................................................................................... 17
2.3. Neuronas ............................................................................................................................................... 18
2.4. Topologı́a de la célula neuronal ................................................................................ 19
2.5. Tipos de neuronas ............................................................................................................................ 20
2.6. Tipos de sinapsis. (a - Axoaxiónica. b - Axodendrı́tica . c - Axosomática.) . 21
2.7. Sistema Nervioso ....................................................................................................................... 22
2.8. Encéfalo ....................................................................................................................... 22
2.9. Cabeza .................................................................................................................................................... 23
2.10. Tronco encefálico ........................................................................................................ 24
2.11. Nervios craneales .............................................................................................................................. 25
2.12. Distribución de las funciones de la corteza cerebral .............................................. 27
2.13. Técnicas de registro monopolar y diferencial ......................................................... 29
2.14. Sistema electroencefalográfico 10 - 20 ..................................................................... 30
2.15. Electroencefalograma normal...................................................................................................... 31
2.16. Localización somatosensorial .................................................................................... 33
2.17. Localización de potenciales auditivos evocados ...................................................... 34
2.18. Componentes de los potenciales auditivos evocados ........................................................35
2.19. Potenciales sensoriales evocados ............................................................................................... 36
2.20. Componentes de los potenciales visuales evocados ..........................................................36
2.21. Intensidad de campos bio-magnéticos ..................................................................... 38
2.22. Magnetocardiograma ....................................................................................................................... 39
2.23. Magnetoencefalograma con campos magnéticos auditivos inducidos .................. 39
2.24. Magnetoencefalograma con campos magnéticos sensitivos inducidos ................. 40
2.25. Rayos X .......................................................................................................................................... 41
2.26. Camara Gamma................................................................................................................................. 42
2.27. Tomograf´ıa computerizada ........................................................................................................... 43
2.28. Tomograf´ıa computerizada ........................................................................................................... 43
XVI LISTA DE FIGURAS

2.29. En MRI, la bobina de radio frecuencia excita las secciones en el eje Y . Un


receptor de RF mide la secciones en el eje X ............................................ 44
2.30. MRI tejidos blandos ........................................................................................................................ 44
2.31. Tomografı́a por Emisión de Positrones .................................................................... 45
2.32. Velocidad de transferencia de información en bits/min, variando el número
de posibles elecciones N= {2, 4, 8, 16 ó 32 }.............................................................. 52
2.33. Evolución temporal del desarrollo de la tecnologı́a ICC ....................................... 56

3.1. Colocación de los electrodos ..................................................................................... 58


3.2. Esquema de conexionado eléctrico ........................................................................... 58
3.3. Registro de señal tı́pico ............................................................................................. 59
3.4. Procedimiento de ventaneado de la señal ............................................................... 61
3.5. Ventanas de preprocesamiento Rectangular y Triangular................................................ 62
3.6. Ventanas de preprocesamiento: Blackman, Hamming y Hanning ............................. 63
3.7. Ventanas de preprocesamiento: Kaiser y Tukey............................................................................. 63
3.8. Efecto de derrame frecuencial .................................................................................................... 63

4.1. Proceso contraste de hipótesis .................................................................................. 68


4.2. Procedimiento operacional........................................................................................................... 76
4.3. Arquitectura de una red neuronal tipo perceptrón multicapa .............................. 85
4.4. Representación perceptrón ........................................................................................ 86
4.5. Funciones de activación ............................................................................................. 87
4.6. Arquitectura general de una red MLP ................................................................................... 88
4.7. Arquitectura de una red neuronal 2tipo RBF ....................................................................... 94
4.8. Función de activación, φ(x ) = e − 2 σ2 ..........................................................................................................................................................96
x

4.9. Comparación clasificación MLP vs RBF .............................................................. 100


4.10. Arquitectura de una red neuronal tipo PNN .................................................................... 102
4.11. Representación Modelo Oculto de Markov ........................................................... 104
4.12. Algoritmo “adelante-atrás”. Procedimiento hacia delante .................................. 109
4.13. Algoritmo “adelante-atrás”. Procedimiento hacia atrás ..................................... 109
4.14. Representación de la obtención de εt (i, j) ............................................................ 112
4.15. Esquema del modelo ergódico ................................................................................ 115
4.16. Esquema del modelo izquierda-derecha..........................................................................................116
4.17. Esquema del modelo rutas paralelas ..................................................................................................... 116
4.18. Esquema del modelo entrada-salida ...........................................................................................117
4.19. Algoritmo de clasificación bietapa ......................................................................... 126
4.20. Arquitectura de la red neuronal RBF................................................................................... 127
4.21. Entrenamiento de la red neuronal RBF............................................................................... 128
4.22. Entrenamiento de los MOM’s ................................................................................................... 128
4.23. Funcionamiento MSV ................................................................................................................... 129
4.24. Selección del hiperplano óptimo ............................................................................. 131
LISTA DE FIGURAS XVII

4.25. Separación lineal: margen blando .......................................................................... 134


4.26. Separación no lineal ................................................................................................. 135

5.1. Localización de los electrodos ................................................................................. 140


5.2. Componentes del sistema ......................................................................................................... 141
5.3. Flujograma procedimiento “Off-line” ................................................................................ 142
5.4. Flujograma procedimiento “On-line” ................................................................................ 144
5.5. Procedimiento de procesamiento registros EEG............................................................ 145
5.6. Procedimiento estadı́stico de comparación de poblaciones ................................. 146
5.7. Procedimiento de aplicación de la técnica LDA ................................................... 147
5.8. Procedimiento de aplicación de clasificadores basados en redes neuronales ..... 148
5.9. Procedimiento de aplicación del clasificador bietapa RBF-MOM ..................... 149
5.10. Procedimiento de aplicación del clasificador basado en MSV ............................ 150
5.11. Casos de uso de la aplicación ................................................................................. 151
5.12. Interfaz de la aplicación demostrador .................................................................... 152
5.13. Interfaz de la aplicación demostrador .................................................................... 157
5.14. Diagrama de secuencia del caso de uso Puesta en marcha del sistema ................ 158
5.15. Diagrama de secuencia del caso de uso “Deletrear palabra” ............................................159
5.16. Diagrama de secuencia del caso de uso Finalización de la aplicación. ............. 160

6.1. Resultados de la comparación de actividades cognitivas en el canal 1 ............. 163


6.2. Resultados de la comparación de actividades cognitivas en el canal 2 ............. 164
6.3. Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X1 ........................................................................................................ 168
6.4. Off-line. Cálculo matemático vs Relax. Proyec. sobre X1 ................................................ 168
6.5. Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 ............................... 169
6.6. On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X1 ........................................................................................................ 169
6.7. On-line. Cálculo matemático vs Relax. Proyec. sobre X1 ................................................ 170
6.8. On-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 ............................... 170
6.9. Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X2 ........................................................................................................ 171
6.10. Off-line. Cálculo matemático vs Relax. Proyec. sobre X2 ................................................ 171
6.11. Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 ............................... 172
6.12. On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X2 ........................................................................................................ 172
6.13. On-line. Cálculo matemático vs Relax. Proyec. sobre X2 ................................................ 173
6.14. On-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 ............................... 173
6.15. Sujeto A. Canal 1. Clasificaciones correctas ............................................................... 177
6.16. Sujeto A. Canal 2. Clasificaciones correctas ............................................................... 177
6.17. Sujeto A. Canal 1 y 2. Clasificaciones correctas ....................................................... 178
6.18. Sujeto B. Canal 1. Clasificaciones correctas ............................................................... 178
XVIII LISTA DE FIGURAS

6.19. Sujeto B. Canal 2. Clasificaciones correctas ................................................................. 179


6.20. Sujeto B. Canal 1 y 2. Clasificaciones correctas .............................................................. 179
6.21. Sujeto C. Canal 1. Clasificaciones correctas.................................................................. 180
6.22. Sujeto C. Canal 2. Clasificaciones correctas.................................................................. 180
6.23. Sujeto C. Canal 1 y 2. Clasificaciones correctas .......................................................... 181
6.24. Sujeto D. Canal 1. Clasificaciones correctas ................................................................. 181
6.25. Sujeto D. Canal 2. Clasificaciones correctas ................................................................. 182
6.26. Sujeto D. Canal 1 y 2. Clasificaciones correctas .............................................................. 182
6.27. Sujeto E. Canal 1. Clasificaciones correctas.................................................................. 183
6.28. Sujeto E. Canal 2. Clasificaciones correctas.................................................................. 183
6.29. Sujeto E. Canal 1 y 2. Clasificaciones correctas .............................................................. 184
6.30. Porcentaje de clasificaciones correctas. Canal 1. Kernel gaussiano........................192
6.31. Porcentaje de clasificaciones correctas. Canal 2. Kernel gaussiano ........................192
6.32. Porcentaje de clasificaciones correctas. Canal 1. Kernel polinómico. ................ 193
6.33. Porcentaje de clasificaciones correctas. Canal 2. Kernel polinómico. ................ 193
6.34. Porcentaje de vectores soporte. Canal 1. Kernel gaussiano ....................................... 194
6.35. Porcentaje de vectores soporte. Canal 2. Kernel gaussiano ....................................... 194
6.36. Porcentaje de vectores soporte. Canal 1. Kernel polinómico ............................. 195
6.37. Porcentaje de vectores soporte. Canal 2. Kernel polinómico ............................. 195
6.38. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano
P=1 ................................................................................................................................................ 196
6.39. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano
P=1 ................................................................................................................................................ 196
6.40. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano
P=2 ................................................................................................................................................ 197
6.41. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano
P=2 ................................................................................................................................................ 197
6.42. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano
P=3 ................................................................................................................................................ 198
6.43. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano
P=3 ................................................................................................................................................ 198
6.44. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano
P=5 ................................................................................................................................................ 199
6.45. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano
P=5 ................................................................................................................................................ 199
6.46. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano
P=10 ...................................................................................................................................................... 200
6.47. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano
P=10 ...................................................................................................................................................... 200
6.48. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico
P=2 ................................................................................................................................................ 201
LISTA DE FIGURAS XIX

6.49. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico


P=2 ................................................................................................................................................ 201
6.50. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico
P=3 ................................................................................................................................................ 202
6.51. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico
P=3 ................................................................................................................................................ 202
6.52. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico
P=4 ................................................................................................................................................ 203
6.53. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico
P=4 ................................................................................................................................................ 203

A.1. Cuantificación uniforme .......................................................................................... 215


XX LISTA DE FIGURAS
Lista de Tablas

2.1. Terminolog´ıa de formas de onda para EEG.......................................................................... 32


2.2. Componentes potenciales sensoriales evocados ............................................................... 35

3.1. Tipos de ventanas de preprocesamiento considerados.................................................. 62


3.2. Determinación del vector de caracterı́sticas ........................................................... 65

4.1. Vector de caracter´ısticas......................................................................................................................................75


4.2. Funciones Kernel ............................................................................................................................137
4.3. Comparación entre SVM y Redes Neuronales ...................................................... 137

6.1. Resultados voluntario AL01..................................................................................................... 188


6.2. Resultados voluntario RO01 .......................................................................................................... 188
6.3. Resultados voluntario JA01 ...................................................................................................... 188
6.4. Resultados voluntario DA01 .......................................................................................................... 188
6.5. Resultados voluntario RA01 .................................................................................................... 188
6.6. Resultados voluntario RA02 .................................................................................................... 188
6.7. Familia de funciones Kernel y parámetros caracterı́sticos .................................. 190
6.8. Resultados Kernel gaussiano (P:1) ....................................................................................... 196
6.9. Resultados Kernel gaussiano (P:2) ....................................................................................... 197
6.10. Resultados Kernel gaussiano (P:3) ....................................................................................... 198
6.11. Resultados Kernel gaussiano (P:5) ....................................................................................... 199
6.12. Resultados Kernel gaussiano (P:10) .................................................................................... 200
6.13. Resultados Kernel polinómico (P:2) ...................................................................... 201
6.14. Resultados Kernel polinómico (P:3) ...................................................................... 202
6.15. Resultados Kernel polinómico (P:4) ...................................................................... 203

B.1. Matriz de confusión del clasificador ideal ............................................................. 219


B.2. Matriz de confusión para un clasificador real ....................................................... 220
XXII LISTA DE TABLAS
Capı́tulo 1

Introducción.

1.1. La tecnologı́a de Interfaz Cerebro Computador.


Desde el momento en que un ser humano nace, la interacción con el entorno que le rodea
se produce a través de dos vı́as, una sensorial destinada a la percepción de dicho entorno,
y otra motora, con la que se modifica dicho entorno a través de movimientos, [Ratey 03].
Mediante un proceso de aprendizaje, [Webster 04], [Wang 08], iniciado incluso antes de
nacer, en el vientre materno se determinan los canales y bucles de señales electroquı́micas
que permitirán tanto la adquisición de información del entorno exterior, como el control
de los músculos con los que modificar dicho entorno, [Baker 89], [Jessell 91].
Siendo pues la percepción de información y el movimiento, los mecanismos de
interacción con el entorno fı́sico que nos rodea, no es de extrañar que la práctica totalidad
de los actuales dispositivos de interfaz entre personas y máquinas necesiten algún tipo de
control muscular voluntario, aunque éste sea mı́nimo como por ejemplo es el caso de los
dispositivos de comunicación aumentada [Reilly 99], [Montoya 02].
Esta necesidad de movimiento impide que personas que hayan sufrido algún tipo
de accidente traumático, que afecte a su capacidad de movimiento, o con trastornos
neuromotores que se manifiesten en episodios de bloqueo o parálisis muscular, puedan
hacer uso de dichos mecanismos de comunicación, sin embargo la mayorı́a de personas con
este tipo de problemas mantienen intactas su sensación corporal, vista y oı́do, ası́ como
sus capacidades cognitivas [Arnao 97].
Por ello desde que en 1920, el Dr. Hans Berger demostrará la existencia de variaciones
de potenciales eléctricos en el cerebro asociadas a diferentes estados [Bronzino 95a],
[Webster 04], [Baker 89], la comunidad cient´ıfica ha buscado el modo de aplicar dicho
descubrimiento para obtener una vı́a de comunicacion más directa entre el cerebro
humano y dispositivos mecánicos externos, [Wolpaw 00b], [Wolpaw 03], [Pfurtscheller 00],
[Perelmouter 99], [McFarland 97], [Penny 99], [Birch 00], dando lugar al surgimiento de
la tecnologı́a de Interfaz Cerebro Computador, ICC1 , definida como “una nueva vı́a
de comunicación entre personas y computadores, radicalmente diferente a las empleadas
en la actualidad, que utiliza canales de comunicación independientes de los canales
de salida habituales del cerebro: sistema nervioso periférico y músculos” [Wolpaw 00a],
1
En terminologı́a sajona esta tecnologı́a se conoce bajo las siglas BCI:“Brain Computer Interface”
2 Introducción.

[Wolpaw 02]. Lo cual la hace especialmente valiosa en áreas como rehabilitación


[Jacques 94], tratamiento de enfermedades nerviosas [Siegfried 97], realidad virtual o sector
militar, [NASA 08].
Como se puede comprobar en esta tesis, la tecnolog´ıa ICC involucra aspectos complejos,
como el control voluntario de la señal electroencefalográfica tanto de neuronas individuales
como de centros neuronales en cualquiera de sus diferentes modalidades: potenciales
evocados, actividad neuronal espontánea, desincronización y sincronización de ritmos
cerebrales; ası́ mismo implica la detección, medición, interpretación y clasificación de dicha
actividad neuronal por medio de sistemas basados en microprocesadores, para as´ı controlar
diferentes tipos de dispositivos como por ejemplo: prótesis neuronales, [Donchin 00],
[Isaacs 00], prótesis robotizadas, [Chapin 99], [Mahajan 98], sillas de ruedas eléctricas u
ordenadores personales, [Perelmouter 99], [Millan 03], sistemas de comunicación verbal,
[Kumlbler 01].
Desde el punto de vista de interacción entre el ser humano y el dispositivo mecánico
externo, hay que considerar que en el bucle de control interactúan dos componentes
adaptativos con capacidad de aprendizaje, por un lado la persona y por otro el propio
dispositivo de interfaz. Por lo que es preciso analizar el efecto que sobre la capacidad de
utilización del sistema tienen tanto el efecto de realimentación de información al usuario,
como los cambios de estado de ánimo de éste, [Holzapfel 98], [Sheikh 03].
Diferentes técnicas de adquisición y registro de actividad cerebral son empleadas en
ICC, [Wolpaw 03], [Barreno 97], [Rubio 00], como por ejemplo: la magnetoencefalografı́a
(MEG), la Tomografı́a por Emisión de Positrones (PET), o la imagen de resonancia
magnética funcional (fMRI); existiendo en la actualidad grupos de investigación
trabajando sobre ellas. Sin embargo las técnicas anteriores presentan bien el inconveniente
de tener constantes de tiempo muy altas, al quedar su funcionamiento ligado al flujo
sanguı́neo, caso de PET, fMRI e imagen óptica; o bien requerir un equipamiento muy
costoso, [Laitinen 03]: MEG, PET, fMRI.En la actualidad la electroencefalografı́a es
la técnica que por precio y tiempo de reacció n consigue mejores resultados [Birch 03],
[Birch 00], [Borisoff 04], [Pfurtscheller 00].

Figura 1.1: Representación del sistema ICC


1.1 La tecnologı́a de Interfaz Cerebro Computador. 3

1.1.1. Clasificación de dispositivos ICC.


Investigadores en ICC han adoptado diferentes aproximaciones, en muchos casos
novedosas y únicas, para la detección de cambios voluntarios en la actividad cerebral
del sujeto, a partir del análisis de variaciones en los diferentes tipos de señales
electroencefalográficas, entre los que se encuentran la desincronización y posterior
sincronización de ritmos cerebrales, potenciales evocados o actividad cortical de neuronas
individuales.
La actividad electroencefalográfica incluye una gran variedad de patrones o ritmos
diferentes que son identificados por su frecuencia, localización, morfologı́a y asociación
con varios aspectos del funcionamiento cerebral [Jessell 91], [Baker 89], [Webster 04].
Se ha demostrado que las personas, y ciertos hom´ınidos [Maynard 99], [Kennedy 97],
pueden aprender a controlar la amplitud de varios de estos ritmos cerebrales, [Birbaumer
03], [Birbaumer 00], [Lauer 00], [Sheikh 03]. Ritmos μ y generación de diferentes
tipos de potenciales son producidos en la zona senso-motora del cortex cerebral, bien
durante movimientos voluntarios, o bien cuando se imagina o prepara un movimiento,
[Penny 00]. Técnicas avanzadas de procesamiento de señal permiten la detección en lı́nea
de este fenómeno, dando lugar a que con su aprendizaje razonablemente rápido, se
pueda controlar el movimiento de un cursor sobre la pantalla de un computador. La
combinación de diferentes ritmos EEG puede ser empleada para controlar el movimiento
bidimensional de un cursor, [Wolpaw 00b]. Por otro lado, la estimulación sensorial y
potenciales relacionados con la actividad motora asociada a movimientos reales o figurados,
da lugar a una compleja y rica actividad electroencefalográfica que involucra a una gran
cantidad de potenciales evocados que pueden ser usados en dispositivos de comunicación
y control basados en la tecnolog´ıa ICC, dando lugar a diferentes clases dentro de las que
catalogar tanto a los dispositivos ICC como a las lı́neas de investigación de las que parten.
Desde un punto de vista fisiológico los dispositivos ICC se pueden clasificar en exógenos
o endógenos, véase figura 1.2, en el caso de los sistemas exógenos al usuario del sistema se le
suministran est´ımulos externos y se analiza la respuesta cerebral a los mismos. Un ejemplo
donde esta técnica ha sido empleada con éxito es con potenciales visuales evocados, P300, y
su empleo en sistemas para deletrear palabras, [Donchin 00]. Personas que sufren bloqueos
en su capacidad de respuesta o inicio de actividad, pueden utilizar potenciales evocados
lentos2 para por ejemplo deletrear palabras o en labores de control, siendo necesario un
proceso de aprendizaje condicionado.
Los dispositivos endógenos por el contrario, basan su funcionamiento en detectar y
reconocer determinados patrones de ondas cerebrales ligados a la voluntad del usuario, sin
que sea necesario proporcionar estı́mulos externos; un ejemplo en el que esta técnica ha sido
utilizada con éxito es con la detección de la desincronización y posterior sincronización
de ritmos β o μ que se producen cuando el usuario imagina o planifica movimientos,
[Scherer 04], [Wolpaw 03].
2
Los potenciales evocados lentos son la suma de potenciales de activación ultralentos en las dendritas
de las neuronas corticales, surgen de diferentes capas del cortex cerebral.
4 Introducción.

Otro tipo de clasificación con base fisiológica, se realiza atendiendo a la utilización de


determinadas estructuras cerebrales. Se catalogan como dispositivos ICC independientes
los que, como en el caso anterior, aprenden patrones de actividad con independencia de la
causa que los origine, y dispositivos dependientes los que detectan la activación de
determinadas regiones del cerebro asociadas a salida de información del mismo, y as´ı
detectar o inferir la voluntad del usuario. Un ejemplo de este tipo de dispositivos ICC
dependientes, serı́an los que determinan la dirección de la mirada del usuario partiendo
del análisis de potenciales visuales evocados, [Sutter 92]. En ambos casos es preciso que el
usuario realice un proceso de aprendizaje y adaptación al sistema, siendo por lo general
más laborioso para el caso de dispositivos endógenos, [Wolpaw 07].
Un último tipo clasificación viene dado por el tipo de electrodos empleados, existen
en este sentido dos grandes clases: electrodos superficiales que se colocan sobre el
cuero cabelludo, y los implantables, [Hoogerwerf 94], [Isaacs 00], [Rousche 98]: epidurales,
subdurales, intracorticales. Los electrodos implantables, usados con éxito en técnicas de
estimulación electrofuncional [Mahajan 98], presentan una mejor relación señal ruido,
ası́ como una mayor tasa en la velocidad de transferencia de información y una mejor
resolución espacial, ya que pueden detectar la activación o desactivación de grupos
especı́ficos de neuronas. Sin embargo presentan el inconveniente de requerir operación
quirúrgica para su colocación, y que con el tiempo la señal poco a poco va disminuyendo,
debido al efecto de rechazo por parte del sistema inmunológico a elementos extraños, lo
cual da lugar a que la relación señal ruido vaya deteriorándose [Kipke 03], [Schmidt 88],
[Williams 99]. Se ha demostrado que tanto animales, como pacientes humanos, con
electrodos implantados han sido capaces de controlar trenes de activación de dos o más
neuronas de la zona motora del cortex, controlando un dispositivo de comunicación,
[Robinson 00b]. Los electrodos superficiales presentan el inconveniente de una menor
calidad de la señal registrada, por lo que para detectar variaciones de potencial eléctrico es
necesario que el número de neuronas implicadas sea varios órdenes de magnitud superior
que para el caso de electrodos implantables, siendo por tanto mayor la extensión de la
región del cerebro involucrada; sin embargo presentan la ventaja de no requerir operación
quirúrgica en su utilización.

Figura 1.2: Clasificación de dispositivos ICC.


1.1 La tecnologı́a de Interfaz Cerebro Computador. 5

1.1.2. Componentes de un dispositivo ICC.


Con independencia de la técnica de adquisicion de señal encefalográfica utilizada, y sea
cual sea la tipologı́a del dispositivo en cuestión, todos los sistemas pueden enmarcarse en
un diagrama de bloques semejante al que aparece en la figura 1.3, [Schalk 04], [Wolpaw 07],
en cuyos bloques se considera:

Figura 1.3: Componentes de un sistema ICC.


6 Introducción.

1. Adquisición de señal encefalográfica. En este bloque se contempla el proceso a través


del cual se procede a realizar la adquisición de señal cerebral. Comprende los procesos
de amplificación de señal, filtrado analógico, muestreo y cuantificación.
En caso de utilizar un sistema electroencefalográfico como sistema de adquisición,
para poder llegar a una aplicación práctica, la señal adquirida, del orden de
microvoltios, ha de ser filtrada de otras fuentes de perturbación como ruido ambiente,
actividad muscular y perturbaciones por movimiento, e incluso deben ir más allá,
puesto que deben permitir su empleo en ambientes ruidosos, aún en el caso en
que las órdenes de mando sean dadas de forma poco frecuente, por lo que se
requerirán algoritmos de detección robustos, en donde por ejemplo el efecto de
ventaneado sea considerado, [Wolpaw 02]. Debido a que es la señal captada la que
porta los mensajes del usuario, el objetivo de su análisis es la maximización de
la relación señal frente al ruido, por lo que es preciso considerar las fuentes de
ruido más importantes, [McFarland 97], éstas pueden ser tanto extraneuronales:
movimientos de los ojos, EMG, ruido eléctrico; como neuronales: cualquier otro tipo
de señales diferentes a las utilizadas para la comunicación. La detección del ruido
y clasificación presentan mayor dificultad cuando la señal de ruido es similar en
frecuencia, tiempo o amplitud a la señal deseada. Por ejemplo, analizando potenciales
evocados lentos, se comprueba que su espectro de frecuencia se sobrepone con el
espectro de movimiento de los ojos, igual ocurre cuando se analizan ritmos β y se
producen movimientos musculares. Es preciso por tanto, tener suficiente información
como para permitir discriminar entre señal y ruido. La actividad muscular puede
enmascarar la caracter´ıstica de control EEG utilizada, incluso puede aparecer ruido
no muscular por actividad refleja en aquellos usuarios con falta total de control
muscular voluntario. En este caso, el ruido por causas no neuronales provoca una
degradación en el rendimiento del dispositivo ICC, ya que disminuye la relación señal
ruido. Es as´ı mismo importante distinguir entre diferentes caracter´ısticas neuronales.
El ritmo α visual es una fuente de ruido, cuando se considera el ritmo μ como
caracterı́stica de control. Métodos de filtrado temporal y espacial pueden ayudar en
la distinción, señales de diferentes fuentes podrı́an tener espectros frecuenciales y
distribuciones espaciales parecidas, [Florian 98]. Si el ruido, tanto neuronal como no
neuronal, puede ser identificado en lı́nea durante el transcurso del funcionamiento,
su impacto podrı́a ser reducido o incluso eliminado. Por ejemplo un dispositivo
ICC controlado por potenciales corticales lentos, cuya entrada se vea contaminada
por movimientos oculares puede ser bien filtrada y restaurada, o bien rechazada,
[Birbaumer 00]. Esta aproximación puede dar lugar a que el usuario aprenda a
reducir la producción de dicho ruido.

2. Preprocesamiento. Este bloque comprende las operaciones que se realizan sobre la


señal digitalizada, previas a la obtención de los parámetros que definen el segmento
temporal de señal analizado, por ejemplo: filtrado digital, conversión de dominio
temporal a dominio frecuencial, análisis de fase, etc.
1.1 La tecnologı́a de Interfaz Cerebro Computador. 7

En cuanto a las técnicas empleadas para procesar la señal existen numerosas opciones
disponibles para el procesamiento de señal ICC. La decisión del criterio a aplicar
vendrá dado por la comparación de medidas de velocidad y precisión en experimentos
en l´ınea.
Métodos de procesamiento de señal son importantes en el diseño de sistemas ICC,
pero no resuelven todos los problemas. Pueden mejorar las relación señal ruido, pero
no pueden tratar directamente con los cambios de la señal, por lo que el desarrollo de
la tecnologı́a ICC depende del manejo apropiado de la interacción adaptativa entre
el usuario y el sistema, ası́ como en la selección del método de procesamiento de
señal adecuado.

3. Extracción de caracterı́sticas. Para cada segmento temporal de señal analizado se


obtienen un conjunto de parámetros que reúnen la información más relevante del
mismo y que permiten caracterizarle, [Galan 07]. La estimación de parámetros
en modelos autorregresivos es un método útil para describir la actividad de
EEG, mostrándose valioso en aplicaciones de la tecnologı́a ICC, [Pfurtscheller 00],
[Penny 00]. Los modelos AR por lo general asumen procesos gaussianos, [Birch 00].
Los residuos del modelo deben ser considerados y analizados debido a su gran
influencia en la estimación de los parámetros del modelo. La estimación de máxima
probabilidad generalizada (GM) se muestra valiosa en aquellos casos en los que
existe una contaminación aditiva de muestras fuera de la banda de consideración.
Este método se basa en el filtro de Kalman modificado. Ambos métodos producen
resultados similares a la estimación AR tı́pica, cuando los datos observados se
distribuyen según gaussianas. Algoritmos Bayesianos pueden analizar la certidumbre
en la interpretación de la voluntad del usuario por parte del sistema, [Penny 00]. Es
posible parar la comunicación cuando el valor de la certidumbre es inferior a un valor
cr´ıtico, reduciendo errores en el rendimiento del sistema ICC.

4. Aprendizaje y clasificación. En este bloque se consideran los mecanismos a través


de los cuales, durante la fase de entrenamiento, se aprenden determinados patrones
cerebrales. Con posterioridad, en la fase de funcionamiento “On-line”, los segmentos
de señal cerebral son catalogados como pertenecientes a determinados patrones
cerebrales.
Es sin duda el componente cr´ıtico de todo sistema de Interfaz Cerebro Computador,
pues convierte la entrada electrofisiológica del usuario en una señal de mando que
permite controlar dispositivos externos. De su tasa de acierto depende la efectividad
del sistema, [Obermaier 01b], la cual a su vez depende de la interacción entre los
controladores adaptativos anteriormente mencionados: el usuario que codifica las
órdenes al sistema ICC, y dicho sistema que reconoce las órdenes que hay en la
entrada y las traduce en órdenes de control del dispositivo. En la actualidad se
están obteniendo velocidades de transferencia de información entre 5-25 bits/min,
[Penny 99].
8 Introducción.

Dispositivos de ICC diferentes utilizan diferentes algoritmos de traducción,


[Birbaumer 00], [Penny 00], [Muller 03b], basados en técnicas lineales, [Garrett 03],
en técnicas bayesianas, [Penny 00], en redes neuronales, [Wang 04] y en Modelos
Ocultos de Markov; sin embargo hasta la fecha no se tiene constancia de que haya
sido desarrollado un algoritmo de clasificación que aune redes neuronales y modelos
ocultos de Markov, tal y como se hace en esta tesis.
Por algoritmos de traducción se entienden una serie de cálculos que transforman las
caracterı́sticas de la entrada derivadas del procesamiento de señal en comandos de
control del dispositivo. Los algoritmos de traduccion adquieren la señal, extraen
las caracter´ısticas que refleja el estado actual del usuario. bien del EEG o de
la actividad neuronal: individual o colectiva, y la transforman en comandos que
dependen del dispositivo al que se aplican. Dispositivos de ICC diferentes utilizan
diferentes algoritmos de traducción, [Birbaumer 00], [Penny 00]. Cada algoritmo se
puede clasificar en términos de tres caracterı́sticas clave: función de transferencia,
capacidad de adaptación y salida. La función de transferencia puede ser lineal, por
ejemplo análisis de discriminantes lineales, ecuaciones lineales; o no lineal: redes
neuronales. El algoritmo puede ser o no adaptativo. Algoritmos adaptativos pueden
utilizar sencillas reglas hechas a mano o utilizar algoritmos más sofisticados de
aprendizaje por computador. La salida del algoritmo puede ser discreta: selección
de letras o iconos, o continua: movimiento del cursor. La gran diversidad de los
algoritmos de traducción entre los grupos de investigación se debe en parte a la
diversidad de su aplicación en la práctica. Sin embargo en todos los casos el objetivo
es maximizar el rendimiento y utilidad para la aplicación elegida.
Cada algoritmo se puede clasificar en términos de tres caracterı́sticas clave: función
de transferencia, capacidad de adaptación y salida. La función de transferencia
puede ser lineal, por ejemplo análisis de discriminantes lineales, ecuaciones lineales;
o no lineal: redes neuronales. El algoritmo puede ser o no adaptativo. Algoritmos
adaptativos pueden utilizar sencillas reglas hechas a mano o utilizar algoritmos más
sofisticados de aprendizaje por computador. La salida del algoritmo puede ser
discreta: selección de letras o iconos, o continua: movimiento del cursor. La gran
diversidad de los algoritmos de traducción entre los grupos de investigación se debe
en parte a la diversidad de su aplicación en la práctica. Sin embargo en todos los
casos el objetivo es maximizar el rendimiento y utilidad para la aplicacion elegida.
5. Asociación de dichas clases a órdenes de control de dispositivos externos. Este bloque
es el encargado de realizar la traducción de patrones cerebrales a comandos de control
de dispositivos externos.
Además de los bloques anteriores, en dispositivos ICC “On-line”, ha de existir un
bloque que permita supervisar el funcionamiento del dispositivo por parte del usuario,
como por ejemplo su activación / desactivación, o fase de funcionamiento en la que se
encuentra: adquisición de muestras iniciales, entrenamiento, funcionamiento on-line,
adaptación.
1.2 Aplicación de la tecnologı́a ICC. 9

1.2. Aplicación de la tecnologı́a ICC.


Como ya se ha indicado, los dispositivos ICC se basan en registrar y analizar la
actividad cerebral, bien mediante el uso de técnicas electroencefalográficas, o bien mediante
otras técnicas de detección.
En la actualidad esta tecnolog´ıa se encuentra en fase de desarrollo, por lo que existen
demostradores tecnológicos propuestos por los diversos grupos de investigación, por
medio de los cuales es posible controlar el movimiento de un cursor en la pantalla de un
ordenador personal al objeto de poder seleccionar bien un icono o una letra entre un
grupo de candidatos, dando lugar a aplicaciones de teclados de conceptos o deletreadores
de palabras, [Wolpaw 07], [Wolpaw 02]. Sin embargo, aún no se ha llegado a realizar una
comercialización masiva de ningún dispositivo de interfaz humana basado en esta
tecnologı́a, razones para ello son tanto el coste relativamente elevado de diseño y
fabricación de dicho dispositivo, como la elevada dependencia actual del usuario para su
buen funcionamiento, sin olvidar que la tasa de transferencia de información obtenida,
que aún siendo útil en casos de personas con problemas de comunicación, no es todavı́a
lo suficientemente elevada como para poder ser alternativa a los dispositivos de interfaz
tradicionales. La discusión del diseño y desarrollo de dispositivos de interfaz basados
en tecnolog´ıa ICC inevitablemente se centra en las posibles aplicaciones, su eficiencia,
seguridad y coste de programas especı́ficos para aplicaciones particulares. Una vez que de
forma general se de respuesta a preguntas iniciales como: ¿Con qué eficacia se controla el
movimiento de un cursor? o ¿Cuál es la velocidad con la que podemos seleccionar una letra
entre veintiséis?, se podrán considerar los fines a los que se puede destinar esta tecnologı́a
en la vida real, [Miner 98], [Sheikh 03], [Vidal 73], [McFarland 97].
Entre las diferentes tipologı́as de dispositivos ICC los primeros en desarrollarse han
sido los de tipo exógeno, basados en el control de la amplitud de una determinada banda
de frecuencia en el registro del EEG en una zona cortical especı́fica, por ejemplo ritmos
μ o β en la zona sensomotora del cortex, [Kostov 00], [Penny 00], o potenciales evocados
ante estı́mulos especı́ficos, ej. amplitud de los potenciales P300 producidos en respuesta a
intermitencia de destello en matrices de letras, [Donchin 00].
Sin embargo desde el punto de vista del usuario son preferibles los dispositivos ICC
endógenos, pues al no precisar de un entorno estructurado, es mayor la libertad de que
se dispone tanto en cuanto a la elección del momento en que se genera el patrón cerebral
o idea asociada a un comando de dispositivo, como en cuanto a la selección de dichos
patrones. Una aplicación basada en un dispositivo ICC endógeno permitirı́a al usuario
mover el cursor a cualquier punto de un plano, mientras que un sistema exógeno limitarı́a
la elección a las opciones mostradas en un monitor.
Por otro lado los desarrolladores deben evitar la tendencia de preajustar o preasignar
los parámetros de las herramientas y su aplicación, como si de un ejercicio de optimización
se tratase. Cada dispositivo ICC debe optimizarse para cada usuario o grupo de usuarios.
Al mismo tiempo, el proceso de optimización debe ser lo más objetivo y estándar posible.
10 Introducción.

Los objetivos deben ser claramente definidos, as´ıcomo las necesidades hacia las que va
destinado, deseos y motivadores primarios, aplicaciones y utilización por parte del usuario,
para todo lo cual será preciso el análisis comportamental del conjunto, incluido el usuario.
El desarrollo de ICC no sólo debe incorporar principios técnicos y electrofisiológicos, sino
que también es preciso bases de aprendizaje bien definidas, [Florian 98], [Harrington 97].
Usuarios con una enfermedad progresiva, como por ejemplo Esclerosis Lateral
Amiotrófica, ELA, podrı́an utilizar dispositivos ICC que particularizaran sus
caracterı́sticas de entrada al usuario y su salida controlará un interfaz convencional
de comunicación aumentada, [Reilly 99], [Isaacs 00]. De tal modo que según avance la
enfermedad, el usuario podrı́a realizar una transición suave, del uso del interfaz de
comunicación aumentada estándar al dispositivo ICC, [Jacques 94].
El desarrollo reciente y la aplicación comercial de “Freehand Functional Electrical
Stimulation system (FES)” en “Case Western Reserve University”, Cleveland OH.,
demuestra las condiciones necesarias para el éxito, [Lauer 00]. Estas condiciones incluyen:
estabilización de todos los aspectos de diseño y documentación, una población de usuarios
bien definida, protocolos de entrenamiento normalizados, demostración de la viabilidad de
aplicaciones especı́ficas, medida de caracterı́sticas de salida bien definidas que documenten
adecuadamente el uso y eficiencia, asistencia regular en varios centros y la identificación
de centros de fabricación y estrategia de comercialización. Todo lo cual requiere la
colaboración de los usuarios y el convencimiento por parte de los mismos de que la
tecnologı́a empleada es útil y segura. Es también precisa la cooperación de profesionales
de centros de salud, los cuales deben convencerse de que la relación beneficio / riesgo es
favorable, que la tecnologı́a es segura y útil, y que es igual o superior a las alternativas
actualmente disponibles. Por último es preciso convencer a las compañı́as de seguros, que
a largo plazo la inversión realizada en este tipo de tecnologı́a será recuperada con creces.
Pacientes que estén paralizados, o con daño traumático que afecte a la médula
espinal, o prótesis en extremidades superiores, se podrı́an beneficiar de la aplicacion
de la tecnolog´ıa ICC, siempre y cuando sea segura y efectiva. Para ser justificable, un
sistema implantado debe ofrecer una sustancial ventaja funcional sobre la tecnolog´ıa de
comunicación aumentada convencional o métodos ICC no invasivos.
Las áreas de aplicación en las que se propone la utilización de esta tecnologı́a son:

1.2.1. Ciencia de la rehabilitación.


El enfoque actual de las investigaciones en ICC se orienta principalmente hacia la
ciencia de la rehabilitación, entendiendo por tal “el desarrollo de conocimiento corporal,
recogido de una rigurosa investigación clı́nica, permitiendo describir como la incapacidad
modifica funciones fisiológicas y anatómicas especı́ficas, y detalla los principios básicos por
los que funciones residuales o capacidades pueden ser medidas y utilizadas para recuperar
funciones en individuos con incapacidad”, [Robinson 93].
Las aplicaciones hacia las que se destinan los dispositivos ICC son neuroprótesis
1.2 Aplicación de la tecnologı́a ICC. 11

que permitan ha personas paralizadas comunicarse bien con el entorno que les
rodea, [Birbaumer 03], [Robinson 00a], [Birbaumer 00], o bien con un entorno simulado,
[Bayliss 03], o mejorar su capacidad de movimiento ayudándose con dispositivos robóticos,
por ejemplo el control de movimiento de prótesis mecánicas de miembros perdidos, [Bai 01],
[Birch 00], [Kositsky 03]. Del mismo modo se han desarrollado prototipos para el control
de sillas de ruedas motorizadas, [Birch 00], [Millan 03], [Millan 04], [Gerstner 04].
Además de su empleo en casos de parálisis asociados con accidentes traumáticos,
Esclerosis Lateral Amiotrófica, [Leeb 05], u otras enfermedades neurodegenerativas, la
tecnolog´ıa ICC ha sido propuesta como posible v´ıa de comunicacion afasia y otros
desórdenes de comunicación, como autismo, haciendo que la persona autista interaccione
con entornos virtuales 3D, cuya complejidad aumenta progresivamente aproximándose a
la real según criterio del rehabilitador, [Birbaumer 00]. Mediante la prevención de las
zonas de lenguaje comprometidas de la zona del cortex temporal-frontal, y por medio del
mecanismo de plasticidad cerebral, [Ratey 03], [Bronzino 95b], [Jessell 91], se podrı́an
concebir mecanismos de comunicación, siendo una alternativa efectiva para pacientes que
no puedan controlar el alfabeto, o un sistema de representación pictórica.
Como bancos de demostración se han desarrollado prototipos que permiten el control
unidimensional y bidimensional de un cursor en la pantalla de un computador, empleando
los resultados obtenidos en aplicaciones para deletrear palabras y teclados de conceptos,
[Donchin 00], [Allison 03], [Bayliss 00], [Bianchi 03].
1.2.2. Teleoperación de robots industriales.
En el campo de la teleoperación de dispositivos se han hecho demostradores
tecnológicos que evalúan la aplicabilidad de la tecnologı́a ICC en la teleoperación de robots
industriales, [Chapin 99], [Taylor 03], [HONDA 09].
1.2.3. Sector militar.
El sector militar fue el que a través de las investigaciones en biónica del Dr. J.J.Vidal,
en la década de los 70, dio lugar al nacimiento de esta tecnologı́a, [Vidal 77].
En la actualidad la tecnologı́a ICC, basando en el efecto de realimentación neuronal3 ,
se emplea en el entrenamiento avanzado de pilotos de combate para potenciar la
concentración en misiones que requieren un alto nivel de alerta, ası́ como la gestión y
evaluación de riesgos en el menor tiempo posible, [NASA 08].
1.2.4. Sector del ocio y entretenimiento.
En este área, compañı́as como IBVA (http://www.ibva.com), proponen el empleo de
dispositivos basados en tecnologı́a ICC como medio para el desarrollo de actividades lúdico-
creativas, como la composición de música a través del tratamiento de los ritmos cerebrales.
Ası́ mismo es de esperar que mediante la utilización de técnicas basadas en
Neurofeedback, se desarrollen dispositivos de uso personal, que permitan ser aplicados
junto con técnicas de relajación al objeto de combatir los altos niveles de estrés presentes
en la sociedad actual.
3
En inglés a esta técnica se la denomina “Neurofeedback”
12 Introducción.

1.3. Motivaciones de la tesis.


La presente tesis se enmarca dentro de la lı́nea que sobre bioingenierı́a y tele-robótica se
viene realizando por el Grupo de Robótica y Cibernética de la Universidad Politécnica de
Madrid, dando lugar a tesis como: [Ferre 97], [Peñı́n 98], [Luengo 98], en el área de Interfaz
Hombre Máquina y teleoperación de dispositivos roboticos; o [Rocon 06], [Moreno 06], en
el área de bioengenierı́a en la aplicación de exoesqueletos robóticos.
De manera particular esta tesis focaliza su centro de interés en el área de investigación
y desarrollo de interfaces avanzados entre seres humanos y máquinas, siendo sus resultados
aplicables en campos como la teleoperación de dispositivos externos, robótica asistencial
e ingenierı́a de rehabilitación.

1.3.1. Objetivos de la tesis.


Con esta tesis se pretende analizar la aplicabilidad actual de la tecnolog´ıa de Interfaz
Cerebro Computador, bajo el paradigma de sistema endógeno, empleando un número
mı́nimo de electrodos superficiales localizados sobre aquellas zonas encefálicas con mayor
poder de discriminación, orientando su uso hacia aplicaciones de teleoperacion y
rehabilitación, para lo cual se consideran los siguientes objetivos:

Descripción detallada de las bases fisiológicas en las que se basa la tecnologı́a ICC
en sus diferentes versiones.

Exposición, análisis y evaluación, de las diferentes técnicas de adquisición de


actividad cerebral.

Comparación de la capacidad de discriminación de la señal electroencefalográfica


registrada cuando el usuario realiza los diferentes tipos de actividades cognitivas
propuestas.

Explicación, aplicación y evaluación de los algoritmos de clasificación empleados.

Evaluación de esta tecnologı́a en control de dispositivos externos genéricos.

Influencia de la realimentación de información al usuario sobre la capacidad de


discriminación.

Desarrollo de un demostrador que permita evaluar la aplicabilidad de la tecnolog´ıa


de Interfaz Cerebro Computador.

Evaluar la viabilidad de su utilización ambulante.


1.3 Motivaciones de la tesis. 13

1.3.2. Aportaciones de la tesis.


De la consecución de los objetivos anteriores se derivan las principales aportaciones de la
presente tesis:
Desarrollo de un demostrador, que siguiendo el paradigma de sistema endógeno,
emplea sólo dos canales electroencefalográficos, localizados respectivamente sobre
las zonas encefalográficas de ambos hemisferios cerebrales con mayor capacidad de
discriminación: C3 y C4.

Realización de baterı́as de experimentos, tanto fuera de lı́nea (“Off-line”) como en


l´ınea (“On-line”), con usuarios reales, con cuyos resultados se puede analizar:

• La capacidad de discriminación de las muestras de los registros electroencefa-


lográficos, adquiridos mientras los usuarios realizaban las actividades cognitivas
propuestas.
• Análisis que el efecto de ventaneado de la señal electroencefalográfica tiene
sobre su capacidad de discriminación, para lo cual se han empleado los siete
tipos de ventanas más conocidos en procesamiento de señal [Proakis 97],
[Oppenheim 96]: rectangular, triangular, Blackman, Hamming, Hanning, Kaiser
y Tukey; identificándose las que dan lugar a una mejor separabilidad.
• Identificación de aquellas caracterı́sticas, basadas en componentes frecuenciales,
con mayor capacidad de discriminación.
• Obtención, mediante la aplicación de la técnica de Análisis de Discriminantes
Lineales,4 , de la matriz de transformación que permite una reducción del espacio
de caracter´ısticas entrada a un posterior clasificador. Analizando as´ı mismo, el
efecto que dicha transformación causa en la capacidad de discriminación.
• Aplicación a los clasificadores, que empleando la metodologı́a de aprendizaje
supervisado, más comúnmente empleados en el área de Inteligencia Artificial,
como son:
◦ Clasificadores basados en redes neuronales de los tipos: Perceptrón
Multicapa (MLP), Funciones de Base Radial (RBF), Redes Neuronales
Probabil´ısticas (PNN), [Bishop 95], [Duda 01], [Ripley 96].
◦ Máquinas de Soporte de Vectores (SVM), [Cristianini 00], [Nabney 02].
• Análisis que la realimentación de información al usuario, acerca de del
resultado de clasificación obtenido, tiene sobre la capacidad de discriminación
de actividades cognitivas.
As´ı mismo, considerando los desarrollos que en la tecnolog´ıa de Reconocimiento
Natural del Habla se han llevado a cabo utilizando Modelos Ocultos de Markov, se ha
desarrollado un novedos algoritmo de clasificación bietapa que emplea
secuencialmente redes neuronales de tipo RBF y Modelos Ocultos de Markov.
La ingente cantidad de datos obtenidos ha sido procesada y mostrada gráficamente de
forma resumida en las figuras del capı́tulo 6.
4
En inglés se define como: “Linear Discriminant Analysis (LDA)”.
14 Introducción.

1.4. Estructura de la tesis.


La presente tesis se encuentra estructurada en siete capı́tulos y dos apéndices.
En el primer capı́tulo, como ya se habrá podido leer, se realiza una definición de la
tecnolog´ıa de Interfaz Cerebro Computador, a la vez que se describen sus componentes
fundamentales. Ası́ mismo se analizan los principales campos de aplicación de esta
tecnolog´ıa.
En el capı́tulo segundo se realiza una exposición sobre las bases fisiológicas en las que se
basa la tecnolog´ıa de Interfaz Cerebro Computador, presentando las diferentes alternativas
técnicas para el registro de la actividad cerebral. A continuación se presenta un estado de la
técnica haciendo una revisión histórica de los desarrollos llevados a cabo por los diferentes
grupos de investigación a nivel mundial, concluyendo con las tendencias actuales. Por
último se realiza una breve descripción de las técnicas empleadas en la tecnologı́a ICC.
En el capı́tulo tercero se describen las técnicas de preprocesamiento de señal empleadas.
Al igual que ocurre con la tecnologı́a en visión artificial, antes de proceder a la clasificacion
de una imagen, ésta se somete a diferentes procesos como son: preprocesamiento, filtrado,
extracción de caracterı́sticas, y por último clasificación; la correcta adecuación de la señal
electroencefalográfica es determinante en la obtencion de los conjuntos de caracterı́sticas
que representan de forma fiel al segmento de señal temporal considerado. En este capı́tulo
se presenta la técnica de ventaneado temporal de la señal, describiendo los diferentes de
ventanas de procesamiento empleados, cuya influencia sobre la capacidad de discriminación
y clasificación de la señal EEG, será posteriormente analizada.
En el capı́tulo cuarto se describen los diferentes algoritmos de clasificación considerados
en los experimentos llevados a cabo en el desarrollo de esta tesis, basado en la utilización de
redes neuronales: MLP, RBF y PNN; Máquinas de Soporte de Vectores, y en el algoritmo
de clasificación bietapa RBF-MOM. En ellos se hace uso tanto de técnicas estadı́sticas
para la determinación de la capacidad de discriminación, como de la técnica de Análisis
de Discriminantes Lineales para la reducción del espacio de caracterı́sticas original, a través
de la obtención de la matriz de transformación.
En el capı́tulo quinto se describe la adaptación de los algoritmos anteriores al contexto
particular de la tecnologı́a ICC. Además se describe a nivel de análisis la aplicación
de demostración, presentando los principales casos de uso, diagramas de secuencia y
diagramas de estructura de clases de análisis.
En el capı́tulo sexto se realiza la presentación, análisis, discusión y extracción de
conclusiones, de los resultados obtenidos tras el procesado del gran volumen de datos
experimentales conseguidos de la aplicación práctica de los conceptos expuestos en los
cap´ıtulos anteriores.
Por último, en el capı́tulo séptimo se exponen las conclusiones alcanzadas, valoración
de los objetivos iniciales, ası́ como futuras lı́neas de investigación y desarrollo a las que da
lugar esta tesis.
En el apéndice A se presenta consideraciones sobre el proceso de adquisición de señal,
mientras que el apéndice B describe el concepto de matriz de confusión empleado en
clasificación.
Capı́tulo 2

Estado de la técnica.
En este capı́tulo se comienza dando unas nociones básicas de la fisiologı́a del sistema
nervioso, necesarias para comprender los principios biológicos en los que se fundamenta
la tecnolog´ıa de Interfaz Cerebro Computador, que si bien pueden ser innecesarias para
investigadores familiarizados con ciencias biológicas, pueden no serlo tanto para
investigadores del área de las ingenierı́as, menos familiarizados con las bases fisiológicas
del sistema nervioso.
Posteriormente se hace una revisión de las técnicas empleadas para la adquisición
de señal de la actividad cerebral, entre las que se encuentran la electroencefalografı́a,
magnetoencefalografı́a y diversas técnicas aplicadas en imagen médica como: imagen
cerebral por rayos X, imagen nuclear, tomograf´ıa computerizada, imagen de resonancia
magnética, tomografı́a computerizada por emisión individual de fotones (SPECT),
tomografı́a por emisión de positrones (PET); a la vez que se analiza su aplicabilidad a
la tecnolog´ıa de Interfaz Cerebro Computador.
Seguidamente se analizan las referencias históricas sobre el desarrollo de la tecnologı́a
ICC, para finalmente presentar el estado actual en el que se encuentra esta tecnolog´ıa.

2.1. Fundamentos fisiológicos.


Debido a que las bases fisiológicas del sistema nervioso desempeñan un papel
fundamental en la tecnologı́a ICC, en esta sección se hace una exposición de conceptos
fisiológicos que aparecen a lo largo de la presente tesis. Los conceptos que se describen a
continuación son:
Fisiologı́a. Define brevemente el campo de investigación de esta ciencia, a la vez
que cita las diferentes investigaciones que sobre el Sistema Nervioso se han venido
llevando a cabo a lo largo del tiempo.
La Neurona. Describe desde un punto de vista biológico este tipo de célula,
presentando las caracter´ısticas que la hacen única para ser la base del sistema
nervioso.
El Sistema Nervioso. La agrupación y especialización de las neuronas dan lugar a
la formación de las diferentes estructuras que forman el sistema nervioso. En este
subapartado se presentan estas estructuras, ası́ como las particularidades que más
relevancia tienen en la tecnolog´ıa ICC.
16 Estado de la técnica.

2.1.1. Fisiologı́a.
La fisiolog´ıa es la ciencia que tiene por objeto el estudio de las funciones de los seres
orgánicos. Su aplicación al sistema nervioso es clave para comprender las diferentes
variantes que existen sobre ICC.
El estudio de la fisiolog´ıa del sistema nervioso humano no es reciente, existen referencias
en las que sacerdotes del antiguo Egipto pretendı́an reconocer a través de la inspección
visual de la cabeza los instintos, sentimientos y hasta la capacidad intelectual de la persona
en cuestión. La civilización griega adquirió y mejoró dichos conocimientos, dando lugar al
nacimiento de ciencias como la Psicologı́a, o a representaciones artı́sticas de dioses o héroes,
en donde la configuración de la cabeza estaba en armonı́a con los atributos y facultades
que se querı́an presentar al pueblo llano en sus formas más palpables. Los escritos más
antiguos acerca del particular son los de Platón o Aristóteles [Velázquez 97].
En el siglo IX de nuestra era, el fı́sico y médico Avicena investigó sobre la localización de
las facultades cerebrales [Chinchilla 43]. Investigaciones que fueron retomadas por Alberto
el Grande cuatrocientos años después, en el siglo XIII, quien dibujó una cabeza en la
que representó el sitio en que radicaban las diferentes facultades humanas [Espinoza 03],
colocó el sentido común en la frente o en el primer ventrı́culo, el juicio en el segundo, la
memoria y la fuerza motriz en el tercer ventr´ıculo.
Trabajos similares fueron realizados en Italia por Pedro de Montagna, quien en 1491
publica su obra adornada con una lámina que representaba el sitio del sentido común y la
imaginación dentro de la cabeza [Montaner 91].

Figura 2.1: Diagrama frenológico.


Poco después, en 1562, Luis Dolei define el primer sistema de Frenologı́a, definiendo tal
ciencia como: “Doctrina psicológica según la cual las facultades psı́quicas están localizadas
en zonas precisas del cerebro y en correspondencia con relieves del cráneo”. El examen de
estos permitirı́a reconocer el carácter y aptitudes de la persona. Sin embargo es Gail quien
en 1781 popularizó este sistema [Colbert 98], [Segovia 38], perfeccionado posteriormente
junto con Spurzheim en 1804, con investigaciones acerca de la anatom´ıa y fisiolog´ıa del
sistema nervioso, y en particular del cerebro.
2.1 Fundamentos ftsiológicos. 17

Posteriormente Descartes, Gardón, Willis, Boerhaave, Kant, Bonet, Vizq-d’Ayzr,


publicaron trabajos que contribuyeron poderosamente a consolidar el método frenologico.
Aunque como ya se ha indicado los estudios relativos a la mente y sus capacidades, y por
extensión del sistema nervioso, no es una disciplina nueva, el relativo escaso conocimiento
que sobre el mismo existe no se debe tanto a la falta de investigaciones o curiosidad
cientı́fica, sino más bien debido a la gran complejidad de dicho sistema; complejidad
que trabajos cientı́ficos como las investigaciones llevadas a cabo por el premio Nobel
Santiago Ramón y Cajal1 en 1905, sobre el sistema nervioso, han contribuido a esclarecer,
[Barreno 02], [Pintado 77].
Se estima que en el cerebro humano existen
aproximadamente unos 100 billones de neuronas
[Jessell 91], cada neurona puede llegar a alcanzar
alrededor de 2.000 conexiones o más con otras
neuronas, y puede recibir del orden de 20.000
entradas. Teor´ıas que describen los procesos asociados
a la memoria y al aprendizaje tratan de explicar, a
través de la Neuroplasticidad, los mecanismos
subyacentes para el establecimiento de dichas
conexiones [Bronzino 95b].
Desde que en 1929 Hans Berger demostrara la
inherente naturaleza eléctrica del cerebro, dando
comienzo al nacimiento de la Electroencefalografı́a
como técnica de registro [Bronzino 95b], [Baker 89],
[Webster 78], se ha venido investigando el modo de Figura 2.2: Neuronas. Ramón y
utilizar esta información para aumentar la base de Cajal.
conocimiento, diagnóstico de enfermedades, e incluso plantear nuevas vı́as de
comunicación. Con la evolución de las técnicas radiológicas y la revolución que han
supuesto las nuevas tecnologı́as de imagen médica, en la forma de adquirir conocimiento
[Barreno 97] con las que es posible ver en vivo dentro del cuerpo humano el funcionamiento
de determinados órganos, se ha aumentado de igual forma las tecnologı́as que pueden
ser empleadas a la hora de estudiar el funcionamiento del cerebro, y dado el caso,
proponer nuevos sistemas de interfaz entre seres humanos y dispositivos mecánicos externos
basados en ellas. Entre las tecnolog´ıas propuestas para este fin actualmente se cuenta con:
Electroencefalografı́a, Maganetoencefalografı́a, Tomografı́a por Emisión de Positrones
(PET), o la imagen de resonancia magnética funcional (fMRI).
La segunda mitad del siglo XX, y en especial la década de los 90, conocida como
la década del cerebro, se ha dedicado a la investigación y estudio del cerebro humano,
inspirando nuevos desarrollos en el campo de la Inteligencia Artificial, como es el caso del
resurgimiento de las Redes Neuronales [Rich 94].
1
Ramón y Cajal se hizo valedor en 1906 del premio Nobel de Fisiologı́a y Medicina por sus trabajos
sobre el sistema nervioso “Histologı́a del sistema nervioso del hombre y los vertebrados (1905)” [Cajal 05],
en los que se descubren los mecanismos que gobiernan la morfologı́a y los procesos conectivos de las células
nerviosas.
18 Estado de la técnica.

2.1.2. La neurona.
La unidad fundamental del
sistema nervioso de los vertebrados
y del hombre es la neurona, veanse
las figuras 2.2 y 2.3, su capacidad de
transferir información de una
parte del organismo a otra en forma
de impulsos electroquı́micos la
distingue del resto de las células;
desde un punto de vista abstracto es
probablemente la célula del cuerpo
más variable atendiendo tanto a su
forma como a su tamaño.
Toda neurona está compuesta
por tres partes básicas: Figura 2.3: Neuronas.

Cuerpo de la célula. También denominado soma. Es la parte más gruesa, contiene


todos los componentes necesarios de la célula, como el núcleo (contiene ADN),
retı́culo endoplasmático y ribosomas (para sintetizar proteı́nas), y la mitocondria
(para la transformación de energı́a). Si el núcleo muere, la neurona muere.

Axón. Proyección alargada en forma de cable, se encarga de transportar el mensaje


electroquı́mico a lo largo de toda la longitud de la célula. Dependiendo del tipo de
neurona, los axones pueden estar recubiertos por fina capa de mielina, a modo de
aislante. La mielina queda constituida principalmente por l´ıpidos o grasas, facilitando
la rápida transmisión del impulso nervioso a lo largo del axón. Neuronas mielinizadas
se encuentran principalmente en los nervios periféricos, tanto sensores como motores,
mientras que neuronas no mielinizadas se encuentran en el cerebro y la médula
espinal, constituyendo lo que se denomina sustancia gris.

Dendritas o terminaciones nerviosas. Estas pequeñas prolongaciones arborescentes


de la célula son las encargadas de realizar las conexiones con otras neuronas,
permitiendo la comunicación entre las mismas o la percepción del entorno exterior.
Las dendritas pueden existir tanto en uno como en ambos extremos de la neurona.
Existen dos tipos de dendritas: apicales y basales.

La longitud de las neuronas es muy variable, puede ir desde unos pocos milı́metros hasta
algunos decı́metros, como en el caso de neuronas cerebrales y táctiles respectivamente. De
igual modo la forma también es muy variable dependiendo de la actividad que lleven a cabo,
las neuronas motoras que controlan la contracción muscular tienen el cuerpo de la célula
en un extremo, un axón largo en el medio y dendritas en el otro extremo; mientras que
las neuronas sensoras tienen dendritas en ambos extremos, conectados por largos axones
con el cuerpo en el medio. Las neuronas también varı́an con respecto a sus funciones:
Neuronas sensoras o aferentes. Transportan señales desde zonas externas del cuerpo
(periferia) hacia el sistema nervioso central.
2.1 Fundamentos ftsiológicos. 19

Figura 2.4: Topologı́a de la célula neuronal.


Neuronas motoras o eferentes. Transportan señales desde el sistema nervioso central
hacia las zonas externas del cuerpo: músculos, piel, glándulas.
Receptores. Son las encargadas de adquirir información del exterior, existen
diferentes tipos en función de la naturaleza del estı́mulo que provoca su activación:
térmico, lumı́nico, presión, presencia de compuesto quı́micos; transformando dicha
información en mensajes electroquı́micos que son transmitidos por las neuronas
sensoras.
Interneuronas. Conectan varias neuronas con el cerebro y la médula espinal.

El punto de contacto entre dos neuronas se denomina sinapsis, es de especial


importancia en la transmisión de información del sistema nervioso, ya que la información
de una neurona pasa a otra a través de los mismos. Este pequeño espacio que separa ambas
neuronas consta de:
Terminación pre-sináptica, la cual contiene neurotransmisores, mitrocondria y
orgánulos celulares.
Terminación post-sináptica, formado por los lugares de recepción de los
neurotransmisores.
Hendidura sináptica, espacio submicroscópico entre ambas terminaciones.
20 Estado de la técnica.

Figura 2.5: Tipos de neuronas.


Mientras que en el interior de la neurona la transmisión de información a lo largo
del axón se realiza en forma de impulso eléctrico, entre neuronas es un proceso quı́mico,
llevado a cabo en la sinapsis, el que transmite la información de una neurona a otra, o
bien a una célula muscular.
Transmisión eléctrica. Se dice que una neurona está polarizada cuando tiene una carga
eléctrica negativa en el interior de la membrana celular respecto al exterior. Este efecto de
polarización se debe a la libre circulación de iones K + a través de la membrana celular,
a la vez que moléculas grandes con carga negativa son retenidas dentro de la célula. Los
iones N a+ se mantienen en el exterior de la célula mediante un proceso activo. Aunque en
principio todas las células del cuerpo presentan esta diferencia de potencial, las neuronas se
distinguen en que al aplicar una corriente estimuladora, se provoca que los iones potasio
penetren dentro de la célula despolarizándola, tras un pequeño intervalo de tiempo las
propiedades de la membrana cambian haciendo que la célula sea permeable al N a+ , que
entra en ella con rapidez y origina una carga neta positiva en el interior de la neurona. A
este efecto se le denomina potencial de acción. Una vez alcanzado éste potencial en una
zona de la neurona, éste se propaga a lo largo del axón mediante un intercambio de iones en
puntos especı́ficos denominados nódulos de Ranvier. La amplitud del potencial de acción
es autolimitada, debido a que una concentración elevada de N a+ en el interior origina la
expulsión de la célula en primer lugar de iones K + y después de N a+ , restableciendo la
carga negativa en el interior de la membrana celular, repolarizando la célula. El proceso
completo dura menos de una milésima de segundo. Después de un breve lapso, llamado
2.1 Fundamentos ftsiológicos. 21

Figura 2.6: Tipos de sinapsis. (a - Axoaxiónica. b - Axodendrı́tica . c - Axosomática.)


periodo refractario, la neurona se encuentra en condiciones de repetir este proceso.
Transmisión quı́mica. Cuando el potencial de acción alcanza el extremo del
axón, éste estimula en la célula unas pequeñas vesı́culas presinápticas que contienen
neurotransmisores, los cuales son liberados en la hendidura sináptica. El neurotransmisor
se une a receptores especializados sobre la superficie de la neurona adyacente, provocando
su despolarización y la propagación de su propio potencial de acción. La duración de
un estı́mulo procedente de un neurotransmisor está limitada por su degradación en la
hendidura sináptica y su recaptación por la neurona que lo habı́a elaborado.
Los potenciales de acción son producidos en las uniones sinápticas, pudiéndose éstas
localizar a lo largo del axón (sinapsis axoaxiónica), en el cuerpo de la neurona (sinapsis
axosomática), o en las dendritas (sinapsis axodendrı́tica), reflejando la comunicacion entre
neuronas. Cuando un neurotransmisor se enlaza en un receptor de la terminación post-
sináptica, se produce un cambio en la excitabilidad de la célula haciendo más o menos
probable que se desencadene un potencial de acción. Si el número de eventos excitatorios
post-sinápticos es lo suficientemente grande, se provocará un potencial de acción en la
célula y el mensaje se transmitirá.
Es en este principio de producción de potenciales post-sinápticos, por la actividad
conjunta y sincronizada de un gran número de neuronas, en los que se basa el registro
electroencefalográfico.
22 Estado de la técnica.

No todos los tipos de actividad neuronal tienen el mismo tipo de impacto sobre los
registros electroencefalográficos. Factores como la profundidad, orientación y la simetrı́a
intr´ınseca de las conexiones en el cortex, presentan una marcada influencia sobre dichos
registros. Las células de mayor importancia en el neocortex son las de tipo piramidal. Es
conocido que sus neurotransmisores son potentes transmisores excitatorios. Las células
piramidales reciben muchas entradas de células tipo estrella, que también son de tipo
excitatorio. Las células piramidales, a diferencia de otro tipo de neuronas, permiten que
los axones produzcan potenciales de acción, que transmiten información de una neurona
a otra, mientras que en las dendritas se pueden producir potenciales lentos, tanto de tipo
excitatorio como inhibitorio, que se suman al del axón. En el caso de las neuronas
piramidales, las dendritas apicales, con forma de eje alargado entre la región basal y la
apical, pueden provocar potenciales de acción, que a su vez actúan para amplificar los
potenciales de acción producidos por las salidas de los sistemas sensorial, motor o
autónomo. Por esta razón se considera que, las neuronas piramidales son las causantes de la
porción más significativa de la señal electroencefalográfica.

2.1.3. El Sistema Nervioso.


El Sistema Nervioso es el encargado de la recepción de estı́mulos, la transmisión de
impulsos nerviosos y la activación de los músculos. Está formado por neuronas que se
agrupan para formar estructuras de orden superior como el encéfalo, médula espinal,
nervios o cadenas ganglionares.

Figura 2.7: Sistema Nervioso. Figura 2.8: Encéfalo.


2.1 Fundamentos ftsiológicos. 2
3
Desde un punto de vista anatómico, ver figura 2.7, en los vertebrados el sistema ner-
vioso queda compuesto por el Sistema Nervioso Central, el Sistema Nervioso Periférico y
el Sistema Nervioso Vegetativo o Autónomo [Ratey 03]. El primero queda compuesto por
el encéfalo y la médula espinal, mientras que el segundo queda compuesto por nervios cra-
neales y espinales. El Sistema Nervioso Central está inmerso en lı́quido cefalorraquı́deo,
envuelto dentro de una triple estructura de tejido fino a modo de bolsas, denominadas
meninges: Pia Madre (la más externa), Duramadre (la intermedia) y Aracnoides (la más
interna); que previenen el contacto directo del encéfalo y médula espinal con las estructu-
ras óseas de protección, como es el caso del cráneo y la espina dorsal, respectivamente.

El encéfalo a su vez está formado por: cerebro, cerebelo y tronco encefálico.

El cerebro es la parte más voluminosa, ocupa casi la totalidad de la caja craneal;


su parte superior se corresponde con la bóveda craneal, y su parte inferior con el
compartimento anterior y medio de la base del cráneo y cerebelo. Tiene forma ovoide,
con la extremidad posterior más ancha. Su peso en el hombre es de aproximadamente
1Kgr.

El cerebelo es la parte inferior y posterior del encéfalo, alojado en la fosa cerebral


posterior junto al tronco del encéfalo.

El tronco del encéfalo está compuesto por el mesencéfalo, la protuberancia anular


y el bulbo raquı́deo. Es el encargado de conectar el cerebro con la médula espinal,
véase la figura 2.10.

La médula espinal es la prolongación del encéfalo, extendiéndose por la columna


vertebral; la misma la sustancia gris que forma el cerebro se encuentra en el interior y
la blanca en el exterior.

Figura 2.9: Cabeza.


24 Estado de la técnica.

Los nervios del Sistema Nervioso


Periférico emergen del sistema nervioso
central y recorren todo el cuerpo,
conteniendo axones de v´ıas neurales con
distintas funciones y ganglios periféricos,
que se encuentran en el trayecto de
los nervios y que contienen cuerpos
neuronales, los únicos fuera del sistema
nervioso central. Queda compuesto por 12
pares de nervios craneales y 31 pares de
nervios espinales.

Figura 2.10: Tronco encefálico.

Nervios craneales. Los 12 pares de nervios craneales se proyectan directamente desde


el cerebro. Todos estos pares de nervios transmiten información sensorial procedente
del cuello y la cabeza hacia el sistema nervioso central y reciben órdenes motoras
para el control de la musculatura esquelética de los mismos, controlando las funciones
motoras de la cabeza, los ojos, la cara, lengua, laringe y los músculos que permiten
la masticación y la deglución, véase la figura 2.11.
El décimo par, el nervio vago, se relaciona con funciones viscerales como el ritmo
cardiaco, la vasoconstricción y la contracción de los músculos lisos que se encuentran
en las paredes de la tráquea, del estómago y del intestino. La visión, la audición, el
sentido del equilibrio y el gusto están mediados por los pares de nervios craneales II,
VIII y VII, respectivamente.

Nervios espinales. Los nervios espinales salen desde las vértebras y se distribuyen
por las regiones del tronco y las extremidades. Se encargan de enviar información
sensorial (tacto, dolor y temperatura) del tronco y las extremidades, as´ı como de la
posición y el estado de la musculatura y las articulaciones del tronco y las
extremidades hacia el sistema nervioso central; desde el mismo reciben órdenes
motoras para el control de la musculatura esquelética que se conducen por la médula
espinal.
Los 31 pares de nervios están interconectados, formando dos plexos: el braquial, que se
dirige a las extremidades superiores, y el lumbar que alcanza las inferiores.

Los nervios craneales se extienden desde la cabeza y el cuello hasta el cerebro pasando
a través de las aberturas del cráneo; los nervios espinales o medulares están asociados
con la médula espinal y atraviesan las aberturas de la columna vertebral. Ambos tipos de
nervios se componen de un gran número de axones que transportan los impulsos hacia el
2.1 Fundamentos ftsiológicos. 25

Figura 2.11: Nervios craneales.

sistema nervioso central y llevan los mensajes de éste hacia el exterior. Las primeras vı́as
se llaman aferentes y las últimas eferentes. En función de la parte del cuerpo que alcanzan,
a los impulsos nerviosos aferentes se les denomina sensitivos y a los eferentes, somáticos o
motores viscerales. La mayor´ıa de los nervios son mixtos, es decir, estan constituidos por
elementos motores y sensitivos.
El Sistema Nervioso Negetativo está compuesto por grupos de fibras de neuronas
motoras que llevan los impulsos nerviosos a los órganos que se encuentran en las cavidades
del cuerpo, como el corazón, pulmones, estómago, intestinos, páncreas, hı́gado, etc.,
permitiendo su regulación. El Sistema Nervioso Vegetativo se divide en dos secciones con
una función más o menos antagónica y con unos puntos de origen diferentes al Sistema
Nervioso Central. Las fibras del Sistema Nervioso Vegetativo Simpático se originan en la
región media de la médula espinal, unen la cadena ganglionar simpática y penetran en
los nervios espinales, desde donde se distribuyen de forma amplia por todo el cuerpo. Las
fibras del Sistema Nervioso Vegetativo Parasimpático se originan por encima y por debajo
de las simpáticas, tanto en el cerebro como en la parte inferior de la médula espinal. Estas
dos secciones controlan las funciones de los sistemas respiratorio, circulatorio, digestivo y
urogenital.
26 Estado de la técnica.

2.1.4. El Cerebro.
El cerebro humano, comparado con el de los demás seres vivos, tiene un volumen y
estructura tan diferenciados, que dan idea de la preeminente importancia que posee el
cerebro para el total funcionamiento del organismo; incluso los mismos procesos psı́quicos
no pueden desarrollarse enteramente sin su integridad.
El cerebro está dividido en dos hemisferios, separados por un surco medio profundo, la
cisura interhemisférica, dichos hemisferios están comunicados entre sı́ mediante el Cuerpo
Calloso, que se extiende desde el fondo de la cisura interhemisférica hasta la base cerebral.
La superficie se denomina corteza cerebral, está formada por replegamientos
denominados circunvoluciones; su parte inferior presenta en su tercio posterior una forma
arriñonada, separada del tercio anterior por la cisura de Silvio, que junto con la cisura de
Rolando y la occipital dividen cada hemisferio en los diferentes lóbulos: frontal, parietal,
temporal y occipital, véase la figura 2.12.
Subyacente a la misma se encuentra por arriba el cuerpo calloso y el quiasma óptico,
espacio perforado anterior, hipófisis, tubérculos mamilares y espacio perforado posterior
en la base. En el interior del cerebro se encuentran una serie de cavidades, los ventr´ıculos
cerebrales, que se comunican entre sı́ y están llenos de lı́quido cefalorraquı́deo.
En una sección del cerebro es posible ver la sustancia gris y la sustancia blanca. La
primera se caracteriza por una gran densidad de células nerviosas y comprende a la corteza
cerebral y a diversos núcleos: tálamo óptico, hipotálamo, núcleo caudado, núcleo lenticular,
y a la amı́gdala. La sustancia blanca tiene, en su mayor parte, una estructura más sencilla:
fibras nerviosas sostenidas por un armazón de neuroglia; algunas de estas fibras conectan
neuronas situadas en porciones similares de ambos hemisferios, otras unen distintas zonas
de un mismo hemisferio, finalmente algunas se dirigen desde la corteza cerebral a centros
del cerebro dispuestos en niveles inferiores y en otras porciones del sistema nervioso
central. Aunque nada se ha demostrado sobre el modo en como se conectan en la corteza
los procesos neurológicos con los psı́quicos, sı́ se ha observado que la lesión de ciertas
áreas de la corteza cerebral provoca la alteración de funciones, lo que ha permitido que
muchas funciones motoras y sensoriales hayan sido asociadas a zonas especı́ficas de la
corteza cerebral, ver figura 2.12. Por lo general, estas áreas aparecen en ambos hemisferios
cerebrales y están al servicio del lado opuesto del cuerpo.
Las áreas de asociación no están bien definidas y se localizan sobre todo en la parte
frontal de la corteza. Están involucradas en funciones del pensamiento y emocionales, y
relacionan los estı́mulos recibidos desde los diferentes sentidos. Las áreas del lenguaje son
una excepción: tanto el área de Wernicke, que está relacionada con la comprensión del
lenguaje hablado, como el área de Broca, que gobierna la producción del habla, han sido
localizadas de forma precisa en la corteza.
El cerebro es un órgano extraordinariamente vascularizado, como corresponde a sus
necesidades metabólicas, de modo que cualquier accidente vascular (trombosis, embolia,
hemorragia) reviste gran importancia por las lesiones y consecutivos trastornos funcionales
que origina.
2.2 Técnicas para la adquisición de actividad cerebral. 27

Figura 2.12: Distribución de las funciones de la corteza cerebral.

2.2. Técnicas para la adquisición de actividad cerebral.


En esta sección se describen la diferentes técnicas que actualmente existen en la
investigación sobre actividad cerebral. Especial atención se presta a la electroencefalografı́a
como técnica de adquisición inicial, que asentó las bases de conocimiento para posteriores
estudios neurológicos, ası́ mismo se cita la magnetoencefalografı́a y otras técnicas de
imagen cerebral, las cuales son de menor aplicabilidad en la tecnolog´ıa ICC debido bien
a que su coste es prohibitivo, o bien a que las constantes de tiempo de los principios
fisiológicos en que se basan presentan valores de latencia muy elevados, constantes que
generalmente están asociadas al flujo sanguı́neo, haciéndolas impracticables para su
utilización en dispositivos de interfaz entre personas y máquinas.

2.2.1. Electroencefalografı́a.
La electroencefalografı́a es la parte de la medicina que trata de la obtención e
interpretación de registros gráficos obtenidos por medio de electroencefalógrafos, estos
dispositivos registran las corrientes eléctricas producidas por la actividad del encéfalo
[Baker 89].
28 Estado de la técnica.

Para el registro de la actividad eléctrica del cerebro se pueden utilizar tres tipos
de electrodos: superficiales, corticales e intracorticales. Cuando se emplean electrodos
superficiales el registro se denomina electroencefalograma (EEG), mientras que si los
electrodos se disponen sobre la superficie expuesta del cerebro al registro se denomina
electrocorticograma (ECoG), por último, si se utilizan electrodos intracorticales se
emplea el termino registro profundo para denominar a esta técnica, [Webster 04]. Con
independencia del tipo de electrodo, las variaciones de potencial registradas representan
la actividad de neuronas en las que se están produciendo los correspondientes potenciales
de acción y fluctuaciones de membrana.

2.2.1.1. Referencias históricas.


En 1875 en el Reino Unido, Richard Caton publicó en el British Medical Association
Journal el primer documento describiendo la actividad eléctrica espontánea del cortex
cerebral en experimentos llevados a cabo con conejos y monos. Caton utilizó galvanómetros
Thomson, utilizados en telegraf´ıa [Webster 95].
Sin embargo no es hasta 1924, cuando el psiquiatra Hans Berger de la Universidad de
Jena (Austria), realiza los primeros registros de actividad eléctrica del cortex cerebral,
para ello utilizó un galvanómetro de cuerda conectado a electrodos superficiales, con el que
podı́a medir los irregulares y relativamente pequeños potenciales eléctricos (50 a 100μV )
provenientes del cerebro [Webster 04].
El art´ıculo de Berger pasa desapercibido hasta que Adrian y Matthews, en 1934 en Gran
Bretaña, ası́ como Jasper y Carmichael en 1935 en Estados Unidos, revisan y confirman
los resultados de Berger.
Entre 1924 y 1938 Berger estableció las bases para la aplicación de la
electroencegalografı́a, siendo el primero en utilizar el término “electroencefalograma” para
describir las variaciones de potencial eléctrico en el cerebro de los humanos. Ası́ mismo
descubrió que las ondas registradas no eran completamente aleatorias, sino que por el
contrario mostraban cierta periodicidad y regularidad; Berger observó que durante el
sueño se presentaba un patrón de ondas sincronizadas de baja frecuencia (< 3Hz) y
gran amplitud, mientras que en estado de vigilia el patrón cambiaba a uno desincronizado
de baja amplitud y mayor frecuencia; esto le permitió sugerir que la actividad cerebral
cambiaba de un modo consistente y reconocible, cuando el estado del sujeto cambiaba,
como por ejemplo del estado de relajación al de alerta. Del mismo modo, después de notar
un marcado incremento en la amplitud de las ondas cerebrales registradas durante ataques
convulsivos, Berger también dedujo que las ondas cerebrales se veı́an afectadas en gran
medida por condicionantes patológicos [Webster 04].
Una vez asentado y aceptado el concepto de “ondas cerebrales humanas”, el estudio de
la actividad electroencefalográfica quedo firmemente asentado. Una de las primeras
contribuciones fue la identificación de determinados ritmos en el EEG; ası́ a la oscilación
de aproximadamente 10 a 12 Hz registrada en los lóbulos occipitales del cortex cerebral se le
2.2 Técnicas para la adquisición de actividad cerebral. 29

denominó “ritmo alfa”. Este ritmos desaparece cuando el sujeto se concentra, se muestra
alerta o focaliza su atención en objetos de su campo visual. No es hasta 1949 cuando
Moruzzi y Magoun establecen las bases fisiológicas de dichas observaciones, demostrando
la existencia de caminos ampliamente distribuidos a través del núcleo reticular central
del tallo cerebral, que son capaces de ejercer una influencia de activación sobre el cortex
cerebral. A este sistema de activación reticular se la ha llamado selector de respuesta
cerebral, debido a que alerta al cortex para focalizarse en ciertas piezas de información
entrante, mientras que otras son descartadas [Webster 95].

2.2.1.2. Sistemas de referencia de posicionamiento de los electrodos.


Los electrodos superficiales se emplean junto con técnicas de registro monopolares y
diferenciales. La figura 2.13 muestra ambas técnicas con la conexión de un sistema de
cuatro canales a un sujeto [Webster 98], [Webster 95], [Webster 92].
En registros monopola-
res uno de los terminales
activos del amplificador se
conecta al electrodo de re-
ferencia, conectado al lóbu-
lo de la oreja. En los re-
gistros diferenciales, los ter-
minales de los amplificado-
res se conectan entre pare-
jas de electrodos en un or-
den determinado. En ambos
tipos, la mitad de los canales
son conectados al hemisferio
derecho y la otra mitad al
hemisferio izquierdo, de este
modo la actividad eléctrica
de áreas homólogas del cere-
bro pueden ser comparadas
a simple vista. Figura 2.13: Técnicas de registro monopolar y diferencial.
En electroencefalografı́a clı́nica, 21 electrodos son aplicados a la cabeza del sujeto,
dando lugar al denominado sistema electroencefalográfico 10-20, tal y como se muestra en
la figura 2.14, este sistema fue descrito por Jasper en 1958, quien supervisó la reunión de
la Federación Internacional de Sociedades de EEG, la cual desarrollo esta localización de
electrodos como estándar [Webster 04].
El sistema 10-20 emplea marcas craneales como puntos de referencia para la localización
de los electrodos. En conjunto, para examinar la actividad cerebral, se emplean 19
electrodos superficiales distribuidos por la cabeza y 2 electrodos de referencia en los lóbulos
de las orejas. Para posicionar los electrodos primero se mide a lo largo de la l´ınea media la
30 Estado de la técnica.

Figura 2.14: Sistema electroencefalográfico 10 - 20.

distancia entre la unión naso-frontal y la protuberancia occipital, a continuación a lo largo


de esta l´ınea se marcan 5 puntos. El primer punto determina el polo frontal (Fp), el cual
está al 10 % de la distancia anterior y justo sobre la unión naso-frontal. Ningún electrodo
se aplica sobre este punto de referencia, el cual se utiliza para medidas posteriores. Los
puntos de los electrodos frontal (Fz), central (Cz), parietal (Pz ) y occipital (Oz ) sobre la
lı́nea media están separados por el 20 % de la distancia entre la unión naso-frontal y
la protuberancia occipital medida desde el polo frontal (Fp ). Mediante esta técnica el
electrodo central (Cz ) se localiza en la mitad de la distancia anterior. Un método similar
de medida se emplea para posicionar dos filas de electrodos sobre los lados derecho e
izquierdo de la cabeza. Los puntos coronales son marcados midiendo la distancia entre la
depresiones justo en frente de cada oreja. La depresión se localiza fácilmente antes del
tragus y en la raı́z de la estructura ósea zigomática o pómulo, al 10 % de esta distancia
medida hacia arriba desde las depresiones se localizan los electrodos temporales (T4, T3)
a cada lado de la cabeza. La posición de los electrodos centrales (C4 , C3 ) se localizan
al 20 % de la distancia sobre los puntos temporales. La fila horizontal de posiciones de
electrodos más baja se determina midiendo desde el polo frontal (Fp ) a la protuberancia
occipital, este procedimiento localiza los electrodos Fp2,F8, T4,T6 y O2 para el lado derecho
y Fp1,F7,T3 y O1 para el lado izquierdo. Los electrodos restantes (F4,C4 y P4 en el lado
derecho y F3, C3, P3 en el izquierdo) son posicionados a lo largo de l´ıneas equidistantes
entre la l´ınea temporal y la l´ınea media a lo largo de las l´ıneas coronarias frontal y parietal
respectivamente. Con el sistema 10-20 un número par de electrodos se disponen en el lado
derecho e impar en el izquierdo. Los electrodos de la l´ınea media son designados mediante
2.2 Técnicas para la adquisición de actividad cerebral. 31

una Z (Fz , Cz , Pz ). Existen huecos intencionados en el sistema de notación por subı́ndices


a fin de permitir el uso de otra localización de electrodos, la cual puede ser añadida con
el mismo sistema de referencia [Webster 78].
Inicialmente para el registro encefalográfico se utilizaban plumillas que registraban
la actividad encefalográfica sobre papel continuo, que se desplazaba a una velocidad
de registro estándar de 3cm/s y una sensibilidad de grabación 7μV/mm [Bronzino 95b]
[Baker 89]. En la actualidad con objeto de incrementar la resolución espacial se utilizan
sistemas de referencia que emplean 64 y 128 electrodos.

2.2.1.3. Actividad electroencefalográftca normal.


Con electrodos superficiales aplicados a un ser humano adulto sano en estado de
relajación, se puede registrar una fluctuación de la actividad eléctrica constante con una
frecuencia dominante alrededor de 10 Hz y una amplitud en el rango de 20 a 200 μV . A
esta actividad se la denomina ritmo alfa, variando su frecuencia entre 8 y 13 Hz, siendo más
relevante en las áreas occipital y parietal. El ritmo alfa aumenta su frecuencia con la edad,
alcanza su forma adulta entre los 15 y los 20 años de edad.
Se muestra más promi-
nente cuando los ojos se en-
cuentran cerrados y en esta-
do de relajación. Se ha ob-
servado que entre diferen-
tes especies los patrones del
ritmo alfa var´ıan. El segui-
miento visual de un obje-
to, o la realización de acti-
vidades mentales como ta-
reas aritméticas, disminu-
yen o anulan el ritmo alfa
[Jessell 91]. Aunque el ritmo
alfa es el más prominente en
la actividad eléctrica, otro
tipo de frecuencias también
se encuentran presentes en
sujetos humanos sanos, por
ejemplo el ritmo beta pre-
senta actividad con un Figura 2.15: Electroencefalograma normal.
rango de frecuencias entre 18 y 30 Hz, y una menor amplitud. Es más frecuente en la
parte frontal del cerebro. Dependiendo del estado cerebral del sujeto, otros rangos de
frecuencias más elevadas y amplitudes han sido detectados. Con la finalidad de mejorar la
descripción de las formas de onda y sus frecuencias, la comunidad cientı́fica a desarrollado
la terminolog´ıa recogida en la tabla 2.1 [Jessell 91].
32 Estado de la técnica.

Forma de onda Frecuencia (Hz) Consideraciones.


Ritmo Alfa. 8 - 13 Zona parietal y occipital. Asociado a
estado de vigilia con sujeto relajado
Mas prominente con los ojos cerrados.
Ritmo Beta. 18 - 30 Zona frontal y parietal.
Se muestra mejor con Alfa bloqueado.
Delta. 1 - 3.5 Asociado a sueño normal. Presente
en niños menores de un año. En adul-
tos se asocia con cerebros enfermos.
Teta. 4-7 Zona parietal y temporal.
Prominente en niños de 2 a 5 años.
Sigma. 12 - 14 Se muestra durante el sueño.
“Sleep spindle” Modulación de onda senoidal parecida
a un eje de revolución.
Lambda. Transitorio. Evocación visual. Onda occipital de
pequeña amplitud, resultado del reco-
nocimiento de una nueva imagen retinal.
Onda y pulso. 3̃ Pico abrupto en una onda, seguido de
una onda más redondeada asociada con
crisis de ausencia epiléptica.
V Transitorio. Pulso de 150 a 250 milisegundos
registrado sobre la coronilla.
Complejo K Transitorio. Onda vértice seguida algunas veces de
un pulso. Registrada durante el sueño
y en respuesta a est´ımulos auditivos.
Ritmo Mu 8 - 12 Dominante en la zona central.
Semeja media sinusoide.
Tabla 2.1: Terminologı́a de formas de onda para EEG.
El electroencefalograma de cualquier persona se ve profundamente afectado por su
estado cerebral. La figura 2.15 muestra los cambios que ocurren durante el sueño.
Cuando el sujeto va a dormir, las componentes de alta frecuencia asociadas al estado de
alerta o excitación, ası́ como el ritmo alfa que predomina en estado de relajación, son
reemplazadas por una secuencia de cambios cı́clicos caracterı́sticos. La desviación de estos
cambios normales, a menudo indica la presencia de alguna patolog´ıa cerebral [Webster 78]
[Baker 89] [Bronzino 95b].

2.2.1.4. Potenciales sensoriales evocados


Un estı́mulo efectivo entregado a un órgano sensorial desencadena una respuesta
detectable en la corteza cerebral. Aunque todos los órganos sensitivos periféricos envı́an
su información a la corteza cerebral, es fácil detectar la respuesta a estı́mulos auditivos,
visuales o somatosensoriales, a través de la disposición de electrodos sobre las zonas
corticales adecuadas, la figura 2.16 ilustra las áreas del sistema somatosensorial [Baker 89].
En realidad el potencial sensorial evocado informa acerca de la integridad del
órgano sensorial y el camino neurológico al cortex cerebral. Partes separadas del camino
2.2 Técnicas para la adquisición de actividad cerebral. 33

Figura 2.16: Localización somatosensorial.


neurológico pueden ser estudiadas a través de la aplicación de corrientes de estimulación
eléctrica a nervios periféricos y médula espinal.
La figura 2.16 es una vista lateral del cerebro mostrando las dos cisuras más
prominentes: la cisura de Rolando y la de Silvio. Anterior a la cisura de Rolando se
encuentra el giro pre-central, el cual contiene las áreas motoras primarias; detrás se
encuentra el giro post-central que contiene las áreas somatosensoriales; información
sensorial de toda la superficie del cuerpo se encuentra dispuesta a lo largo de esta tira
sensorial. Penfield y Rasmussen, en 1950 [Baker 89], determinaron la distribución
topográfica de las sensaciones a lo largo del giro post-central en humanos y la representaron
como un homúnculo. Las partes del cuerpo del homúnculo son dibujadas para representar
el tamaño del área sensora cortical correspondiente.
La detección óptima de las respuestas somatosensoriales evocadas precisan que los
electrodos sean colocados en las áreas corticales contralaterales adecuadas. Por ejemplo,
los potenciales evocados debidos a estimulación de la pierna derecha son detectados
con electrodos dispuestos sobre el lóbulo izquierdo, del mismo modo, los causados por
estimulación facial del lado derecho se muestran en la superficie lateral izquierda del
cerebro hacia el lóbulo temporal. La respuesta a estı́mulos visuales aparecen en la parte
posterior del cortex (polo occipital). Potenciales evocados a est´ımulos auditivos se detectan
sobre la parte superior del lóbulo temporal. La mayor parte de las sensaciones son
representadas bilateralmente [Baker 89], [Ratey 03].
Para la detección de los potenciales evocados Dawson entre 1951 y 1954, [Baker 89],
34 Estado de la técnica.

[Webster 78], introdujo la técnica de promediado de señal, ya que aun disponiendo los
electrodos sobre las zonas adecuadas del cráneo los registros que se obtienen no son claros
debido a la actividad de base del cerebro, esta técnica asume que el potencial evocado
se encuentra temporalmente asociado al est´ımulo, mientras que la actividad de fondo del
cerebro se trata como una señal aleatoria, el tiempo de retardo entre la aparición del
potencial evocado y la generación del estı́mulo da lugar al criterio de denominación, as´ı
por ejemplo los potenciales evocados P300 son aquellos que se detectan transcurridos
unos 300mseg desde que se provoca el est´ımulo hasta que se detecta el potencial.
En la actualidad con los convertidores analógico/digital y los micropocesadores esta
técnica es fácilmente realizable. El primer paso consiste en realizar un filtro paso banda
de la señal electroencefalográfica, de modo que sólo es considerado el rango de frecuencias
adecuado, valores t´ıpicos de los filtros paso banda son de 0.25 - 25 Hz. Posteriormente la
señal EEG se muestrea convirtiéndola en digital, frecuencias de muestreo tı́picas son
100 Hz o superiores. La resolución de amplitud depende del número de bits seleccionados,
valores comunes son 8, 12 y 16 bits. Los potenciales evocados promediados son procesados
por la alineación de muestras temporales después del estı́mulo y sumadas sus amplitudes
algebraicamente. El potencial evocado surge de la actividad de fondo en proporción al
número de grabaciones estı́mulo - respuesta analizadas. Se demuestra que si la respuesta
evocada es √ la señal (S) y el EEG de fondo tiene un ruido (R), la relación señal ruido
(S/R) es (n)(S/R), donde n es el número de secuencias estı́mulo - respuesta analizadas.
Valores t´ıpicos son n = 100 o superiores.

Potenciales auditivos evocados.


Los potenciales auditivos evocados son
la respuesta polifásica a un estı́mulo auditi-
vo, pueden ser registrados en diferentes zo-
nas del cráneo, fig.2.17.
Debido a su naturaleza polifásica se ha
adoptado una nomenclatura estándar para
su estudio, fig.2.18. Según las investigacio-
nes de Picton [Baker 89], las ondas positi-
vas I-VII se producen 10 mseg. después del
est´ımulo. Las ondas primera y segunda re-
presentan la activación del nervio coclear
y el núcleo auditivo. Las ondas posteriores
identifican la activación del núcleo auditi-
vo del tallo cerebral. La onda V es la más
sencilla de discriminar, la latencias de pico
var´ıa entre los 5,5 mseg. para est´ımulos de
70 dB, hasta aproximadamente 9 mseg. pa- Figura 2.17: Localización de potenciales auditivos
ra est´ımulos cercanos al umbral auditivo. evocados.
2.2 Técnicas para la adquisición de actividad cerebral. 35

En el intervalo entre 10 y 50 mseg


después del estı́mulo es posible registrar una
serie de potenciales a lo largo de amplias
zonas de la superficie del cráneo, aunque
son dif´ıciles de discriminar de los potenciales
musculares reflejos, representan potenciales
talámicos y corticales tempranos.
Los potenciales de mayor duración son
P 1 (50mseg), N 1 (100mseg), P2 (170mseg)
y N 2 (250mseg), componentes del poten-
cial coronario, se encuentra ampliamente
distribuido sobre la zona fronto-central, re-
gistrándose con mayor amplitud en Cz y Fz .

Potenciales somatosensoriales evocados.


Los potenciales sensoriales evocados son las
respuestas corticales a est´ımulos presenta-
dos sobre la superficie del cuerpo. Tanto es-
timuladores táctiles como electrodos super-
ficiales son utilizados para estimular eléctri-
camente los haces de los nervios sensores. Figura 2.18: Componentes de los potenciales
Conforme a las investigaciones de Picton, auditivos evocados.
[Baker 89], los potenciales sensoriales evocados se componen de las componentes descritas
en la tabla 2.2

Componente. Tiempo de retardo. Comentario.


0 15 mseg Onda de pico positiva temprana
asociada a la activación de alguna
estructura subcortical profunda.
1 19 mseg Mejor capacidad de registro en la
zona somatosensorial primaria.
2 26 mseg Polaridad contraria a cada lado del
surco central.
4 Su origen es aún desconocido se
5 considera que la activación de áreas
6 sensoriales secundarias pueden ser
las causantes de estos potenciales.
7 Equivalentes en morfolog´ıa y distri-
8 bución a las componentes N 1 y N 2
de los potenciales auditivos evocados.

Tabla 2.2: Componentes potenciales sensoriales evocados.


36 Estado de la técnica.

Figura 2.20: Componentes de los potenciales


visuales evocados.

Figura 2.19: Potenciales sensoriales evocados.

Potenciales visuales evocados.


Los potenciales visuales evocados son la respuesta a est´ımulos visuales en forma de
destellos de luz o imágenes. Su registro se realiza con más facilidad sobre la zona occipital
aunque otras áreas también pueden ser utilizadas, si bien las formas de onda varı́an.
Conforme a las investigaciones de Picton [Baker 89], los potenciales sensoriales
evocados quedan compuestos por las componentes mostradas en la figura 2.20, en donde
las componentes I y III representa la actividad en el tracto genicular, mientras que la
componente II representa la activación de la corteza visual primaria.
La variabilidad de los tiempos de latencia dependen en gran media del sujeto, siendo
más acusada en las últimas componentes, rangos de latencia tı́picos van de los 60 a los 200
milisegundos.
2.2 Técnicas para la adquisición de actividad cerebral. 37

2.2.2. Magnetoencefalografı́a.
La magnetoencefalografı́a es la parte de la medicina que trata de la obtención e
interpretación de registros gráficos obtenidos por magnetoencefalógrafos, estos dispositivos
registran los campos magnéticos provocados por las corrientes eléctricas producidas por
la actividad del encéfalo.
La magnetoencefalografı́a se basa en la detección de los campos magnéticos, que se
originan cuando se produce el movimiento de iones a través de las membranas celulares,
durante la activación (despolarización) y recuperación (repolarización) de las neuronas.
Ya que la naturaleza del principio en el que se basa la magnetoencefalografı́a es el
mismo que la electroencefalografı́a, ambas reflejan el mismo tipo de evento, aunque cada
una suministra información en modo diferente. En el caso de la magnetoencefalografı́a
apenas se produce atenuación del campo magnético al atravesar la señal el tejido vivo,
mientras que en el caso de la electroencefalografı́a el voltaje medido es altamente atenuado.
Por otro lado la magnetoencefalografı́a permite la determinación de la localización y
la dirección de la fuente bioeléctrica activa, ya que el campo magnético es direccional, sin
que sea preciso el contacto directo entre el cuerpo y el dispositivo sensor, es decir, es un
método sin electrodos.
Sin embargo la intensidad del campo magnético producido por las neuronas es muy
pequeño, ver figura 2.21, por lo que es necesario disponer de salas con aislamiento
magnético y emplear la técnica de promediado de la señal adquirida para obtener unas
adecuadas relaciones señal ruido [Baker 89].

2.2.2.1. Referencias históricas.


Antes de 1970, el registro de los campos magnéticos producidos por la activación
y recuperación de las neuronas en particular, y tejido vivo en general, se realizaba
con bobinas con un gran número de espiras, a partir de 1970 se empieza a utilizar el
dispositivo superconductor de interferencia cuántica, “SQUID: superconducting quantum
interference device”, que tiene la capacidad de detectar campos magnéticos muy sensibles,
dicho dispositivo junto con la técnica de promediado de señal permite la obtención de
magnetoencefalogramas muy claros [Baker 89].
Magnetogramas del nervio ciático de ranas aislados fueron registrados por Seipel y
Morrow en 1950, utilizando una bobina con 3.000 espiras, con dimensiones 2mm x 3mm
x 6mm [Baker 89].
En 1963 Stratbucker registró los cambios de campo magnético asociados al latido del
corazón de un cerdo de Guinea, utilizando una bobina en forma toroidal con 17.640 espiras.
La aplicación a humanos se realizó en 1965 por Baule y McFee, quienes introdujeron la
técnica de bobinas paralelas, cada bobina contenı́a 1∗ 106 espiras bobinadas sobre un núcleo
de ferrita, ver figura 2.22, ambas bobinas se conectaban en serie, proporcionando un voltaje
de pico de unos 30μV , proporcional a la tasa de variación del campo magnético. Safonov
en 1967 utilizó la misma técnica en una sala aislada magnéticamente con paredes de
38 Estado de la técnica.

Figura 2.21: Intensidad de campos bio-magnéticos.

planchas de hierro de 1.5 pulgadas de grosor. Cohen en 1967 obtuvo magnetocardiogramas


bastante aceptables con bobinas de 5 cm de longitud, 8 cm de diámetro, de 200.000
espiras, bobinadas sobre un núcleo de ferrita recubiertas por cilindros de latón a modo
de aislamiento electrostático, dentro de una sala de 2,2 m x 2,24 m x 2,24 m, aislada
magnéticamente por planchas de molypermalloy en la parte externa y aluminio de 5mm
en la parte interna. El detector era montado en modo seguro en frente del tórax del sujeto.
2.2 Técnicas para la adquisición de actividad cerebral. 39

Magnetoencefalogramas
promediados de campos
magnéticos auditivos evo-
cados han sido reportados
por el grupo de Dr. Hari
en 1980, junto con los po-
tenciales auditivos evocados
[Baker 89]. La figura 2.23
ilustra los potenciales audi-
tivos evocados registrados
por un electrodo en Pz, y los
campos magnéticos evocados
en las localizaciones P3 y F7,
sobre el lado izquierdo de la
cabeza.
Figura 2.22: Magnetocardiograma.

Figura 2.23: Magnetoencefalograma con campos magnéticos auditivos inducidos.


40 Estado de la técnica.

El est´ımulo consist´ıa en un
pulso de frecuencia 1KHz de
0,8seg de duración presenta-
do simultáneamente en ambos
o´ıdos. El tiempo entre pulsos
era de 4seg. El magnetoence-
falograma muestra tres com-
ponentes a 100 y 180 mseg
y la componente continua del
campo. La polaridad para di-
chas componentes fue estudia-
da en varios emplazamientos
sobre el hemisferio derecho a
lo largo de la cisura de Silvio,
las cruces representan campos
entrantes, los c´ırculos cerra-
dos campos salientes. Se de-
muestra que aunque el área
auditiva se extiende sobre el
lóbulo temporal, existen res-
puestas corticales que se re-
parten a todo lo largo del ce-
rebro, tal y como demuestran
los potenciales auditivos evo-
cados. Del mismo modo el Dr.
Okada en 1981, realizó mag-
netoencefalogramas de la res-
puesta sensora evocada sobre
el hemisferio cerebral izquier-
do debida a la estimulación Figura 2.24: Magnetoencefalograma con campos magnéticos
del nervio medio derecho sensitivos inducidos.
utilizando pulsos de 1milisegundo de duración con una frecuencia de repetición de 1.9Hz.
La figura 2.24 muestra las respuestas obtenidas en diferentes posiciones sobre el cráneo a
lo largo de la cisura de Rolando, el registro comienza en la sien y se desplaza 1 cm hacia
abajo. La localización cortical mostrada por los campos magnéticos sensoriales evocados es
similar a la obtenida con los potenciales sensoriales evocados. A pesar de su utilización por
más de dos décadas, el futuro de la magnetoencefalografı́a aún no se puede predecir, como
herramienta de investigación es extremadamente útil por su capacidad de localizar fuentes
bioeléctricas, pero el coste asociado para su implantación es su principal desventaja en la
medicina cl´ınica.
2.2 Técnicas para la adquisición de actividad cerebral. 41

2.2.3. Imagen cerebral mediante rayos X.


Los rayos X son ondas electromagnéticas de longitud de onda muy corta, λ = 100nm,
producidas cuando los electrones en rápido movimiento colisionan con sustancias a su
paso. Son similares a los rayos de luz, con la excepción de que su longitud de onda es
una diez milésima de la longitud de onda de la luz visible, debido a lo cual son capaces
de penetrar sustancias muy densas, e impresionar pelı́culas fotográficas creando imágenes
con diferentes tipos de niveles de gris, denominadas radiografı́as, está caracterı́stica la hace
útil en diagnóstico ya que diferencias en la densidad entre las diferentes estructuras del
cuerpo producen imágenes que varı́an en su intensidad de luz sobre la pelı́cula de rayos
X, de modo similar al negativo de una fotograf´ıa. Estructuras densas como el hueso del
cráneo aparecen blancas, mientras que aquellas áreas rellenas de aire o lı́quido, aparecen
negras. En neurologı́a su aplicación principal es el diagnóstico de enfermedades del cerebro
mediante el análisis de radiografı́as.
La figura 2.25 muestra la estructura
de un sistema de rayos X. Los electrones Tubo de
Rayos X
emitidos por un filamento incandescente
son acelerados hacia el ánodo de tungsteno Filtro de
a +100 KV, emitiendo rayos X. Un filtro Aluminio
de aluminio detiene los rayos X de baja
energ´ıa, ya que no atravesar´ıan el cuerpo Colimador
para formar la imagen. Como los rayos
X son emitidos en todas direcciones, para Cuerpo
evitar daños al sujeto y al operador, son
apantallados a través de un colimador,
de modo que sólo los que queden libres Radiacion
son los que dan lugar a la formación primaria
de la imagen. Para evitar que radiación Radiacion
secundaria pueda dañar la pelı́cula se secundaria
emplean unas rejillas en forma de persiana
Rejilla
veneciana. Con objeto de aumentar el
contraste se emplean pantallas de fósforo Pantalla
que emiten gran cantidad de fotones por Pelicula
cada rayo X incidente. As´ımismo, para
reducir la dosis de radiación se puede Figura 2.25: Rayos X
emplear un intensificador de imagen. Los rayos X golpean una pantalla de fósforo en
un tubo al vacı́o, produciendo gran cantidad de fotones que estimulan un foto-cátodo
aumentando la emisión de electrones, estos son acelerados hasta incidir sobre una pantalla
de fósforo a +25 kV, consiguiéndose ası́ una buena calidad de imagen con baja dosis de
rayos X [Webster 78][Baker 89].
Aunque a través de los rayos X es posible la detección de las estructuras internas del
encéfalo, no es detectable el funcionamiento del cerebro, por lo que no es aplicable en la
tecnolog´ıa ICC.
42 Estado de la técnica.

2.2.4. Imagen cerebral mediante imagen nuclear.


Los sistema de imagen nuclear se basan en la detección de radiación producida por
radio-isótopos2 cuando estos se descomponen para alcanzar la estabilidad. En general
los rayos gamma son utilizados para obtener imágenes de órganos dando una indicación
de su funcionamiento. Equipos computerizados de detección de radiación, en especial
los detectores de destellos, detectan los rayos gamma emitiendo un destello luminoso.
El dispositivo de imagen suministra ası́ una imagen del órgano considerado, dando
información de su tamaño, forma, posicion y actividad funcional. Esta técnica se emplea
para la visualización de órganos y regiones internas que no se pueden ver utilizando rayos
X. El espacio ocupado por lesiones y tumores, se muestran particularmente bien.
Para su aplicación al paciente se le suministra un radio-fármaco por vı́a oral o
intravenosa, con un intervalo de tiempo suficiente que permita a la substancia radiactiva
seguir su camino metabólico especı́fico dentro del cuerpo y concentrarse en el tejido
especı́fico a ser estudiado. Un dispositivo de imagen registra la posición y concentración
de la radiación emitida por el radio-isótopo. En casi todos los casos, esta técnica expone
al sujeto a menos radiación que la que recibirı́a llevando a cabo un procedimiento de
diagnóstico similar con rayos X. La medicina nuclear mejora a la anatómica, empleando
una búsqueda con medicina nuclear, metástasis óseas se pueden diagnosticar con un
periodo de anticipación de seis a doce meses antes que con las técnicas radiográficas
normales; en scanners cerebrales se utiliza para el diagnóstico de anormalidades patológicas
como tumores, aneurismas cerebro-vasculares y hematomas.
La figura 2.26 muestra una cámara gamma tipo empleada en medicina nuclear.
Los rayos gamma se produ-
cen en el órgano en todas direccio-
nes, los tubos del colimador ase-
guran que sólo la radiación des-
de las zonas de interés alcancen
el detector NaI. La luz es detec-
tada por más de un tubo foto-
multiplicador, sin embargo sólo los
incrementos relativos son utiliza-
dos para mejorar la resolución es-
pacial. Un analizador electrónico
de amplitud de pulso selecciona
aquellos tubos que tiene la energ´ıa
de rayo gamma adecuada.
La resolución espacial de la
imagen obtenida es alrededor del Figura 2.26: Camara Gamma

1 % de las dimensiones de la imagen [Webster 78][Baker 89].


Aunque esta técnica, a diferencia de los rayos X, puede mostrar el funcionamiento del
cerebro, no es aplicable en la tecnolog´ıa ICC debido a la necesidad de administrar un radio
fármaco al usuario y a las constantes de tiempo involucradas en el proceso.
2
Un radio-isótopo es un átomo con un núcleo inestable. Con objeto de alcanzar la estabilidad el radio-
isótopo emite uno o más tipos de radiación, el ejemplo más común es las partı́culas alfa, beta y la radiación
electromagnética gamma.
2.2 Técnicas para la adquisición de actividad cerebral. 43

2.2.5. Imagen cerebral mediante tomografı́a computerizada.

La figura 2.27 muestra un sistema


de tomograf´ıa computerizada de rayos X.
Mide la atenuación de rayos X paralelos
contenidos en un mismo plano. El proceso
se repite para otros planos cambiando el
ángulo. La información es procesada por
un computador que genera una imagen
bidimensional de la rebanada del cuerpo
en estudio. Repitiendo el proceso con
rebanadas consecutivas se crea una imagen
tridimensional. La figura 2.28 muestra el
proceso de reconstrucción digital de la
imagen mediante retro-proyección, en la
que la atenuación a lo largo de cada
Figura 2.27: Tomografı́a computerizada.
plano es uniformemente asignada; por lo
tanto si existe una alta atenuación en
un pixel o elemento de la imagen, la
asignación desde los ángulos considerados
aumenta más que en los pixeles de su
alrededor. Métodos iterativos aplicados a
la imagen miden la atenuación resultante
y proyectan la nueva información. Como
substancia de calibración se utiliza el
agua, ya que presenta un valor cero en la
tomografı́a. Métodos analı́ticos emplean
análisis espacial de Fourier o técnicas
de convolución. La tomografı́a
computerizada puede generar imágenes
de secciones cruzadas de estructuras
anatómicas, sin superponer tejidos de una Figura 2.28: Tomografı́a computerizada.
en otra.
Sistemas mejorados de tomografı́a computerizada utilizan múltiples medidas
simultáneas y tubos de rayos X que rotan cada 2 segundos. La tomografı́a computerizada
suministra imágenes de tejidos blandos dentro del cerebro que no es posible conseguir
con radiograf´ıas convencionales, ya que los rayos X quedan bloqueados por la densidad del
cráneo. El paciente se coloca dentro del centro de un toroide, rodeado por scanners
tomográficos. La tomografı́a es empleada en el diagnóstico de tumores cerebrales
como neoplasmas, infartos cerebrales, desplazamiento o crecimiento ventricular, atrofias
corticales (decrecimiento del tamaño del cerebro), aneurismas cerebrales, hemorragias y
hematomas intracraneales y malformaciones arteriovenosas. Sin embargo también tiene
limitaciones, la resolución espacial y de contraste limitan a la tomografı́a en su habilidad
para distinguir tejido normal del patógeno, por ejemplo si un tumor dentro del cuerpo
tiene una atenuación semejante a la del agua, no será detectado [Webster 78][Baker 89].
44 Estado de la técnica.

2.2.6. Imagen cerebral: MRI.


La imagen de resonancia magnética, MRI: Magnetic Resonance Imaging, suministra
imágenes bidimensionales que son secciones de la concentración de isótopos H 1 en objetos
tridimensionales. El sujeto es colocado a lo largo del eje Z dentro de un potente campo
magnético de aproximadamente 2T . El spin de los electrones de H 1 precesan a las
frecuencias de Larmor de 42,57M Hz/T . El campo magnético es perturbado para producir
un pequeño gradiente magnético a lo largo del eje Y . En la figura 2.29 se muestra que sólo
hay una sección para cada frecuencia particular de Larmour. Bobinas de radio frecuencia
dispuestas alrededor pulsan a dicha frecuencia, provocando la excitación de las partı́culas
de la sección. Tras una rápida perturbacion del campo magnético, a lo lardo del eje X, un
receptor de radio frecuencia mide la relajación a lo largo de la lı́nea del eje Z ortogonal
a ambos campos. El campo magnético a lo largo del eje Z puede ser modificado para
producir nuevas lı́neas adicionales de adquisición. El sistema es similar a la tomografı́a
computerizada y la señal es procesada en modo similar [Webster 78][Baker 89].
Los puntos fuertes de MRI incluyen:
sensibilidad al flujo sangu´ıneo, ajuste z

electrónico del plano de la imagen Seccion


(en contraposición a otras técnicas que Seccion
en el eje x

utilizan ajuste f´ısico, como la tomograf´ıa en el eje y


computerizada), no emplea radiación
ionizante, sólo magnetismo y ondas de
radio; y alta resolución en tejidos blandos. Linea
Los puntos flacos de MRI son: seleccionada
contraindicación en caso de implantes de
dispositivos médicos y placas metálicas
en pacientes, tiempo de adquisición de y x

la imagen prolongado y coste elevado;


factores que junto con las constantes de
tiempo involucradas al flujo sangu´ıneo Figura 2.29: En MRI, la bobina de radio frecuencia
hacen muy complicado su empleo en la excita las secciones en el eje Y . Un receptor de RF
tecnolog´ıa ICC. mide la secciones en el eje X.

Figura 2.30: MRI tejidos blandos


2.2 Técnicas para la adquisición de actividad cerebral. 45

2.2.7. Imagen cerebral: SPECT.


En la tomografı́a computerizada por emisión individual de fotones3 , un sistema
similar al de la cámara gamma rota alrededor del sujeto. Los rayos gamma provenientes
del sujeto son recogidos en modo similar al utilizado en la tomograf´ıa computerizada,
aunque en este caso varias secciones son obtenidas al mismo tiempo, mostrando la
actividad que se produce en el interior de la zona de interés. Mediante SPECT es posible
observar anomalı́as no observables con los sistemas convencionales de rayos X o cámara
gamma [Webster 78][Baker 89]. El elevado coste de equipamiento y la necesidad de la
administración de un radio-fármaco son los principales inconvenientes para la aplicación
de esta técnica en la tecnologı́a ICC.

2.2.8. Imagen cerebral: Tomografı́a por Emisión de Positrones (PET).


Algunos isótopos producen positrones que reaccionan con los electrones emitiendo dos
fotones a 511 keV en direcciones opuestas. La figura 2.31.a muestra los dos detectores
dispuestos en lados opuestos del sujeto. Los detectores determinan si ambos destellos
son coincidentes y tienen niveles de energ´ıa cercanos a 511 keV. Parejas adicionales de
detectores, fig.2.31b y c permiten una rápida operación. La reconstrucción de la imagen
es similar a la empleada en la tomograf´ıa computerizada.
La principal ventaja del PET es que la mayorı́a de los radio-isótopos utilizados 15 O,
13N , 11 C y 18 F , pueden ser compuestos como metabolitos. Por ejemplo, CO puede ser

hecho con 11 C. Si una porción del cerebro se encuentra activada, el incremento del flujo
de sangre transporta el isótopo hasta ella, apareciendo en la imagen. Funcionamientos
anormales, tumores, ataques y otro tipo de anomal´ıas pueden ser mapeados de este modo.
Por ejemplo, medidas del metabolismo de FDG (glucosa-fluordeoxyglucosa) se emplea
para determinar el crecimiento de tumores. La detección de tumores tempranos es posible
antes de que se produzcan cambios estructurales detectables mediante MRI o CT, ya que
pequeñas cantidades de FDG pueden ser visualizadas [Webster 78], [Baker 89].

Figura 2.31: Tomografı́a por Emisión de Positrones

3
SPECT: Single-photon emission computed tomography.
46 Estado de la técnica.

2.3. Referencias históricas sobre la tecnologı́a ICC.


Con el descubrimiento de la naturaleza electroquı́mica del sistema nervioso en general
y del cerebro en particular, y la descripción de la electroencefalografı́a por parte del Dr.
Hans Berger en 1929, [Bronzino 95a], comienzan las primeras especulaciones acerca del
empleo de esta técnica como vı́a de comunicacion y control, a fı́n de permitir al cerebro
actuar sobre el entorno sin la utilización del sistema nervioso periférico o los músculos4 .
Las investigaciones llevadas a cabo en la tecnolog´ıa ICC han sido divididas en dos
grandes grupos, denominándose experimentos fuera de lı́nea a aquellos en los que se
produce una primera etapa de adquisición de la información para proceder a continuación a
su posterior análisis; y experimentos en lı́nea a aquellos que procesan, lo más rápidamente
posible, pequeños paquetes de información para interactuar con el entorno en el menor
tiempo posible, buscándose idealmente una actuación e interacción continua entre el
usuario y el entorno.
En el primer caso quedan englobadas todas aquellas investigaciones cuyo objetivo es la
investigación neurológica: zonas cerebrales en las que la relación señal adquirida ruido
presenta un ı́ndice mayor, grupo de actividades con mayor poder de discriminación, etc.
El segundo grupo engloba aquellos experimentos en los que se busca el desarrollo de
dispositivos de comunicación.
Las primeras investigaciones se centraron en la utilización de señales electroencefa-
lográficas espontáneas, al usuario se le entrenaba en el control de estas caracterı́sticas,
normalmente ritmo α, con el objetivo de manejar desde trenes de juguete a juegos de
luces. Un ejemplo tı́pico de esta etapa es el que realizó el Dr. Dewan en 1967, empleo bio-
realimentación para entrenar voluntarios en la modificacion de sus ritmos α occipitales
con el objetivo de codificar mensajes en Morse.
En 1970 varios cientı́ficos desarrollaron sistemas de comunicación sencillos, que eran
controlados por el registro de actividad eléctrica en la cabeza del usuario. A principios
de dicha década la “Advanced Research Projects Agency (ARPA)” del Ministerio de
Defensa de Estados Unidos, mostró interés en tecnologı́as que permitieran un mayor grado
de inmersion e interacción entre personas y computadoras incluyendo las denominadas
aplicaciones “biónicas”.5 El Dr. George Lawrence propuso y dirigió un programa que
inicialmente se centraba en la auto-regulación y biorealimentacion cognitiva. Se analizaron
aquellas técnicas que mejoraran el rendimiento de los operarios, especialmente las
capacidades militares de personal involucrado en tareas que ten´ıan una carga mental
elevada. La investigación produjo ciertos avances en biorealimentación, pero apenas
se avanzó en los objetivos inicialmente establecidos. Bajo la denominación de “bio-
cibernética” se estableció una nueva dirección, siendo ésta la principal fuente de
recursos para la investigación en biónica. Una de las directrices de este programa fue
la evaluación de la posibilidad de utilizar señales biológicas, que serı́an analizadas en
tiempo real por un computador, con el objetivo de controlar veh´ıculos, armamento u otros
sistemas. El proyecto de mayor éxito fue liderado por el Dr. Jacquies Vidal,
4
La figura 2.33, al final de este capı́tulo, se muestra el desarrollo de la tecnologı́a ICC
5
Biónica: Disciplina que se ocupa de la aplicación tecnológica de las funciones y estructuras biológicas de
los animales.
2.3 Referencias históricas sobre la tecnologı́a ICC. 47

director de “Brain Computer Interface Laboratory” en UCLA. Mediante la utilización


de estimulación visual generada por computador y procesamiento avanzado de señal, los
resultados de la investigación demostraron que potenciales visuales evocados, considerados
individualmente, permitirı́an un canal de comunicación por el cual un operario podrı́a
controlar el movimiento de un cursor a través de un laberinto bidimensional [Vidal 73]
[Vidal 77].
Estas primeras investigaciones revelaron la importancia de la distinción entre
sistemas de control que usaran actividad electroencefalográfica y aquellos que usaban
electromiogramas, recogiendo la actividad muscular a nivel de cuero cabelludo o músculos
faciales.
El incremento en la potencia de cálculo de los computadores en las últimas dos
décadas, ha permitido a los investigadores la implementación de complejos algoritmos de
procesamiento y reconocimiento de señal, usando como señales de control tanto Potenciales
Evocados6 como Potenciales Relativos a Eventos7.
En 1988 los doctores Farwell y Donchin de la Universidad de Illinois utilizaron la
técnica de Potenciales Relativos a Eventos P300 para el control de una máquina de escribir
virtual [Donchin 00], [Wolpaw 00a], [Krusienski 00], [Sellers 06]. El teclado matricial se
representaba en una pantalla de ordenador. Al voluntario se le pedı́a que escribiera una
palabra, mientras que las fila y columnas del teclado eran resaltadas de forma aleatoria,
cuando se resaltaba la fila o la columna en la que se encontraba la letra deseada se producı́a
un P300. El dispositivo utilizaba un único electrodo dispuesto sobre el cortex parietal (es
la zona con mayor respuesta P300 en personas adultas). Un algoritmo de detección de pico
identificaba cuando se producı́a un potencial P300. El sistema tenı́a una velocidad media
de comunicación de 2.3 caracteres por minuto, lo cual corresponde a un canal con una
capacidad de 0.2 bits/segundo.
En 1990 el Dr. Keirn y el Dr. Aunon, en la Universidad del Estado de Colorado, llevaron
a cabo una serie de experimentos para analizar que tipo de actividades cognitivas podrı́an
ser diferenciadas, mediante la señal electroencefalográfica. El objetivo a largo plazo era
la utilización de aquellas actividades que mejor señal proporcionaban para el control de
sistemas ICC. Inicialmente se identificaron tareas en los hemisferios izquierdo y derecho,
por lo que una caracterı́stica de discriminación útil fue la relacion de asimetrı́a de la
potencia espectral. Se dispusieron seis electrodos en las zonas izquierda, central derecha,
parietal y occipital, del cortex cerebral. La estimación de la densidad espectral de potencia
fue obtenida mediante el empleo de la transformada rápida de Fourier (FFT). Trabajos
posteriores demostraron que el empleo de métodos Auto-Regresivos (AR) ofrecı́an mejores
resultados. La relación de asimetrı́a fue aplicada en un clasificador cuadrático bayesiano,
obteniéndose diferenciación entre estado de reposo y cada uno de los siguientes estados:
rotación mental de figuras geométricas, multiplicaciones matemáticas, composición mental
de cartas y cuenta visual. La exactitud de discriminació n obtenida se encontraba entre un
80 % y un 90 %.
6
Denominación inglesa: Evoked Potentials EP’s
7
Denominación inglesa: Event-Related Potentials ERP’s
48 Estado de la técnica.

En 1993, investigadores del Hospital Universitario Nacional de Taiwan repetı́an el


experimento anterior, pero utilizando redes neuronales de Kohonen como clasificador de
las diferentes actividades. Indicaron que eran capaces de diferenciar dichas tareas con
mayor exactitud.
En 1995 el grupo del Dr. Anderson analizó los datos recogidos por Keirn y Aunon,
utilizando un clasificador basado en redes neuronales. Se centraron en la tarea de
multiplicación e investigaron con que precisión la podı́an discriminar de la actividad base
de estado relajado. Implementando una red neuronal del tipo perceptrón multicapa en un
sistema con procesamiento en paralelo y utilizando coeficientes AR como caracter´ıstica
de entrada, fueron capaces de clasificar los datos con un 91 % de exactitud [Garrett 03]
[Muller 03b].
As´ı mismo, el Dr. McMillan y el Dr. Calhoun, en “Wright-Patterson Air Force Base”
utilizaron Potenciales Evocados Visuales (VEP) para controlar el balanceo en un simulador
de vuelo [Middendorf 00]. Dos electrodos, en la zona del cortex visual, fueron utilizados
para registrar la respuesta de estado continuo frente a luz sinusoidal modulada a una
frecuencia de 13.25 Hz. Un amplificador en lazo cerrado med´ıa de forma continua la
magnitud de la componente electroencefalográfica en 13.25 Hz. Si su magnitud superaba
un determinado umbral, el simulador de vuelo se balanceaba hacia la derecha. Por el
contrario si su magnitud era inferior a otro nivel de umbral, se balanceaba hacia la
izquierda. Los voluntarios que se sometieron a las pruebas en el simulador, al cabo de
12 h de entrenamiento, fueron capaces de responder correctamente el 80 % de las veces, en
una secuencia aleatoria de blancos derecha/izquierda. En otro experimento, independiente
del anterior, utilizaron la misma técnica VEP para controlar la flexión de la rodilla a través
de estimulación eléctrica externa. El estimulador fue conectado en la superficie anterior
del muslo, sobre el músculo femoral. Tres voluntarios sanos se entrenaron durante 5 h en
la utilización del interfaz. Se les propuso flexar la rodilla en uno de tres ángulos diferentes,
para después volverla a dejar en su posición de reposo, perpendicular al suelo. El 96 %
de las propuestas fueron alcanzadas, se empleaban unos 5 seg. de media en la extensión
completa de la pierna, y un promedio de 6 seg. en la vuelta a su posición de reposo.
En el “New York State Department of Health” en 1993 el Dr. McFarland y Dr.
Wolpaw entrenaron voluntarios en el control de la amplitud de sus ritmos μ8 para el
control de la posición de un cursor en la pantalla de un computador, [Wolpaw 00b].
Se utilizaron dos electrodos dispuestos sobre el área senso-motora primaria del cortex
cerebral izquierdo abarcando la cisura central. Con estos dos electrodos se obten´ıa un canal
de señal electroencefalográfica, que convenientemente tratada mediante el algoritmo de
FFT implementado en un DSP, suministraba la componente de 9 Hz en tiempo real, que
era utilizada para controlar proporcionalmente el movimiento vertical del cursor en la
pantalla. Los blancos, de tamaño constante, se desplazaban de izquierda a derecha a
una altura elegida al azar, el tiempo empleado por el blanco en recorrer el ancho de la
pantalla era de 8 seg. Al voluntario se le indicó que moviera el cursor, en el lado derecho
8
El ritmo μ es el ritmo α (9Hz) que se registra sobre la zona motora del cortex.
2.3 Referencias históricas sobre la tecnologı́a ICC. 49

de la pantalla, para interceptar el blanco. Se entrenaron cuatro voluntarios durante un


periodo de algunas semanas. El que mejor lo hizo consiguió interceptar el blanco el 75 %
de las veces, mientras que el que peor resultados obtuvo lo hac´ıa el 39 %. Estos datos
corresponden a un canal de comunicación con una capacidad de 0.125 bit/sec (en el mejor
de los casos). Experimentos posteriores comunicados en 1994, utilizaban dos electrodos
en el lado derecho y otros dos en el lado izquierdo en la zona senso-motora del cortex,
dando lugar a dos canales ERD9, el ritmo μ en cada hemisferio fue capturado utilizando
una banda de frecuencia centrada en 10Hz con una anchura de 5Hz, con una periodicidad
de 200 mseg. Ambos valores fueron convertidos en movimientos horizontales y verticales
del cursor, mediante el empleo de ecuaciones lineales, los coeficientes de dichas ecuaciones
se actualizaban al cabo de cada intento. La tarea propuesta fue la dirección del cursor
desde el centro de la pantalla del computador hacia una de las esquinas del monitor
elegidas al azar. La prueba finalizaba cuando el cursor alcanzaba el blanco de tamaño
fijo. Se entrenaron cinco voluntarios durante un periodo de 6 a 8 semanas. El voluntario
con mejores resultados consiguió el 70 % de los blancos, a una velocidad media de 26 por
minuto, lo cual corresponde a una tasa de transferencia de información de 0.9 bits/seg.
Hiraiwa, Shimohura y Tohunaga en el “NTT Human Interface Laboratories”, en Japón,
utilizaron un sistema electroencefalográfico de 12 electrodos, para estudiar las
caracterı́sticas espacio temporales de los potenciales de generación asociados con la
pronunciación de una entre cinco sı́labas japonesas. Se tomaban dos registros de la
actividad electroencefalográfica previas a la pronunciación de la sı́laba, para ser utilizadas
en la subsiguiente clasificación empleando una red neuronal entrenada mediante la técnica
de “backpropagation”. Dieciséis de treinta nuevas sı́labas eran correctamente clasificadas.
Ası́ mismo también se investigaron potenciales de generación asociados a movimientos de
“joystick”. En este caso, utilizando la misma técnica, 23 de 24 nuevos movimientos del
joystick fueron correctamente reconocidos.
En 1992, el grupo del Dr. Pfurtscheller de la Universidad de Graz en Austria
estudió los ritmos μ asociados con el movimiento de los dedos ı́ndice derecho e
izquierdo [Scherer 04], [Pfurtscheller 03], [Blankertz 04], [Rupp 06]. A los voluntarios se
les instruyó para que presionaran un pulsador con el dedo ı́ndice. Una pista un segundo
antes de producirse el movimiento indicaba que dedo deb´ıa de ser utilizado. Durante este
segundo, 30 electrodos dispuestos en una matriz rectangular sobre la zona seso-motora
del cortex cerebral registraban la actividad electroencefalográfica (ERD) que precedı́a al
movimiento. Posteriores análisis de la información adquirida han demostrado que dos
electrodos en las zonas C3 y C4 son suficientes para obtener buenos resultados. La
transformación de Hilbert, aplicada a las señales electroencefalográficas, ha demostrado
ser el mejor método para la extracción de caracterı́sticas. Dando lugar a una precisión
en la clasificación de aproximadamente el 90 %, comparada con el 70 % u 80 % que se
consigue con el método de potencia espectral. Posteriormente se ha demostrado que redes
neuronales trabajando sobre modelos autorregresivos dan lugar a resultados similares.
9
ERD: Event-Related Synchronizations or Desynchronizations (ERS/ERD)
50 Estado de la técnica.

Este experimento demostró que utilizando únicamente dos electrodos, se podrı́a controlar el
movimiento bidimensional de un cursor.
Al año siguiente, este mismo grupo mostró su sistema ICC en lı́nea, basado en detectar
potenciales de generación en dos electrodos sobre las zonas C3 y C4 de cortex senso-
motor. Un voluntario fue entrenado durante cuatro sesiones de media hora, la actividad de
entrenamiento consistió en el movimiento horizontal de un cursor en pantalla. El
procedimiento de adquisición de la señal fue el siguiente:
1. Un pitido prepara al usuario para el comienzo de la actividad.
2. Un segundo después se indica la dirección objetivo, mostrando un cuadrado en la
zona izquierda o derecha de la pantalla.
3. Al cabo de otro segundo, aparece un cursor en el medio de la pantalla, indicando
que el usuario debe presionar el pulsador adecuado.
Una sesión de grabación queda compuesta por unos ochenta intentos. En cada sesión
la señal del segundo en el que se planifica el movimiento es procesada para obtener
los valores espectrales de potencia. Utilizando estos datos y la dirección de movimiento
actual, se produce el aprendizaje de la asociación de movimientos planificados con
movimientos reales. Tras una sesión de entrenamiento el clasificador predice un 70 % de
movimientos correctamente, al cabo de cuatro esta cifra se incrementa hasta un 85 %. Lo
cual demuestra que el usuario modifica su señal electroencefalográfica mediante el empleo
de biorealimentación.
En 1994 el grupo del Dr. Pfurtscheller mostró como movimientos de los dedos ı́ndice
derecho e izquierdo, movimientos del pı́e y de la lengua podı́an ser identificados mediante
sus ERD’s. Aplicaron el hecho de que movimiento de los dedos o mano son acompañados
por el bloqueo del ritmo μ y por un corto retardo del ritmo γ (30-40Hz ERS). Emplearon
ocho electrodos dispuestos en una matriz rectangular sobre la zona senso-motora y
realizaron la estimación de potencia espectral en las siguientes bandas para cada señal: 10-
12 Hz (dedos y lengua), 30-33 Hz (dedos del pie), 38-40Hz(dedos y lengua). La estimación
se realizaba cada 250 mseg.
Este trabajo llevó al diseño del segundo sistema ICC en Graz, con el cual controlar
tres tipos diferentes de movimientos. La señal ERD asociada con el movimiento de los
dedos ´ındice derecho e izquierdo o del pie derecho fue registrada en tres canales EEG
bipolares (6 electrodos sobre la zona del cortex senso-motora). La estimación de potencia
espectral se calculaba para cada muestra con una duración de 250 mseg. Estas medidas
eran concatenadas cada segundo, para formar un vector que era clasificado por el algoritmo
de aprendizaje. Cuatro voluntarios fueron entrenados en el uso del dispositivo en cuatro
sesiones de 90 min. durante un periodo de dos semanas. Cada sesión consistió en cuatro
bloques de 60 pruebas con un descanso de cinco minutos entre bloques. Cuando la
indicación desaparece, al cabo de 1.25 seg, el voluntario presiona el pulsador con su dedo
ı́ndice derecho, izquierdo, o mueve los dedos del pie derecho hacia arriba. Las señales
electroencefalográficas son clasificadas por el sistema en el siguiente segundo. Los datos
del primer segundo son utilizados para entrenar el clasificador, mientras que en la cuarta
sesión no se muestran los resultados. En las sesiones segunda y tercera, en las que si existe
realimentación de resultados se consigue una exactitud del 81 %, sin embargo en la cuarta
la cifra baja al 77 %.
2.4 Estado actual de la tecnologı́a. 51

2.4. Estado actual de la tecnologı́a.


Las investigaciones anteriores han resuelto una gran cantidad de problemas, como por
ejemplo la discriminación de actividad electromiográfica de la electroencefalográfica, pese
a que a nivel de cuero cabelludo la primera es de mayor amplitud que la segunda en la
misma localización, y la comunicación basada en EMG puede llegara enmascarar la
comunicación basada en EEG. Para realizar una correcta discriminación de ambas fue
preciso realizar análisis espectral y topográfico. Este trabajo inicial también sirvió para
esclarecer la distinción entre sistemas de comunicación basados en EEG que dependı́an del
control muscular (por ejemplo potenciales visuales evocados dependen de la dirección de los
ojos) y aquellos que no dependı́an del control muscular (actividad figurativa, imaginativa
o matemática), estableciéndose una primera discriminación entre sistemas ICC exógenos
y endógenos. Estas distinciones fueron las que dieron lugar a la actual definición del
término Interfaz Cerebro Computador ICC como “aquel sistema de comunicación que
no depende de los canales cerebrales de salida habituales, sistema nervioso periférico y
músculos” [Wolpaw 00a]. Definición que justifica el intereś actual que la tecnologı́a ICC
ha suscitado entre los diversos grupos de investigación en interfaces hombre-máquina a
nivel mundial, y las posibilidades que como nueva tecnolog´ıa de comunicacion aumentada
ofrece su aplicación en campos como la tecnologı́a de la rehabilitación, teleoperación de
dispositivos robotizados, sector militar o industria del ocio expuestos en la sección 1.2 del
cap´ıtulo 1.
La proliferación que en los últimos años se ha producido en los grupos de investigación
en la tecnologı́a ICC y la gran variedad en los tipos de señal de entrada, algoritmos
de traducción, salidas y otras caracterı́sticas de los dispositivos basados en ICC, ha
motivado el aumento de la diversidad de criterios tanto en la consideración de las áreas
prioritarias de desarrollo para la mejora de la tecnologı́a ICC, como en el establecimiento de
procedimientos de medida y comparación de resultados. Mientras que diferentes sistemas
se ajustan mejor para diferentes aplicaciones, medidas de rendimiento estándar son útiles
como bancos de pruebas de propósito general, con el cual seguir el desarrollo de la
tecnologı́a ICC. Una medida estándar en los sistemas de comunicación es la velocidad
de transferencia de información o cantidad de información transmitida por unidad de
tiempo10 . Ésta depende tanto de la velocidad, como de la exactitud, [Shannon 75],
[Pierce 80].
En la figura 2.32 se muestra la relación entre exactitud y transferencia de información
para diferentes valores de posibles elecciones N:2,4,8,16,32. La velocidad de transferencia
de información se muestra en bits/min cuando se realiza un total de doce pruebas, valores
semejantes se observan en diferentes dispositivos ICC [Birbaumer 00], [Pfurtscheller 00],
[Wolpaw 00b].

10
En terminologı́a inglesa se denomina “Bit Rate”
52 Estado de la técnica.

Se observa por ejemplo, que la


velocidad de transferencia de un
dispositivo ICC que seleccione entre
dos valores con un 90 % de exactitud
es el doble que la obtenida con un
80 %, e igual a la que se consigue con
cuatro posibles candidaturas con un
65 %.
La enorme importancia de la exac-
titud en la velocidad de comunicación
no ha sido valorada convenientemente
en las publicaciones relacionadas con
ICC. Mientras que la efectividad de
cada dispositivo ICC depende consi-
derablemente de la aplicación a la que
se destina, la utilización de la veloci-
dad de comunicación ofrece una medi- Figura 2.32: Velocidad de transferencia de información
da objetiva para comparar diferentes en bits/min, variando el número de posibles elecciones
dispositivos y medir mejoras. N={2, 4, 8, 16 ó 32}.
Por otro lado ya que dependiendo del tipo de técnica de análisis empleada existen
áreas del cortex cerebral en las que se refleja una gran cantidad de información, mientras
que en otras, la información buscada esta oculta entre el ruido captado11 , son necesarios
ensayos cl´ınicos controlados en varios grupos de usuarios con la finalidad de determinar
que métodos de adquisición ICC son los que mejor se ajustan a cada grupo de usuarios. En
la actualidad sólo se disponen de datos ICC de personas con incapacidades neuromotoras
severas. Con el Dispositivo de Traducción de Pensamiento (TTD) [Birbaumer 00], que
utiliza potenciales corticales lentos (SCP’s), y con el sistema Wadsworth ICC, que utiliza
ritmos μ y β [Wolpaw 00b], han sido evaluados en un número pequeño de usuarios con
esclerosis lateral amiotrófica, daño traumático, daño de la médula espinal, parálisis cerebral
o amputación. El objetivo de estos estudios es la comparación del rendimiento de los
diferentes sistemas ICC y sus diferentes entradas electrofisiológicas, ası́ como evaluar
diferentes procedimientos de entrenamiento, controlando el efecto placebo [Harrington 97].
Ası́ pues con el objeto de unificar criterios y procedimientos de comparación, en los
últimos años se han realizado diferentes concursos sobre ICC, focalizadas en la resolución
incremental de los problemas que aparecen en la aplicación de esta tecnologı́a, ası́ en el año
2001 se celebró el primer concurso centrado en la estandarización de diferentes técnicas de
clasificación; viéndose la gran disparidad tanto en los registros de señal considerados, como
en las técnicas y criterios de clasificación empleados, se realizó en 2003 un segundo concurso
centrado en el empleo de los ritmos μ y β, as´ı como potenciales evocados tempranos y
de tipo P300, analizándose la señal electroencefalográfica previa a la materialización de
11
Por ejemplo el control con potenciales lentos es pobre en las zonas parietales [Rockstroh 89] y los
ritmos μ quedan estrechamente limitados a la zona senso-motora del cortex cerebral.
2.4 Estado actual de la tecnologı́a. 53

movimiento de los dedos de ambas manos, y considerándose como caracterı́sticas de la señal


a sus componentes espectrales. El tercer concurso se realizó al año siguiente, centrando sus
esfuerzos en la discriminación de imaginación de movimiento de diferentes partes del cuerpo
como dedos de las manos, pies, o de la lengua, frente a otro tipo de tareas cognitivas como
la composición mental de un escrito, rotación de figuras, o la imaginación de navegación
entre dos puntos en un entorno conocido; se analizó la influencia que sobre la extracción de
caracter´ısticas y los diferentes clasificadores, presentaba la estabilidad en el tiempo de los
registros de señal EEG empleados en el aprendizaje. El cuarto concurso se celebró en el año
2008 centrando sus esfuerzos en la realización práctica de dispositivos ICC, analizando los
problemas de clasificación continua de señal EEG sin disponer de una estructura de prueba,
considerando los artefactos debidos a movimiento ocular, clasificación de los movimientos
de la muñeca considerando señal magnetoencefalográfica e incremento de la granuralidad
de resolución espacial en ECoG.
La mayor´ıa de los conjuntos de datos para entrenamiento y test fueron adquiridos en
sesiones con escasa separación temporal entre las mismas, lo que unido a la libre
elección de los electrodos y caracterı́sticas considerados en la clasificación, dé lugar a
tasas de clasificación optimistas, superiores a las obtenidas en aplicaciones en escenarios
reales. Sin embargo, a pesar de este inconveniente, los concursos realizados sobre ICC
aportan el principal marco de comparación para la evaluación de las diferentes técnicas de
clasificación.
Debido a que el funcionamiento de ICC depende de que el usuario codifique su
voluntad en las caracterı́sticas de la señal, que el sistema mide y traduce a sus salidas
de control, el progreso del mismo también depende de la mejora de los métodos de
entrenamiento. Trabajos en desarrollo evalúan el efecto del entrenamiento y analizan
diferentes estrategias utilizadas por los usuarios. Por ejemplo algunos protocolos piden
que el usuario emplee imaginación de movimientos muy especı́ficos u otra tarea mental
para producir las caracterı́sticas que el sistema EEG utilizará como señales de control
[Pfurtscheller 00] [Penny 00]. Sin embargo otros sistemas permiten más libertad al usuario
en la decisión de que movimientos imaginar [Wolpaw 00b]. El análisis de similitudes y
diferencias, entre la adquisición de control ICC y la adquisición de destreza motora o
no-motora convencional, podrı́a conducir a la mejora de los métodos de entrenamiento.
Ası́ mismo también deben ser considerados aspectos mentales del individuo como por
ejemplo: motivación, fatiga, frustración. El análisis de los informes de usuario deben ser
cuidadosamente analizados para extraer las conclusiones correctas [Roberts 89].
Por otro lado, teniendo en cuenta el procedimiento de adquisición de la señal cerebral,
el interés actual se centra principalmente en la aplicación a sistemas de registro a nivel de
cuero cabelludo, ya que es la opción con mayor disponibilidad de uso. En tecnologı́as
invasivas, como puede ser el caso de electrodos cónicos [Kennedy 00], o cadenas de
microelectrodos intracorticales [Levine 00], [Chapin 99], los algoritmos existentes requieren
de evaluación adicional, siendo probable que se desarrollen otros nuevos. La actividad
recogida en el EEG refleja la actividad de grandes poblaciones de neuronas corticales.
54 Estado de la técnica.

Si las caracterı́sticas extraı́das de esta actividad suministrarán medios de comunicación


eficaces, deben existir dos o más estados discernibles que reflejen las intenciones del usuario,
y que se acomoden al dominio y limitaciones de la aplicación. La tecnologı́a ICC puede
emplear una caracterı́stica individual: amplitud de una banda de frecuencia especı́fica en
determinada zona del cerebro, o bien una combinación de múltiples caracterı́sticas, bien
en el dominio temporal o frecuencial, por ejemplo potenciales corticales lentos, ritmos μ,
etc.; producidos por múltiples procesos fisiológicos. Las necesidades de la aplicación elegida
son determinantes en la selección de los algoritmos de traducción, que proporcionen una
adecuada combinación de velocidad y precisión. Debido a que el cerebro humano es un
controlador altamente adaptativo que se basa en métodos predictivos y realimentación de
la información, es aconsejable y tal vez esencial, que los algoritmos de traducción también
dispongan de esta capacidad de adaptación, ej. [McFarland 97] permite la adaptación
continua del valor de la amplitud media y/o varianza de las caracter´ısticas de EEG.
El desarrollo actual de las técnicas ICC requiere que se reconozca que el objetivo no es
únicamente la observación de la actividad cerebral, mediante diferentes técnicas como EEG
o registros intracorticales, y mediante ellos determinar la intención del usuario, sino que
el interfaz de control cerebral debe ser entendido como un nuevo canal de salida cerebral,
y al igual que los canales normales: nervios y músculos, es preciso enlazar las capacidades
adaptativas del cerebro que ajustan dicha salida y ası́ obtener el máximo rendimiento.
Por lo que actualmente se está investigando sobre el desarrollo de dispositivos ICC lo
suficientemente flexibles como para usar diferentes caracterı́sticas de señal EEG como
mecanismo de control. Un dispositivo basado en ICC podrı́a utilizar potenciales corticales
lentos, ritmos μ o β , potenciales P300, o actividad de unidades neuronales independientes,
bien individualmente o bien de forma conjunta [Schalk 04], siendo esta flexibilidad la que
suministrará un considerable avance práctico. La consecución de éxito en la utilización de
estos dispositivos es en esencia una nueva destreza, que consiste más que en un apropiado
control muscular en el apropiado control de la actividad electroencefalográfica.
A parte de lo anterior, es preciso tener en cuenta que a excepción de los sistemas que
dependen del control muscular [Vidal 73], [Vidal 77], [Middendorf 00], [Sutter 92], y la
posible excepción de sistemas basados en potenciales evocados P300 [Donchin 00], la gran
mayorı́a de los dispositivos basados en ICC dependen de la actividad electroencefalográfica,
y por tanto de su modo de aprendizaje llevado a cabo mediante procedimientos de condi-
cionamiento operativo. Por lo que el análisis comportamental del fenómeno de aprendizaje
y del ambiente es importante. Dicho análisis requiere un extenso conocimiento de la teorı́a
de aprendizaje, experiencia en su aplicación clı́nica y entender como una determinada
discapacidad neurológica puede influir en el aprendizaje. Sin embargo, la mayorı́a de los
dispositivos actuales han sido desarrollados por ingenieros u otros grupos con orientación
técnica semejante, con experiencia limitada en principios y métodos comportamentales.
Aunque capacidades intelectuales y cognitivas de alto nivel no sean probablemente esen-
ciales para el uso con éxito de ICC [Holzapfel 98], si es preciso un mayor grado de atención
a cuestiones como: selección de respuesta óptima, tipos y cronogramas de reforzamiento,
condiciones de respuesta est´ımulo; que son esenciales a la hora de perfilar cualquier com-
portamiento.
2.4 Estado actual de la tecnologı́a. 55

Los usuarios, controlando y eligiendo las caracterı́sticas electrofisiológicas, pueden


seleccionar el mensaje a comunicar y observar la salida del sistema, de forma simultánea.
Lo cual requiere la división de la atención, pudiendo comprometer el control de la
señal de entrada. Varios estudios indican que dicha división es posible [Birbaumer 00],
[Kumlbler 01], [Perelmouter 99], [Miner 98], mas presenta el inconveniente de eliminar la
capacidad de automatización de la respuesta cerebral, como potenciales corticales lentos o
ritmos μ. El problema se podrı́a solucionar utilizando conmutación de respuesta subcortical
o bien reduciendo el tamaño de las regiones corticales que producen la entrada utilizada
por el sistema ICC.
Al igual que en todo dispositivo de comunicación, las entradas al dispositivo ICC son
conjuntos de señales, que reflejan la actividad cerebral, las cuales deben ser transformadas
por el algoritmo de traducción en órdenes.
Previamente se ha de tener en cuenta la metodologı́a utilizada para medir dichas
señales. Las caracterı́sticas de las señales pueden venir dadas en el dominio frecuencial
[como por ejemplo ritmos μ o β que se suceden en zonas especı́ficas del cortex], o bien por
caracter´ısticas en el dominio temporal [como potenciales corticales lentos, potenciales P300
o el potencial de acción de neuronas corticales individuales [Birbaumer 00], [Kennedy 00]].
Esta metodologı́a incluye el tipo de electrodos a nivel de cuero cabelludo, su colocación, el
filtrado espacial y temporal, ası́ como otros métodos de procesamiento de señal empleados
en la extracción y medición de sus caracterı́sticas. La sencillez en la distinción entre señales
y como éstas reflejan aspectos especı́ficos de la fisiologı́a y anatomı́a del sistema nervioso
depende de las caracterı́sticas de señal que se consideren. Esta distinción es importante
debido a que dichas caracter´ısticas son el reflejo de la fisiolog´ıa y la anatom´ıa del sistema
nervioso, y no sólo el resultado de unos métodos de análisis, y de ahı́ el continuo empeño
en la consideración del problema de espurios o artefactos, como la actividad EMG, que
afecta a las caracterı́sticas que definen a la señal.
56 Estado de la técnica.

Figura 2.33: Evolucion temporal del desarrollo de la tecnologı́a ICC.


Capı́tulo 3

Adquisición y procesamiento de
señal EEG.
En este capı́tulo se presentan las técnicas de adquisición y procesamiento de señal
electroencefalográfica, previas al empleo de las diferentes técnicas de clasificación descritas
en el capı́tulo 4. Las técnicas de adaptación y procesamiento de señal utilizadas incluyen:
1. Acondicionamiento de la señal electroencefalográfica.
2. Muestreo y cuantificación.
3. Normalización y enventanado.
4. Transformación de la señal del espacio temporal al espacio frecuencial.
5. Obtención del vector de caracterı́sticas.
6. Detección de artefactos.

La señal electroencefalográfica considerada proviene de dos canales; el canal 1 registra


la señal en las proximidades de C31 , mientras que el canal 2 registra la señal en las
proximidades de C4; ambos canales son de tipo diferencial, empleando dos electrodos
equidistantes a los puntos de referencia mencionados, separados una distancia de 3 cm, tal
y como se muestra en la figura 3.1. Con objeto de poder detectar los artefactos causados
por el parpadeo, un tercer canal se encarga de registrar la actividad mioeléctrica en las
proximidades de la comisura del ojo izquierdo; un cuarto canal, al que no se han conectado
electrodos, se emplea para la estimación del nivel de ruido presente durante la adquisición
de la señal; el electrodo de referencia de masa del bio-amplificador queda dispuesto sobre
el mastoide derecho [Bronzino 95b], la figura 3.2 muestra el conexionado eléctrico entre el
usuario y el bio-amplificador. El procedimiento experimental seguido para la preparación
del usuario y equipamiento se presenta en el cap´ıtulo 5.

1
La denominación proviene del sistema internacional de referencia electroencefalográfico 10-20.
58 Adquisición y procesamiento de señal EEG.

Figura 3.1: Colocación de los electrodos.

Canal 1

+
Canal 2 − Vcc

Canal 3

Figura 3.2: Esquema de conexionado eléctrico.


3.1 Acondicionamiento de la señal electroencefalográftca. 59

3.1. Acondicionamiento de la señal electroencefalográfica.


El acondicionamiento de la señal considera tanto las medidas de aislamiento eléctrico
del usuario respecto a la red eléctrica, como la amplificación y filtrado de la señal adquirida
[Bronzino 95b], [Rubio 00], [Webster 04].
Como se ha indicado en la sección 2.2.1 y 2.2.1.3, la señal electroencefalográfica
se caracteriza por tener un rango de amplitud del orden del centenar de microvoltios
y un rango en frecuencia comprendida entre los 0,4Hz y los 60Hz, sin embargo el rango
de frecuencia más común detectado en condiciones de consciencia se presenta entre
los 4Hz a 25Hz [Webster 04],[Webster 98],[Rubio 00]. Por este motivo, con objeto de
poder detectar y clasificar actividades cognitivas es necesario amplificar y filtrar la señal
electroencefalográfica [Baker 89], para lo que se utiliza un bio-amplificador con una
ganancia de tt = 10000 y ancho de banda de 0 − 60Hz. La figura 3.3 muestra la señal
tı́pica registrada durante una sesión experimental, en donde por claridad, para diferenciar
la evolución temporal de cada canal, a cada uno de ellos le ha sido añadida una componente
continua de valor igual al de su cardinal.

Figura 3.3: Registro de señal tı́pico.


Tras la amplificación de la señal electroencefalográfica, se procede a su filtrado
analógico [Proakis 97], aplicando tanto un filtro de rechazo de banda tipo Notch
sintonizado a 50Hz, como un filtro paso alto que elimina todas aquellas componentes
frecuenciales inferiores a 0,4Hz. El filtro de rechazo de banda minimiza el ruido y artefactos
electromagnéticos causados por la red de suministro eléctrico; mientras que el filtro paso
alto minimiza artefactos de acoplamiento superficial entre el electrodo y la epidermis del
cuero cabelludo en la zona de disposición de los electrodos.
60 Adquisición y procesamiento de señal EEG.

3.2. Muestreo, cuantificación y codificación de la señal


EEG.
Para poder identificar los patrones de señal electroencefalográfica, asociados las a
actividades cognitivas, es necesario proceder a la digitalización y caracterización de la
señal analógica previamente capturada, amplificada y filtrada.
El proceso de digitalización comprende tanto el muestreo, como la cuantificación y la
codificación de la señal, para lo que se emplea una tarjeta de adquisición de datos.
El teorema de Nyquist relativo a muestreo de señal indica que, para evitar el efecto
de ’aliasing’ y poder recuperar la forma de la señal original a partir de las muestras
tomadas, el muestreo debe realizarse a una frecuencia superior al doble de la componente
frecuencial de la señal más alta [Proakis 97], [Areny 93], [Oppenheim 96], teniendo en
cuenta que la señal electroencefalográfica tras el filtrado analógico se convierte en señal
de banda limitada, con componentes frecuenciales comprendidas entre 0,4Hz y 60Hz, el
l´ımite de frecuencia inferior para el muestreo es de 120Hz, en los experimentos descritos en
el cap´ıtulo 5 se emplea una frecuencia de muestreo Fs = 384Hz con la finalidad operativa
de proporcionar tres bloques independientes de 128 muestras cada uno, por cada segundo.
Cada uno de estos bloques constituye una ventana de análisis que, tras su caracterización,
procederá a ser clasificada.
Mediante el proceso de cuantificación se determina el valor de la amplitud de la señal
en cada instante de muestreo. Un convertidor analógico / digital de 12 bits de resolución,
embebido en la tarjeta de adquisición, se encarga de realizar dicha cuantificación, siendo
el rango del margen máximo de excursión de señal considerado de 10V pp, por lo que el
error de cuantificacion obtenido es igual o inferior a: s = 10V pp = 2, 44mV
212
Por último mediante la codificación, se representa en formato binario con complemento a
dos el valor de salida del cuantificador.

3.3. Normalización y ventaneado.


Con la finalidad de poder analizar y comparar registros de señales de sesiones diferentes
es necesario proceder a la normalización de las muestras, evitando de este modo que
la variación de la impedancia de los electrodos diera lugar a resultados de clasificación
erróneos.
El proceso de normalización de las muestras que componen cada ventana de análisis
consiste en la substracción del valor medio y la división entre el valor de desviación tı́pica,
obteniéndose de este modo por el teorema central del lı́mite [Peña Sánchez 86], un conjunto
de muestras que se aproximan a una distribución normal de valor medio nulo y desviación
t´ıpica la unidad.
ΣN
x
μ = i=1 i ; σ2 = (x − μ) ; xJ = x − μ
2
(3.1)
N N σ
3.3 Normalización y ventaneado. 61

Por otro lado, la consideración de un bloque de 128 muestras consecutivas de señal es


equivalente a contemplar la señal original, de duración ilimitada, a través de una ventana
de extensión semejante a la de la ventana de análisis, véase la figura 3.4

y(t) Señal original.

t
Ventana.

Señal ventaneada.

Figura 3.4: Procedimiento de ventaneado de la señal.


Esta operación es equivalente a la convolución en el espacio frecuencial de la
transformadas de la señal electroencefalográfica original y la ventana de preprocesamiento
empleada [Oppenheim 96], [Proakis 97].
Como la caracterización de la señal electroencefalográfica se realiza en el domino
frecuencial, es preciso analizar la influencia que dicha convolución tiene sobre la
transformada en frecuencia de la señal, ya que como caracteriza el efecto de derrame en
frecuencia [Oppenheim 96], [Proakis 97], cuando una señal formada por componentes de
baja frecuencia se convoluciona con una ventana temporal de bordes afilados, se da lugar a
que en la transformada en frecuencia de la señal resultante aparezcan componentes
frecuenciales mayores a las existentes en la señal original, causadas por los lóbulos
secundarios de la transformada de la señal de la ventana de preprocesamiento empleada,
véase figura 3.8.
Por tal motivo en la bater´ıa de experimentos realizados en el desarrollo de esta tesis
se consideran los tipos de ventanas descritos en la tabla 3.1, cuyas representaciones
temporales y frecuenciales se muestran en las figuras 3.5 a 3.7 2.
2
M : longitud en número de muestras de la ventana de procesamiento.
Io : función de Bessel modificada de primera clase de orden cero.
α : número real arbitrario que determina la forma de la ventana. Por defecto α = 0,5.
62 Adquisición y procesamiento de señal EEG.

Secuencia temporal: h(n), 0 ≤ n ≤ M − 1.

Ventana rectangular. h(n) = 1.

2|n− M−1
2 |
Ventana triangular o de Bartlett. h(n) = 1 − .
M −1

Ventana de Hanning. h(n) = 12(1 − cos( M2πn


−1 ))
.

Ventana de Hamming. h(n) = 0,54 − 0,46cos(M2πn


−1
).

Ventana de Blackman. h(n) = 0 ,42 − 0,5cos( M2πn 4πn


−1 )+ 0,08cos( M −1 ).

» q –
I oα ( 2 ) −(n− 2 )
M−1 2 M−1 2

Ventana de Kaiser. h(n) = Io[α( M−1


)]
.
2

Σ Σ
Ventana de Tukey. h(n) = 1
1 + cos( n−(1+α)(M −1)/2 π)
2 (1−α)(M −1)/2

α(M −1)
2 ≤ |n − M2−1 | ≤ M −1
2 .

Tabla 3.1: Tipos de ventanas de preprocesamiento considerados.

Figura 3.5: Ventanas de preprocesamiento Rectangular y Triangular.


3.3 Normalización y ventaneado. 63

Figura 3.6: Ventanas de preprocesamiento: Blackman, Hamming y Hanning.

Figura 3.7: Ventanas de preprocesamiento: Kaiser y Tukey.

Figura 3.8: Efecto de derrame frecuencial.


64 Adquisición y procesamiento de señal EEG.

3.4. Transformación de la señal del espacio temporal al


espacio frecuencial.
Tal y como se ha indicado en la sección 2.2.1.3 las caracterı́sticas intrı́nsecas de la
señal electroencefalográfica como son su baja amplitud, escasa discriminación espacial,
alta sensibilidad frente a ruidos tanto de carácter externo como interno, no permiten que
mediante la caracterización temporal de la misma se pueda discriminar más allá del estado
general en el que se encuentra el cerebro, y aun en estos estados se han terminado por
identificar a través de componentes frecuenciales de la señal [Jessell 91].
As´ı pues, para poder distinguir entre los diferentes tipos de actividades mentales que
se proponen como medio de interfaz cognitivo de un dispositivo ICC es necesario realizar
una caracterización frecuencial de las mismas [Rubio 00], [Bronzino 95b], [Barreno 97],
[Baker 89]. Por esta razón, cada ventana de análisis de 27 muestras de señal adquiridas
en el tiempo temporal se transforma al dominio frecuencial, para lo que se aplica la
Transformada de Fourier, ec.3.2, implementada por medio del algoritmo de transformada
rápida de Fourier (FFT), ec.3.3.
∫ +inf
( ) −j2πkF to (3.2)
X (F) = xte dt
−inf

Considerando que el muestreo se realiza a una frecuencia de 384 Hz y haciendo la


suposición de señal periódica, la ecuacion anterior se puede expresar como:
N −1
1 Σ
c =
k x(n)e−j2πkn/N (3.3)
N n=0

Los coeficientes de Fourier, ck , proporcionan la descripción de x(n) en el dominio de la


frecuencia, representando la amplitud y la fase asociada a cada componente frecuencial.
Considerando que cada bloque dispone de 128 muestras, y que la frecuencia de muestreo
es de Fs = 384Hz, la resolución frecuencial obtenida será de: Δf = 384Hz128 = 3Hz.
Debido a que la información más relevante se encuentra en la amplitud de las
componentes frecuenciales, en los experimentos descritos en el cap´ıtulo 5 no se considera
la información relativa al ángulo de fase de dichas componentes frecuenciales, por lo
que la atención se centra en la estimación espectral de potencia de cada una de las
ventanas de análisis consideradas. Procedimiento semejante se realiza en los trabajos de
S.J. Roberts y W.D. Penny [Penny 00], o C. Neuper [Pfurtscheller 00]. Estudios realizados
por el equipo de Dr. G. Pfurtscheller de la Universidad de Graz (Austria) han demostrado
que en sistemas con un mayor número de electrodos el análisis de la diferencia de fase
entre los mismos permite una mejor identificación de los patrones cognitivos empleados
[Blankertz 04], [Scherer 04].
Por otro lado, teniendo en cuenta las propiedades de la Transformada de Fourier y que
la señal electroencefalográfica en el dominio temporal sólo tiene componentes reales, en el
espectrograma se produce el efecto de reflexión en el valor de la frecuencia de Nyquist, por
lo que la información relevante de la señal se puede encontrar analizando sólo la primera
mitad de las componentes frecuenciales.
3.5 Obtención del vector de caracterı́sticas. 65

3.5. Obtención del vector de caracterı́sticas.


Como se ha indicado con anterioridad, cada ventana de análisis, N = 128 muestras,
queda descrita por su vector de caracter´ısticas. En todos los experimentos descritos en
el cap´ıtulo 5, este vector se genera a partir del valor medio de potencia de las bandas
frecuenciales consideradas según la tabla 3.2.3
Este método de obtención de caracterı́sticas tiene presente que el rango de frecuencias
más común en cerebros humanos sanos se da de los 6 a los 40 Hz, por lo que se consideran
todas aquellas componentes frecuenciales entre 6 y 38 Hz.

Índice FFT. Frecuencia. Denominación. Por otro lado, el número de


1 0-2 No considerada. caracter´ısticas se establece en seis,
2 3-5 No considerada. con la finalidad de poder comparar
3 6-8 θ. los resultados obtenidos con los
presentados en estudios semejantes
4 9 - 11 α1.
por otros grupos de investigación
5 12 - 14 α2.
[Penny 00], [Pfurtscheller 00].
6-7 15 - 20 β1.
8 - 10 21 - 29 β2.
11 - 13 30 - 38 β3.
14 - 64 39 - 192 No considerada.

Tabla 3.2: Determinación del vector de caracterı́sticas.

3.6. Detección de artefactos.


En análisis y procesamiento de señal se entiende por artefacto a todo aquel efecto que,
siendo externo a la fuente originaria de la señal, causa variaciones indeseadas en la misma,
pudiendo llegar a corromperla [Proakis 97].
Las fuentes de artefactos en procesamiento de señal electroencefalográfica pueden ser
tanto externas como internas al sistema de adquisición. Fuentes externas son por ejemplo,
el caso de ruido eléctrico inducido por perturbaciones electromagnéticas provocadas por
equipos electrónicos externos, o perturbaciones en la tension de alimentación del conversor
analógico / digital causada por fluctuaciones en la red de suministro eléctrico. Fuentes
internas de artefactos son variaciones de la señal provocadas por actividad mioeléctrica
en la zona de colocación de los electrodos, o variaciones provocadas por la variación de la
impedancia en la interfase del electrodo con la piel por leve desplazamiento relativo entre
los mismos [Areny 93].
Tal y como se indica en al comienzo de este cap´ıtulo, en los experimentos descritos en el
capı́tulo 5, uno de los canales de señal se emplea para adquirir la señal en la comisura del
ojo izquierdo, con la finalidad de detectar si la señal electroencefalográfica registrada en
3
La denominación de las bandas frecuenciales se basa en el sistema estándar neurológico.
66 Adquisición y procesamiento de señal EEG.

los otros dos canales ha podido ser modificada por la actividad electromiográfica debida a
movimientos de los ojos. Ası́ mismo con independencia del análisis de la actividad ocular,
la propia señal electroencefalográfica es sometida a un proceso de detección de artefactos,
en donde se considera que la ventana de análisis en consideración tiene artefactos si
la diferencia en el valor de amplitud entre una muestra y su inmediata anterior es nula o
excede en dos veces el valor de desviación tı́pica de dicha ventana de análisis. Este
procedimiento es similar a la técnica estadı́stica de ’Bootstraping’ empleada en la
identificación y extracción de muestras anómalas del conjunto de muestras bajo estudio
[McLachlan 04], [Peña Sánchez 86].
Si el número de veces que se detectan artefactos en una ventana de análisis es superior a
tres, dicha ventana no se considera como válida para la posterior fase de clasificación. Para
evitar que dicha ventana pueda modificar los resultados obtenidos del resto de ventanas de
análisis de la sesión experimental considerada, su vector de caracterı́sticas es sustituido
por el valor medio del resto de vectores de caracterı́sticas obtenidos de ventanas de análisis
válidas de dicha sesión experimental. Una posible alternativa que causarı́a un menor
impacto podrı́a ser la sustitución del vector de caracterı́sticas de la ventana de análisis
con artefactos por la media de los vectores de caracter´ısticas asociados a las ventanas de
análisis inmediatamente anterior y posterior.
Actualmente en el estudio de la detección y clasificacion de patrones cerebrales
asociados a enfermedades nerviosas (como por ejemplo la epilepsia), basado en el empleo
de EEG, se han propuesto algoritmos que permiten la detección, identificación y
supresión de artefactos, sin embargo estos algoritmos requieren disponer de la señal
electroencefalográfica completa, lo que les hace inviables para su uso en aplicaciones On-
Line con un número reducido de muestras [Tomé 07].
Capı́tulo 4

Tipologı́a de clasificadores.

En este capı́tulo se describen las diferentes técnicas de clasificación empleadas para


distinguir los registros de señal EEG, los cuales han sido adquiridos cuando el sujeto realiza
las actividades cognitivas propuestas en los experimentos del cap´ıtulo 5, los resultados y
conclusiones obtenidas de su aplicación se presentan en el capı́tulo 6.
Las técnicas utilizadas se enumeran a continuación, presentándose según su orden de
aparición cronológica y por complejidad creciente, llegándose ası́ para este capı́tulo al
siguiente listado de contenidos:
1. Técnicas estadı́sticas.
Comparación de poblaciones.
Análisis de Discriminantes Lineales.
2. Redes neuronales.
Perceptron multicapa: MLP.
Funciones de base radial: RBF.
Red neuronal probabil´ıstica: PNN.
3. Modelos ocultos de Markov: HMM.
4. Máquina de soporte de vectores: SVM.

Las técnicas estadı́sticas permiten fijar el marco con el que realizar el análisis de
la capacidad de discriminación entre las poblaciones de muestras electroencefalográficas
de actividad cerebral mediante las pruebas bilaterales de comparación de poblaciones;
mientras que por su parte mediante la técnica de Análisis de Discriminantes Lineales
se define la metodologı́a a emplear para la reducción de la dimensión del espacio de
caracterı́sticas original a través de la combinación lineal de las mismas.
Tras presentar las técnicas empleadas para el análisis de la capacidad de discriminación
se procede a describir los clasificadores empleados basados en diferentes tipos de tecnolog´ıas
como son: redes neuronales de aprendizaje supervisado (MLP, RBF y PNN), modelos
ocultos de Markov (HMM), y máquinas de soporte de vectores (SVM).
68 Tipologı́a de clasiftcadores.

4.1. Métodos estadı́sticos : Comparación de dos poblacio-


nes.
4.1.1. Introducción.
La Estadı́stica es la rama de las Matemáticas que utiliza grandes conjuntos de datos
numéricos para obtener inferencias basadas en el cálculo de probabilidades. En Estadı́stica
a la teorı́a encargada de contrastar hipótesis, dentro de un marco en el que existe
incertidumbre o variabilidad en el valor númerico de magnitud, se la denomina contraste
de hipótesis; a través de ésta se comparan las predicciones generadas por las hipótesis
con los datos observados en la realidad, si la comparación queda dentro de un margen
de error admisible la hipótesis propuesta, H0 , se mantiene como método explicativo del
proceso real que genera las observaciones, si por el contrario, la discrepancia entre los
datos observados y los predichos por H0 excede el margen de error admisible, la hipótesis
propuesta debe ser rechazada en favor de una hipótesis alternativa, H1 , por lo general más
compleja, que explique mejor las observaciones. Ası́ pues, el contraste de hipótesis es un
proceso iterativo, en el que la hipótesis propuesta, H0 , nunca se considera completamente
probada, sino que es aceptada o rechazada como válida en función de los datos observados.
Si junto con el contraste hipótesis se considera la cuantificación del efecto del mismo, y en
especial de sus errores, se llega a la teorı́a de la decisión.

Proceso real Observaciones


Ho explica el proceso
Aceptar Si
Comparacion. real dentro del margen
Ho?
de error aceptable.
No
Hipotesis inicial Ho Predicciones
Calcular nivel
Funcion de discrepancia :
critico p del
^
d(  o ;  ) contraste
Nivel de significacion : 

Buscar hipotesis
alternativa H1

Figura 4.1: Proceso contraste de hipótesis.

La hipótesis H0 se elige deacuerdo a un principio de simplicidad cientı́fica, sólo se debe


rechazar un modelo simple en favor de otro de mayor complejidad cuando la evidencia a
favor del segundo sea más fuerte que la del primero1 , ya que la hipótesis más simple es
más fácil de contrastar empı́ricamente y encontrar sus deficiencias, a la vez que permite
aprender de las observaciones con mayor seguridad y rapidez.
Los tipos de hipótesis estadı́sticas o suposiciones que determinan, parcial o totalmente,
la distribución de probabilidad de una o varias variables aleatorias se pueden clasificar
según que:
1
También conocido como principio de la Navaja de Ockham: “en igualdad de condiciones la solución
más sencilla es probablemente la correcta”.
4.1 Métodos estadı́sticos : Comparación de dos poblaciones. 69

Especifiquen un valor concreto o un intervalo para los parámetros de una


variable. Para lo que se construirán intervalos de confianza, teniendo una respuesta
satisfactoria en términos de estimación.
Establezcan la igualdad de las distribuciones de dos o más variables2 . Por lo
general se requiere de un diseño experimental que asegure la homogeneidad de las
comparaciones.
Determinen la forma de la distribución de una variable. A través de un contraste no
paramétrico que debe realizarse dentro de la fase de validacion del modelo.

La metodologı́a del contraste de hipótesis fue desarrollada por R.A.Fisher, J.Neyman


y E.S.Pearson entre 1920 y 1933, [Peña Sánchez 86]. Las etapas de dicha metodologı́a se
sintetizan en:
1. Definición de la hipótesis a contrastar H0 , y la hipótesis alternativa H1 . Los casos
más importantes de contrastes paramétricos son:
H0 simple (θ = θ0) y H1 bilateral (θ ƒ= θ0).
H0 compuesta (θ ≤ θ 0 ) y H1 unilateral (θ > θ0).
2. Definición de la medida de discrepancia entre los datos observados de la realidad,
X, y la hipótesis H0 . Para contrastes paramétricos la discrepancia puede expresarse
como una función del valor del parámetro especificado por H0 y el valor estimado
de los datos observados: { θ̂, d(θ0 ; θ̂)} . Cuando H0 es aceptada, la discrepancia ha de
tener una distribución conocida, de modo que sea posible asociar una discrepancia
grande a una probabilidad de ocurrencia pequeña.
3. Definir la región de discrepancia entre θ̂ y θ0 bajo la que se considera aceptable H0
o atribuible al azar, y aquella bajo la que se considera inadmisible.
4. Proceder a la adquisición de muestras del proceso real, calcular el estimador θ̂ y la
discrepancia d(θ0 ; θ̂). Si ésta es pequeña, aceptar H0 ; en caso contrario rechazar H0
y aceptar H1.
La hipótesis alternativa H1 influye en la forma en la que se mide la discrepancia, en
contrastes bilaterales el signo de la desviación entre θ̂ y θ0 es irrelavante, por lo que se
suelen considerar medidas de la forma:
θ − θ̂M V
d = 0 (4.1)
1 | |
σ̂M V

En donde θ̂M V es el estimador de máxima verosimilitud de θ y σ̂M V su desviación tı́pica,


obteniéndose ası́ para muestras grandes una distribución conocida:

P (d1 ≤ a|H0) = P (|z|≤ a) = P (−a ≤ z ≤ a) (4.2)

en donde z se distribuye según una normal N (0, 1).


2
Cada variable queda representada estadı́sticamente por una población de muestras.
70 Tipologı́a de clasiftcadores.

Si por el contrario el contraste es unilateral el signo de la desviación si que es


importante, lo que conduce a medidas del tipo:
.
0 si θ̂M V ≤ θ0

d2 =
θ̂M V θ0 si θ̂M V ≥ θ0 (4.3)
σ̂M V
en donde para d2 positiva las probabilidades se calculan de nuevo con la distribución
normal estándar.
La realización de un contraste implica dividir el rango de discrepancias que pueden
observarse cuando H0 es acaptada en dos regiones, región de aceptación de H0 y región
de rechazo, de modo tal que, siempre y cuando H0 sea cierta, discrepancias grandes tienen
asociado niveles de probabilidad de ocurrir pequeños, α = {0,05; 0,01; 0,001}; esta
cantidad a su vez puede interpretarse como la probabilidad asumible de rechazar H0
cuando ésta es cierta, a la cual también se la denomina nivel de significación α, o Error
Tipo I.

Nivel de significación (α) = P (rechazar H0 |H0 es cierta)

Con la determinación del nivel de significación y conocida la distribución de la función


de medida de discrepancia d(θ0 ; θ̂) cuando H0 es aceptada, las regiones de rechazo y
aceptación quedan fijadas.
.
d > dc Región de rechazo.
P (d > dc|H0 es cierta) = α ⇒
d ≤ dc Región de aceptación.
La región de rechazo será d > dc , ya que discrepancias mayores de dc tienen una
probabilidad de ocurrir menor que α, si H0 es considerada cierta, quedando como zona de
aceptación la complementaria d ≤ dc .
Debido a que la determinación de un nivel de significación α puede considerarse
ciertamente arbitrario, y que con el resultado sólo del test no es posible diferenciar el
grado de evidencia que, con las observaciones obtenidas, se consigue a favor o en contra
de H0, es decir la significatividad estad´ıstica del contraste, es preferible utilizar el Nivel
Crı́tico p del contraste, como la probabilidad de obtener una discrepancia mayor o igual
que la observada en la muestra, cuando H0 es cierta.

p = P (d ≥ d̂|H0 ) (4.4)

Hay que destacar que el valor de p no se fija a priori, sino que se fija a partir de las
observaciones realizadas. Cuanto menor sea p, menor será la credibilidad de H0 . Ası́ pues la
aceptación o rechazo de H0 dependerá de:
La opinión a priori que se tenga se su validez.
Las consecuencias de sus errores.
La evidencia aportada por la muestra.
4.1 Métodos estadı́sticos : Comparación de dos poblaciones. 71

El nivel de significación se fija en función de los dos primeros, mientras que el nivel crı́tico
pone de manifiesto el tercero.
A parte del nivel de significación, o Error Tipo I, existe el complementario, Error Tipo
II, o la probabilidad de aceptar H0 cuando ésta es falsa:

β(θ) = P (aceptar H0|θ)


denominada función o curva caracterı́stica del contraste. En el caso de H0 se verifica que:

β(θ0) = P (aceptar H0|θ0) = 1 − α


β(θ) contiene la información más relevante del contraste, ya que determina la probabilidad
de aceptar H0 para cada valor del parámetro θ. En su lugar también se emplea la curva de
potencia que indica la probabilidad complementaria de rechazar H0 para cada valor del
parámetro θ.
Potencia(θ) = P (rechazar H0|θ)
Ante dos contrastes que tengan medidas de discrepancia distintas pero con igual nivel
de significación, se escogerá el que tenga menores probabilidades de error tipo II, o lo que es
lo mismo, el que sea más potente.

4.1.2. Descripción del test de contraste de la igualdad de dos


poblaciones.
Como se ha indicado anteriormente, el contraste de igualdad de distribuciones de dos
o más variables es un tipo de contraste de hipótesis en el que se requiere un diseño
experimental, que asegure la homogeneidad de las comparaciones.
La comparación de dos poblaciones son un conjunto de tests, empleados en estadı́stica,
para determinar si existe evidencia que permita afirmar que las observaciones realizadas
provienen de poblaciones diferentes H1; o si por el contrario se debe mantener que los
conjuntos de las diferentes muestras provienen de una misma población H0 .
En caso de rechazo de la hipótesis de partida, es decir existe evidencia de que las
observaciones obtenidas provienen de poblaciones diferentes, es factible plantear tanto la
determinación de la capacidad de discriminación entre dichas poblaciones, ası́ como
plantear un sencillo clasificador que asigne la pertenencia de una nueva observación a la
población que se encuentre más cercana.
Entre los contrastes existentes para la comparación de dos poblaciones los más
importantes son:
1. Comparación de dos poblaciones con medias y varianzas iguales, cuyas muestras se
toman de forma independiente.
2. Comparación de la igualdad de varianza de dos poblaciones.
3. Comparación de la igualdad de la media de dos poblaciones con varianzas diferentes,
cuyas muestras se toman de forma independiente.
72 Tipologı́a de clasiftcadores.

Para los siguientes apartados se emplearán las siguientes definiciones:


n1 : tamaño de muestras de la primera población.
n2 : tamaño de muestras de la segunda población.
σ1 : varianza de la primera población.
σ2 : varianza de la segunda población.
Sˆ1 : estimación de la varianza de la primera población.
Sˆ2 : estimación de la varianza de la segunda población.
F : distribución de Fisher.
T : distribución de Student.

4.1.2.1. Comparación de la igualdad de la media de dos poblaciones


homocedásticas y muestras independientes.
La hipótesis nula, H0 , mantiene la igualdad del valor de la media de ambas poblaciones,
mientras que la hipótesis alternativa, H1 , indica su desigualdad de forma bilateral.

Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 ƒ= Δ (4.5)

La varianza de ambas poblaciones es igual, poblaciones homocedásticas, aunque


desconocida.
(X̄1 − X̄2 ) − (μ1 − μ2 ) (4.6)
TExp =
.
ˆ n11 + n12 )
S(

En donde Ŝ es la pseudo-varianza conjunta de ambas poblaciones Sˆ1 y Sˆ2 .

(n1 − 1) ∗ Sˆ1 + (n2 − 1) ∗ Sˆ2


Ŝ = (4.7)
n1 + n2 − 2
La región de aceptación de Ho es:

TT eo = t(n1+n2−2,1− α2) (4.8)

Si |TExp | ≤ TT eo entonces Ho es aceptada, en caso contrario se aceptará H1 , quedando


Ho rechazada.

4.1.2.2. Comparación de la igualdad de varianza de dos poblaciones.


Para comparar que dos poblaciones normales tienen varianzas proporcionales se
plantean las siguientes hipótesis.
σ σ
H : 1 = R vs. H : 1 = R (4.9)
o 1 ƒ
σ2 σ2
La igualdad de varianzas viene dada cuando R = 1.
4.1 Métodos estadı́sticos : Comparación de dos poblaciones. 73

Considerando que:

(n1 − 1)Sˆ1 (n2 − 1)Sˆ2 (4.10)


~ χ2n1−1 ~ χ2n2−1
σ1 σ2
1 (n1 −1)Sˆ1
n1−1 σ1 σ2 Sˆ1 ~ Fn −1,n −1 (4.11)
= 1 2
1 (n2 −1)Sˆ2 σ1 Sˆ2
n2−1 σ2
De donde bajo la consideración de aceptación de H0 :
1 Sˆ1
FExp = ~ Fn1−1,n2−1 (4.12)
R S2ˆ
La zona de aceptación de H0 es:
α
ateo = F (1 − )n1−1,n2−1 (4.13)
2
α
bteo = F (1 − )n1−1,n2−1 (4.14)
2
ateo ≤ FExp ≤ bteo (4.15)

4.1.2.3. Comparación de la igualdad de la media de dos poblaciones


heterocedásticas y muestras independientes.
Tanto la hipótesis nula, H0 , como la alternativa, H1 , son equivalentes a las del apartado
4.1.2.1.

Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 ƒ= Δ (4.16)
Aunque en este caso, tras realizar el test de comparación de varianzas, la igualdad de la
misma en ambas poblaciones debe ser descartada.
(X̄1 − X̄2 ) − (μ1 − μ2 ) (4.17)
TExp = . ~tf
Sˆ1 Sˆ2
n1 + n 2

En donde f es el número de grados de libertad calculados con la fórmula de Welch


[Peña Sánchez 86]:
ˆ Sˆ2 )2
( Sn11 + n2
f = −2 (4.18)
1 ˆ 1 ˆ
( S1 )2 + ( S2 ) 2
n1+1 n1 n2+1 n2

En este caso la zona de aceptación de Ho es:

TT eo = t(f,1− 2α ) (4.19)

Si |TExp | ≤ TT eo entonces Ho es aceptada, en caso contrario se asume que las poblaciones


tienen diferente valor medio.
74 Tipologı́a de clasiftcadores.

4.1.3. Procedimiento operacional.


Como se ha indicado anteriormente, el contraste de dos poblaciones permite concluir
si hay evidencia estadı́stica de diferencia entre dichas poblaciones a través del nivel de
significación, α, y las regiones de rechazo y aceptacion de H0 , y en caso de existir tal
diferencia evaluar como es de significativa dicha evidencia a través del nivel crı́tico p del
contraste.
Está tecń ica ha sido empleada en las investigaciones llevadas a cabo, como paso
prelimiar al desarrollo de algoritmos de clasificación, con la finalidad de determinar si, en
los registros electroencefalográficos llevados a cabo durante el desarrollo de las actividades
cognitivas propuestas, existe evidencia estad´ıstica que permita concluir que son diferentes,
y por tanto es factible la realización de un clasificador.
Hasta donde el autor de la presente tesis tiene conocimiento, diferentes clasificadores
han sido propuestos por los diferentes grupos que investigan sobre BCI, pero hasta
[Martı́nez 06] no ha sido publicado ningún estudio sobre la capacidad de discriminación
de las actividades cognitivas desde un punto de vista estad´ıstico.
Por otro lado, a través del nivel crı́tico p del contraste es posible determinar que
caracterı́sticas, de las extraı́das de cada segmento de análisis, presentan mejor capacidad
de discriminación, o que tipo de técnica de preprocesamiento permite resaltar mejor las
diferencias entre las actividades cognitivas propuestas.
As´ı pues, el procedimiento operacional seguido, cuyos resultados se recogen en la
sección 6.1, ha sido:

1. Definición del protocolo experimental, recogido en el apartado 5.6.1, y que propone


como actividades cognitivas:

Cálculo matemático.
Imaginación de movimiento.
Relax.

2. Desarrollo de los experimentos y registro de la actividad electroencefalográfica.

3. Preprocesamiento “Off-Line”, descomponiendo el registro en ventanas de análisis


de duración t = 1/3s, sin solapamiento entre las mismas. A cada una de estas
ventanas de análisis se le aplica las diferentes ventanas de procesamiento descritas
en el apartado 3.3, extrayendo por cada ventana de análisis preprocesada un vector
de caracter´ısticas de seis componentes, tal y como se indica en la tabla 4.1.

4. Descripción estadı́stica de las muestras de caracterı́sticas de cada población, asociada


a cada una de las actividades cognitivas consideradas. De este modo, por cada
actividad cognitiva y ventana de análisis se obtiene un vector de media y varianza
de caracterı́sticas de dimensión seis.
4.1 Métodos estadı́sticos : Comparación de dos poblaciones. 75

Componente Denominación. Banda de frecuencia considerada (Hz).


1 θ. 6 -8
2 α1. 9 - 11
3 α2. 12 - 14
4 β1. 15 - 20
5 β2. 21 - 29
6 β3. 30 - 38
Tabla 4.1: Vector de caracterı́sticas.

5. Realización del test de contraste de varianzas, realizando una comparación dos a dos
las poblaciones de los vectores de caracter´ısticas, con la finalidad de determinar si las
poblaciones consideradas son homocedásticas o heterocedásticas.

6. Realización del test de contraste de la igualdad de dos poblaciones para cada una de
las parejas de poblaciones analizadas, teniendo en cuenta el resultado anterior del
contraste de varianza asociado a la pareja de poblaciones considerada.

7. Análisis de los resultados de los tests determinando si, para las caracterı́sticas
consideradas de la pareja de actividades cognitivas analizadas, existe evidencia
estadı́sitica de su diferencia en función del tipo de ventana de filtrado utilizada,
en caso de que la diferencia existiera se determina el nivel cr´ıtico p del contraste con
la finalidad de elegir aquellas componentes del vector de caracter´ısticas que mayor
poder de discriminación presentan.

La figura 4.2 representa el proceso seguido.


En el apartado 5.6.1 se muestra el diagrama de actividad asociado a la implementación
del procedimiento de comparacion de poblaciones. Por su parte en el apartado 6.1, se
presentan analizan y discuten los resultados obtenidos de la aplicación de este
procedimiento, llegándose a las conclusiones de que es posible discriminar entre las
diferentes actividades cognitivas, a la vez que la ventana de procesamiento de Tukey es con
la que mejor capacidad de discriminación se obtiene.
76 Tipologı́a de clasiftcadores.

Figura 4.2: Procedimiento operacional.


4.2 Métodos estadı́sticos: Análisis por discriminantes lineales. 77

4.2. Métodos estadı́sticos: Análisis por discriminantes


lineales.
4.2.1. Introducción.
La técnica basada en el Análisis de Discriminantes Lineales3 (LDA), es empleada
tanto en Estad´ıstica como en Inteligencia Artificial bajo los paradigmas de Aprendizaje
Automático4 [Bishop 95] [Rich 94] y Reconocimiento de Patrones [Ripley 96], con la
finalidad de hallar la combinación de caracterı́sticas que separan de forma óptima dos
o más clases de objetos o eventos, realizándose aplicaciones entre otros campos en:
posicionamiento, gestión de producción, investigación de mercados, reconocimiento facial
o mercadotecnia.
Las caracterı́sticas de entrada consideradas, p, son variables continuas, γx ∈ Rp,
mientras que la salida es una variable cualitativa, y ∈ C ⊂ N , [Ripley 96], en caso
de emplear variables de entrada cualitativas esta técnica se convertirı́a en Análisis por
Correspondencia de Discriminantes (DCA)5.
El resultado puede ser empleado bien como clasificador lineal, o bien de forma más
común como técnica para reducir la dimensión del espacio de entrada, antes de proceder
a la clasificación de las muestras [Duda 01], [Cristianini 00], [Nabney 02].
Esta técnica se aproxima a otras técnicas estadı́sticas como: análisis de la varianza6
(ANOVA) [Peña Sánchez 86], análisis mediante técnicas de regresión, análisis por
componentes principales7 (PCA) [Martinez 01], o análisis factorial [Peña Sánchez 86];
ya que todas ellas tienen como factor común la expresión de la variable objetivo, o
dependiente, como combinación de las variables independientes. Sin embargo la técnica
de LDA se diferencia tanto del análisis por regresión como del análisis de la varianza en
que su resultado, al indicar pertenencia de la muestra analizada a una determinada clase,
y∈i, C
es de tipo cualitativo o discreto, en lugar de cuantitativo o continuo. As´ı mismo se
diferencia de la técnica PCA en que LDA modela de forma explı́cita la diferencia entre las
clases de datos, mientras que en PCA tal consideración no es tenida en cuenta. Por último,
LDA se diferencia del análisis factorial en que desde el principio se ha de determinar cuales
son las variables objetivo o de clases, y∈ C i , y cuales las variables independientes γx ∈ R n ,
o caracterı́sticas, por lo tanto no se trata de un método de interdependencia, en donde
una variable independiente puede ser expresada como combinación de la variable objetivo
y del resto de las variables independientes [McLachlan 04], [Friedman 89].
3
En inglés se la denomina “Linear Discriminant Analysis”.
4
En inglés se denomina Machine Learning.
5
En inglés se denomina “Discriminat Correspondence Analysis”.
6
En inglés se denomina “ANalysis Of VAriance”.
7
En inglés se denomina “Principal Component Analysis”
78 Tipologı́a de clasiftcadores.

4.2.2. Referencia histórica.


La técnica LDA fue desarrollada por R.A.Fisher, C.Rao y J.G.Bryan, [Ripley 96], como
método de clasificación, a través del cual una nueva observación x podı́a ser asignada a
una de entre dos o más clases C i , constituı́das por conjuntos de observaciones previas a las
que se denomina conjunto de entrenamiento.
R.A.Fisher publica en 1936 el artı́culo titulado: “THE USE of
MULTIPLE MEASUREMENTS iN TAxoNOMIc ProBLEMS” [Fisher 36], a partir del cual
se genera una
familia de métodos de clasificación conocidos como Discriminantes Lineales de Fisher, los
cuales permiten llegar a criterios de clasificación en los que la asignación de una nueva
observación, γx, a una clase concreta, C i , es sólo función de la combinación lineal de la
nueva observación y las muestras ya conocidas del conjunto de entrenamiento, asumiendo
determinadas restricciones como:
Las muestras de cada clase se distribuyen según una función de distribución normal8
Ci ~ N (μi, σi).

Las poblaciones presentan varianzas semejantes9. σ = σi = σj /i ƒ= j


Aunque originalmente R.A.Fisher, en su artı́culo inicial, realiza una descripción
ligeramente diferente, en la que dichas restricciones no son necesarias.
Para el caso de clasificación entre dos clases o binaria, la conclusión es inmediata, sin
embargo para el caso de clasificación múltiple a lo largo del tiempo se han desarrollado
diferentes técnicas que pueden ser empleadas, entre las que destacan uno contra todos y
clasificacion por parejas [Ripley 96].
En el primer caso los puntos de una clase son asignados a un grupo, mientras que todos
los demás, el resto, se asignan a otro; posteriormente se aplica la técnica de
clasificación LDA. En este método de clasificación se emplean tantos clasificadores como
clases consideradas, siendo el resultado final la combinación de los mismos.
En el caso de clasificación por parejas se crea un clasificador por cada pareja de clases,
. Σ
dando lugar a n clasificadores
2
diferentes, al igual que en el caso anterior el resultado final
se genera como combinación de los clasificadores anteriores.

4.2.3. Discriminación lineal clásica.


Sea v una observación para la cual γx es el vector de p caracterı́sticas asociado, en
donde:

v =⇒ x̃ ∈ X ⊂ Rp
Sea X ⊂ Rp el espacio de caracterı́sticas de entrada; K ⊂ N el número de Ci clases
diferentes consideradas, i = {1, 2, ..., K}.
8
Restricción facilmente asumible a través del Teorema Central del Lı́mite. Esta restricción puede ser
comprobada a través del test de Kolmogorov-Smirnof. [Peña Sánchez 86]
9
Esta restricción puede ser comprobada a través del test de homocedasticidad. [Peña Sánchez 86]
4.2 Métodos estadı́sticos: Análisis por discriminantes lineales. 79

Se pueden identificar tres formas distintas en las que la aproximación de una función,
f , puede ser empleada como clasificador.
f
f: p (4.20)
R −→ C ⊂ N

1. Tomando fk (γx) = p(k|γx) = E[I(Y = k|X = γx)]; k = {1, 2, . . . , K} y f (γx) = (fk (x̃)).
El teorema de Bayes selecciona el maximizador de fk (γx), definiendo la clase objetivo,
tk , como el k-ésimo vector unitario. Aplicando que

ǁf (γx) − tK ǁ = −2fk (γx) + 1 + ǁf (γx)ǁ2 (4.21)


es la norma del vector, (f (γx) − tK ), el teorema de Bayes conduce a seleccionar el
patrón más próximo a f (γx), lo que a su vez lleva a diferentes modos de aproximar
f (γx) por f (γx; θ) basándose en elegir θ de modo tal que la predicción del conjunto de
entrenamiento sea tan cercana a las clases objetivo como sea posible.

2. Dietterich y Bakiri [Ripley 96] codifican las clases objetivo tK en el espacioZ =


0, m
{ 1 } , con m > K, de modo tal que las clases queden claramente separadas,
procediendo posteriormente al aprendizaje de la función de clasificación f (γx)
f
f: p = {0, 1}m (4.22)
R −→ Z
El clasificador selecciona la clase objetivo más cercana en Z a la predicción f (x̃) para
una nueva muestra. La codificacion actual se realiza empleando códigos correctores
de error, y la distancia es L∞ . Esta aproximación se puede considerar como el
entrenamiento de un clasificador para m pseudo-clases que posteriormente son
mapeadas a las K clases reales.

3. La aplicación del teorema de Bayes maximiza logP (k| x̃), a la vez que el modelo
logı́stico múltiple es un modelo lineal para estas funciones logarı́tmicas de
probabilidad a posteriori. Variantes con menor fundamento pero ampliamente usadas
son modelos log´ısticos independientes para cada clase, que se comparan contra el
resto o contra las clases de referencia [Ripley 96].
Una aproximación alternativa consiste en asignar las n muestras del conjunto de
entrenamiento a g grupos de observaciones, los cuales a su vez son asignados a las K
clases objetivo.
v =⇒ x̃ p f1 f2
∈X ⊂R −→ G −→ C ⊂ N
Si el clasificador se basa en seleccionar el mejor grupo, se estará empleando
implı́citamente un clasificador basado en estructura de coste que penaliza la elección
incorrecta del grupo más que la clase, ya que aunque se elige la clase que tiene mayor
probabilidad a posteriori, ésta se obtiene como suma de las probabilidades a posteriori de
cada uno de los grupos que la forman.
8 Tipologı́a de clasiftcadores.
0
Asumiendo que la función de probabilidad para las observaciones de cada grupo se
distribuyen según una función normal Xj ~ N (μγj , Σ), la aplicación del teorema de Bayes
asigna una nueva observación al grupo para el cual

γ j )Σ−1 (x̃ − γμj )J − 2logπj + Cte


−2logP (j|x̃) = (x̃ − μ (4.23)

sea menor10 . Expandiendo la expresión anterior se obtiene:

−2logP (j|x̃) = −2x̃Σ−1 γμJj + μ


γ Jj Σ−1 γμJj − 2logπj + Cte + x̃Σ−1 x̃J (4.24)

expresión que es lineal en el término γx más un término cuadrático que no depende de


la clase, ya que el objetivo es maximizar P (j| x̃) o lo que es lo mismo minimizar 4.24, se
deberán maximizar igualmente los términos lineales:

LDAj = 2x̃Σ−1 γμJj − γμJj Σ−1 γμJj + 2logπj (4.25)

De este modo el espacio de caracter´ısticas, = p, queda


X pues
R dividido por hiperplanos, o
lo que es lo mismo por discriminantes lineales, con lo que la comparación puede
realizarse en un espacio de dimensión K 1. −El criterio de decisión se convierte en
aplicar un umbral sobre el producto escalar del vector de caracter´ısticas de la nueva
observación y los que representan a las observaciones anteriores.
Para el caso especial de considerarse clasificación binaria, comparando las cantidades
LDA2 con LDA1 se obtendrı́a como función de clasificación LDA2 − LDA1 , eligiendo el
segundo grupo si y solo s´ıel valor obtenido es positivo.
En la práctica, los valores μγj y Σ, son estimaciones obtenidas de las muestras que
forman los conjuntos de entrenamiento, estimadas por m γ j y W , en donde W es la matriz
de covarianza entre grupos, en caso de que la hipótesis de igualdad de varianza entre las
poblaciones fuese errónea se utilizarı́an las varianzas de cada grupo de forma independiente
obteniéndose un clasificador de tipo QDA11 .

4.2.4. Discriminante lineal de Fisher.


Como se ha indicado anteriormente el método LDA es una técnica de preprocesamiento
que encuentra la matriz de transformación W que separa de manera óptima dos o más
clases, es decir considera la maximización de la siguiente ecuación:
W T SB W
J (W ) = (4.26)
W T SW W
10
Al primer término de la derecha de la ecuación se le conoce como distancia de Mahalanobis entre el
vector de caracterı́sticas ẋ y el valor medio del grupo Xj = μ̇j
11
Quadratic Discriminant Analysis
4.2 Métodos estadı́sticos: Análisis por discriminantes lineales. 81

en donde SB es la matriz de dispersión entre clases y Sw es la matriz de dispersión intrı́nseca


a cada clase, la definición de ambas matrices es:
Σ
SB = Nc (μc − x̄)(μc − x̄)T (4.27)
c
ΣΣ
SW = (xi − μc )(xi − μc )T (4.28)
c i∈c
1 Σ
μ = xi (4.29)
c
Nc i∈c
1 Σ 1 Σ
x̄ = x = Ncμc (4.30)
i
N i N c
siendo Nc es el número de muestras para la clase c.
Debido a que J es invariante al escalado de vectores, W → αW , es posible elegir una
W tal que el denominador sea W T SW W = 1. Por lo que el problema de maximizar J se
transforma en el siguiente problema de optimización considerando restricciones:
1 T
minW − W SB W (4.31)
2
s.t. W T SW W = 1 (4.32)
el cual corresponde con la lagrangiana12 :
1
1 W + λ(W T S
L P = − W T SB W W − 1) (4.33)
2 2
Con la siguiente solución:

SBW = λSW W ⇒ S −W1 S B W = λW (4.34)


Donde se puede observar que se trata de un problema de resolución de autosistemas
generalizados, utilizando el hecho de que la matriz SB es simétrica positiva, puede
ser escrita como S 2 S 2 , en donde S 2 se construye a partir de su descomposición por
1 1 1

BB B
1 1
autovalores como: SB = U ΛUT → SB = U Λ 2 U T . De donde definiendo V = S B2 W se
1
2

obtiene:
1 1
S 2 S−1 S 2 V = λV (4.35)
B W B
1 1
que es un problema de un autosistema con una matriz simétrica positiva S 2 S −1 S 2 , con
B W B
soluciones λk como autovalor y Vk como autovector, dando lugar a la solución:
− 1
W = S B 2V (4.36)

Introduciendo esta solución en la función objetivo J (W ) 4.26, se encuentra que la solución


buscada que maximiza dicha función objetivo es la que tiene los autovalores mayores.
12
En la cual se ha introducido por conveniencia el factor 1/2, sin que ello de lugar a una pérdida de
generalidad
82 Tipologı́a de clasiftcadores.

4.2.5. Procedimiento operacional.


En el presente estudio la técnica de Análisis Discriminante Lineal no ha sido aplicada
desde el punto de vista de clasificador, sino como método para reducir la dimensión
del vector de caracterı́sticas de entrada y separar linealmente de forma óptima las
poblaciones de muestras de señal electroencefalográfica asociadas a cada actividad mental,
para posteriormente proceder a evaluar la capacidad de discriminación obtenida, cuyos
resultados se recogen en el capı́tulo 6. A continuación se describe el procedimiento
operacional llevado a cabo para implementar el método LDA descrito con anterioridad.

1. Obtención de muestras de cada actividad mental.


Xa Cálculo matemático.
Xb Imaginación de movimiento.
Xc Relajación.
2. Definición estadı́stica de todas las poblaciones.

Xa μ¯a = E[xa ] Sa = E[(xa − μ¯a)(xa − μ¯a )T ] (4.37)


T
Xb μ̄b = E[xb ] Sb = E[(xb − μ¯b )(xb − μ¯b ) ] (4.38)
T
Xc μ¯c = E[xc ] Sc = E[(xa − μ¯c )(xc − μ¯c ) ] (4.39)

3. Cálculo de las matrices de dispersión entre clases (Between) e intrı́nsecas a cada


clase (Within),(eq. 4.27 & 4.28).

4. Aplicación del criterio de optimización LDA (eq.4.35).

5. Cálculo de la matriz de transformación, W (eq.4.36), formada por los auto-vectores,


Vk, cuyos autovalores con valor absoluto superior a 1∗ 10−4 ordenados de mayor a
menor.

6. Transformación del conjunto de muestras.

Xa ⇒ XaJ = W T ∗ Xa (4.40)
Xb ⇒ Xb = W T ∗ Xb
J
(4.41)
Xc ⇒ XcJ = W T ∗ Xc (4.42)

En el apartado 5.6.2 se muestra el diagrama de actividad asociado a la implementación


del procedimiento de Análisis por Discriminantes Lineales. Por su parte en el apartado
6.2, se presentan analizan y discuten los resultados obtenidos de la aplicación de este
procedimiento, llegándose entre otras a la conclusión de que es posible reducir la dimensión
del espacio de caracterı́sticas, a la vez que se mantiene la capacidad de discriminación entre
las diferentes actividades cognitivas.
4.3 Clasiftcadores basados en redes neuronales. 83

4.3. Clasificadores basados en redes neuronales.


Tras la descripción de las pruebas de contraste de igualdad de poblaciones, empleadas
para determinar si existe evidencia de diferencia estad´ıstica entre las poblaciones de
muestras electroencefalográficas, adquiridas cuando el usuario lleva a cabo las actividades
cognitivas propuestas, y describir la técnica de Análisis Lineal de Discriminantes con la que
comprobar la posibilidad de reducir la dimensión del espacio original de caracterı́sticas, sin
que por ello se pierda la capacidad de discriminación de dichas actividades cognitivas; en
esta sección se describen los diferentes tipos de clasificadores basados en redes neuronales
que han sido considerados en la presente tesis:

Perceptrón multicapa.(MLP).

Red neuronal con funciones de base radial (RBF).

Redes Neuronales Probabil´ısticas (PNN).

De modo general, con las muestras adquiridas en los diferentes experimentos, para
cada uno de los clasificadores desarrollados se realizan las siguientes operaciones:

1. Lectura de las muestras asociadas a cada una de las diferentes actividades mentales:
Cálculo matemático.
Imaginación de movimiento.
Relax.

2. Realización de ventanas de análisis de 128 muestras.

3. Detección de artefactos. Se considera artefacto cuando una muestra se diferencia de


la anterior en más de tres desviaciones tı́picas del conjunto de muestras de la ventana
de análisis.

4. Normalización de la señal.

5. Aplicación de la ventana de procesamiento. Las ventanas consideradas son 13 :

Rectangular.
Triangular.
Blackman.
Hamming.
Hanning.
Kaiser.
Tukey.
13
Véase el apartado 3.3
84 Tipologı́a de clasiftcadores.

6. Aplicación de un filtro Butterworth pasa banda con frecuencias de corte inferior de


fi = 4Hz y frecuencia de corte superior fs = 40Hz.

7. Obtención de la estimación espectral de potencia utilizando la FFT.

8. Cálculo del vector de caracterı́sticas, obtenido para cada una de las ventas de análisis
de 128 muestras de la señal.

9. En un nuevo bucle, y tras el procesamiento de las 21 ventanas de análisis que


se obtienen por sesión, véase 3.5, se identifican aquellas ventanas que presentan
artefactos, reemplazándose su vector de caracterı́sticas por el valor medio del resto
de las ventanas de análisis sin artefactos.

10. Agrupación de los resultados para cada canal: C3’-C3” y C4’-C4”.

Cada clasificador aplica el siguiente procedimiento al conjunto de vectores de


caracter´ısticas extra´ıdo con anterioridad:

1. Determinación de los conjuntos de datos empleados para aprendizaje(50 %), prueba


(25 %) y validación (25 %).

2. Obtención de la matriz de normalización para el conjunto de datos de aprendizaje.

3. Aplicación del Análisis de Componentes Principales al conjunto de datos de


aprendizaje para reducir la dimensión del espacio de entrada14 .

4. Entrenamiento de la red neuronal con el conjunto de datos de aprendizaje.

5. Aplicación del conjunto de datos de prueba a la red neuronal, si el error de test


es inferior al error objetivo el proceso de aprendizaje se considera válido, en caso
contrario se procede a entrenar nuevamente la red neuronal.

6. Aplicación del conjunto de datos de validación a la red neuronal con el objetivo de


estimar el error de ejecución.

7. Aplicación de la red neuronal al conjunto de datos y registro de resultados.

8. Obtención de las matrices de confusión asociadas a cada experimento.

14
La aplicación de la técnica de Análisis de Discriminantes Lineales permite concluir que es factible
realizar una reducción del espacio de original de caracterı́sticas de entrada sin perder la capacidad de
discriminación, sin embargo los resultados obtenidos de su aplicación indican que de las dos posibles
proyecciones ( téngase en cuenta que se consideran tres actividades cognitivas) sólo una se muestra
significativa, por lo que como técnica alternativa se ha optado por procesar los vectores de caracterı́sticas a
través de la técnica de Análisis de Componentes Principales, manteniendo el 90 % de la variabilidad de los
datos como valor explicativo, mientras que el 10 % restante se atribuye a ruido.
4.3 Clasiftcadores basados en redes neuronales. 85

4.3.1. Clasificador Perceptrón Multicapa MLP.


4.3.1.1. Deftnición.
Las redes neuronales de tipo perceptrón multicapa, también denominadas redes de
propagación hacia delante 15 [Ripley 96], son redes compuestas por dos o más capas de
unidades básicas de computación o neuronas, véase figura 4.3, que combinan linealmente

Figura 4.3: Arquitectura de una red neuronal tipo perceptrón multicapa.


las componentes del vector de entrada, aplicando diferentes ponderaciones a cada
componente, para después a través de una función altamente no lineal, denominada
función de activación, transformar dicha combinación lineal en la salida de la neurona
[Bishop 95], véase figura 4.4. Originalmente fue F. Rosenblatt en la década de 1960
quien consideró como unidad de computación básica al perceptrón, dando lugar a la
denominación de este tipo de redes neuronales [Ripley 96]. Sin embargo, la mayorı́a de
aplicaciones prácticas que utilizan redes neuronales de tipo MLP emplean neuronas que
difieren de la definición perceptrón, debido a que la falta de continuidad de la función
escalón empleada en el mismo dificulta el proceso de aprendizaje [Freeman 93]. Las
neuronas que no proporcionan directamente la salida se denominan neuronas ocultas. La
única restricción en su arquitectura es que las conexiones que se establezcan entre las
neuronas no den lugar a bucles de realimentación, de tal modo que la información fluya
desde las entradas de la red hacia las salidas, lo que justifica su denominación de redes de
propagación hacia delante. De esta forma se asegura que la salida de la red se pueda calcular
como función explı́cita de las entradas y los pesos o parámetros de la misma [Bishop 95]
[Ripley 96]. Las redes neuronales de tipo MLP con dos capas pueden aproximar cualquier
función continua [Bishop 95].
15
En inglés a este tipo de redes se las conoce indistintamente como feed-forward networks o MLP: Multi
Layer Perceptron
86 Tipologı́a de clasiftcadores.

4.3.1.2. Descripción matemática.


Tal y como se establece en la definición anterior la salida de la j-ésima unidad oculta
se obtiene como ponderación de la combinación lineal de los valores de entrada, junto con
el término asociado a la desviación:
d d
Σ Σ
(1) (1)
aj = w ji xi + w j0 = w(1)ji
xi (4.43)
i=1 i=0
(1)
En donde w ji representa al peso de ponderaci´n
o de la primera capa que conecta la
entrada i con la neurona oculta j, y wj0(1) representa al término que considera la desviación
de dicha neurona, termino que puede ser considerado de forma implı́cita incluyendo una
variable de entrada extra, denominada x0 , cuyo valor se fija a x0 = 1, obteniéndose la
ecuación 4.43
El resultado o activación de la neurona j-ésima se obtiene transformando el resultado
de la ecuación 4.43 a través de la función g(.):
zj = g(aj ) (4.44)
Los tipos de funciones de activación más comúnmente considerados son los de:
Función
. escalón o umbral.
g (a ) = 0 si a < 0.
(4.45)
1 si a ≥ 0.
Aplicaciones de la función escalón. Mediante la función escalón es posible aprender
cualquier tipo de función booleana si se utilizan entradas binarias, lo que desde un
punto de vista práctico da lugar a la creación de plantillas; mientras que si se utilizan
entradas continuas es posible aprender fronteras de decisión, con aplicacion directa
a la clasificación de patrones.

Figura 4.4: Representación perceptrón.


4.3 Clasiftcadores basados en redes neuronales. 87

Funciones sigmoideas.

• Función de activación sigmoidea logı́stica.


1
g(a) = (4.46)
1 + e−a
• Tangente hiperbólica.
ea − e−a
g(a) = a (4.47)
e + e−a

Aplicaciones de la función sigmoidea. La salida de la función de activación sigmoidea


queda dentro del rango (0, 1), lo que permite que pueda ser interpretada desde un
punto de vista probabilı́stico. Por su parte, la aplicación de la función hiperbólica
permite una convergencia más rápida del algoritmo de entrenamiento que el
conseguido con la función logı́stica.

Funciones lineales.
g(a) = Ka (4.48)

Aplicaciones de la función lineal. Utilizada por lo general en neuronas en la capa de


salida cuando se precisa que la salida no quede restringida a funciones de clase, por
ejemplo en aplicaciones en las que se requiere aproximar la salida de una función y
es necesaria la extrapolación de resultados.

Funciones de activación.
1.5

0.5

−0.5

−1
F. Escalón
F. Logística
F. Tangente hiperbólica
Lineal
−1.5
−10 −8 −6 −4 −2 0 2 4 6 8 10

Figura 4.5: Funciones de activación.


88 Tipologı́a de clasiftcadores.

Las salidas de la red neuronal se obtienen transformando los resultados de las neuronas
de la capa oculta a través de la capa de salida, obteniéndose la siguiente ecuación para
cada una de las k-ésimas unidades de salida:
M M
Σ Σ
(2) (1)
ak = w kj zj + w k0 = w(2)kjzj (4.49)
j=1 j=0
yk = g̃(ak ) (4.50)
En donde g̃(.) representa la función de activación de la neurona de salida, resaltando que
no tiene por que ser el mismo tipo de función que el empleado para las neuronas de la
capa oculta.
Combinando las ecuaciones 4.43, 4.44, 4.49 y 4.50 se obtiene la expresion expl´ıcita de la
función representada en el diagrama de la figura 4.6 [Bishop 95][Ripley 96]:
. M Σ
Σ (2) . Σ d Σ
(1)
yk = g̃ wkj g wji xi (4.51)
j=0 i=0

Hay que destacar que si las funciones de activación de las neuronas de salida son
lineales g̃(a) = a, la expresión anterior se convierte en un caso especial de función de
discriminación lineal generalizado, en el que las funciones de base son obtenidas de las
funciones zj definidas por 4.43 y 4.44, siendo la principal diferencia que los pesos de
ponderación al ser adaptativos cambian durante el proceso de entrenamiento [Bishop 95].

Figura 4.6: Arquitectura general de una red MLP.


4.3 Clasiftcadores basados en redes neuronales. 89

4.3.1.3. Procedimiento de entrenamiento.


Mediante el proceso de entrenamiento, los pesos de las neuronas que determinan la
red, son modificados con el objetivo de minimizar la función de error elegida16 . En todos
los casos se emplea un paradigma de entrenamiento supervisado, pues es preciso evaluar
el error cometido por la red, entendido tal como la diferencia entre el valor deseado y el
proporcionado por la red ante un determinado vector de entrada. Los tipos de funciones
de error más comunes son:
Error cuadrático.
N
Σ
E= (yi − ŷi )2 (4.52)
i=1

Error log´ıstico.
N
Σ yˆi
E= (yˆi log( ) + (1 − ŷi )log( 1 − yˆi )) (4.53)
i=1
yi 1 − yi

Propagando la evaluación y minimización de la función de error hacia las capas de


entrada17 es posible obtener la dirección en que deben ser modificados los pesos de las
neuronas. Para la minimización del error se utilizan métodos de optimización numérica
como el descenso del gradiente [Fuente O’Connor 93], o bien otros procedimientos de
optimización más avanzados; para lo cual es necesario evaluar la derivada de la función
de error con respecto a los pesos de las neuronas, disponer de funciones de activación
diferenciables facilita la propagación del error hacia las capas de entrada, sin embargo
para el caso de funciones de activación de tipo escalón esta propagación del error no es
factible ya que no son continuas en el punto de decisión, dando lugar a lo que se conoce
como problema de asignación de crédito 18 .
Tras determinar la dirección de modificación, la cantidad en la que ésta se realiza
queda determinada a través del parámetro Δ, dando lugar a la ecuación 4.54, conocida
como regla Δ generalizada.
δE
wt1 = wt0 − Δ (4.54)
ij ij δwij
Durante el proceso de aprendizaje los parámetros de la red pueden ser modificados bien
cuando se presenta y evalúa cada nuevo patrón del conjunto de entrenamiento, compuesto
16
La definición de una red neuronal de tipo MLP implica la determinación del número de capas a emplear,
ası́ como el número de neuronas a utilizar en cada capa.
17
Técnica conocida como propagacion hacia atrás, ’Back-propagation’ en inglés.
18
Credit assignment problem, si una neurona de salida produce una respuesta errónea cuando a la red
neuronal se le presenta el vector de entrada asociado, no hay forma de determinar cual de las neuronas
de la capa oculta es responsable de la generación del error, de modo tal que no se puede determinar que
pesos se han de ajustar y por cuanto.
90 Tipologı́a de clasiftcadores.

por el vector de entrada y salida objetivo, o bien una vez que todos los patrones de
entrenamiento han sido presentados y evaluados, las necesidades computacionales en cada
caso son diferentes, ya que en el primer caso se obtiene una convergencia más lenta pero
requiere menos memoria que el segundo, ya que trabaja directamente sobre los parámetros
de la red; no siendo preciso, como en el segundo caso, almacenar las modificaciones a aplicar
una vez han sido procesados todos los patrones del conjunto de entrenamiento.
El proceso de modificación de los parámetros de la red se itera, bien hasta que se alcanza
un error total inferior al permitido, o bien hasta que se alcanza un número máximo de
ciclos.
Con el objetivo de evitar el sobre-aprendizaje del conjunto de entrenamiento, lo que
ocasionarı́a una mala generalización, se emplean varias técnicas:
Descomposición del conjunto de patrones disponibles en conjunto de entrenamiento,
validación y test. Con el conjunto de entrenamiento se modifican los parámetros de
la red, con el conjunto de validación se determina el error esperado, mientras que
con el conjunto de test se determina la capacidad de generalización.
Definición de la red neuronal de menos a más. Comenzando con un número reducido
de neuronas en la capa oculta, se procede a realizar el proceso de entrenamiento,
evaluando los errores obtenidos con los conjuntos de entrenamiento, validación y
test. El número de neuronas en la capa oculta se incrementa paulatinamente hasta
que se obtienen niveles de error aceptables. El disponer de un número reducido de
neuronas en la capa oculta, en comparación con el número de patrones presentes
en el conjunto de entrenamiento, indica que los parámetros de cada neurona se ven
influidos por más de un patrón, asegurando cierta capacidad de generalización.
Detención del proceso de aprendizaje en un número relativamente bajo de
iteraciones, de modo tal que no se permite a los parámetros de la red alcanzar valores
definitivos causados por el efecto de memorización de los patrones del conjunto de
entrenamiento; por lo general el ı́ndice que error asociado a esta técnica también es
alto.

4.3.1.4. Evaluación de las derivadas de la función de error.


Cada una de las neuronas de una red neuronal de tipo MLP realiza la combinación
lineal de las entradas empleando la fórmula:
Σ
aj = wjizi (4.55)
i

en donde zi es la activación de una neurona en una capa precedente, o una entrada, que
conecta con la neurona j, wji es el peso asociado a dicha conexión, el sumatorio se aplica
a todas las neuronas o entradas que se conectan a la neurona j. La suma es transformada
por la función de activación no lineal g(.) para dar lugar a la salida zj .

zj = g(aj ) (4.56)
4.3 Clasiftcadores basados en redes neuronales. 91

El objetivo es determinar los valores apropiados para los pesos de la red a través
de la minimización de la función de error elegida, la cual podrá ser expresada como
sumatorio de los errores obtenidos con cada uno de los n patrones que forman el conjunto
de entrenamiento.
Σ
E= En (4.57)
n

Teniendo en cuenta que la ecuación de error E n se puede expresar como función


diferenciable de las variables de salida:

En = E n (y 1 ,... , yc) (4.58)

Por cada patrón se dispone del correspondiente vector de entrada y la activación de


cada una de las neuronas de la red a través de la aplicación sucesiva de las ecuaciones 4.55
y 4.56, a este proceso se le denomina propagación hacia delante ya que se trata del flujo
de información a través de la red.
Considerando la evaluación de la derivada de la función de error E n respecto a los
pesos wij:
δEn δEn δaj
= (4.59)
δwij δaj δwij
Teniendo en cuenta 4.55 se obtiene:
δaj
= zi (4.60)
δwij
y aplicando la notación
δEn
δj ≡ (4.61)
δaj
se obtiene:
δEn
= δjzi (4.62)
δwij
Ecuación que indica que la derivada buscada se obtiene multiplicando el valor δ de la
neurona de salida por el valor z de la neurona de entrada, por lo que sólo será preciso
calcular el valor δj para cada neurona de la red y aplicar la ecuación 4.62. Para las neuronas
de salida la evaluación de δk es inmediata, obteniéndose:
δEn J δE n
δk ≡ δak = g (ak) δyk (4.63)

Para las neuronas de la capa oculta se obtiene:


δEn Σ δEn δak
δj ≡ δa = (4.64)
j
k
δak δaj
92 Tipologı́a de clasiftcadores.

en donde el sumatorio se efectúa sobre todas las neuronas a las que la neurona j envı́a
conexiones. Sustituyendo la definición de δ de la ecuación 4.61 en 4.64 se obtiene la
siguiente fórmula de back-propagation:
Σ
δj = g J (aj ) wkj δk (4.65)
k

que indica que el valor de δ para una neurona oculta se obtiene propagando hacia atrás los
valores de δJ s desde las neuronas superiores, como las derivadas de las funciones de salida
son conocidas, aplicando de forma recursiva 4.65 se obtienen los δJ s de todas las neuronas
de la capa oculta. Ası́ pues los pasos a seguir para evaluar la derivada de la función de
error En con respecto a los pesos son:
1. Aplicación de un vector de entrada xn a la red y propagar hacia delante, utilizando
las ecuaciones 4.55 y 4.56, para hallar la activación de todas las neuronas de la red.
2. Evaluar δk para todas las neuronas de salida utilizando 4.63.
3. Propagar hacia atrás los δJ s utilizando 4.65 para obtener δj de cada una de las
neuronas ocultas.
4. Utilizar 4.62 para evaluar las derivadas requeridas.
La derivada total del error se obtiene repitiendo los pasos anteriores para cada uno de
los patrones que forman el conjunto de entrenamiento y realizando su suma:
δE Σ δEn
= (4.66)
δwij n δwij

Cuando es necesario evaluar la sensibilidad de la salida, yk, ante los valores de entradas
xi es posible emplear el método de propagacion hacia atrás para el cálculo de la matriz
jacobiana 4.67.
δyk
Jki ≡ (4.67)
δxi
Ası́ mismo este método es útil cuando es preciso evaluar la segunda derivada del error
con respecto a los pesos de la red, matriz hessiana:
δ 2E
H≡ (4.68)
δwji δwlk
Cuyos elementos desempeñan papeles importantes en muchos aspectos del cálculo
neuronal, entre los que se incluyen:
1. Algoritmos de optimización no lineal empleados durante la fase de entrenamiento.
2. Base para un rápido proceso de reentrenamiento de redes neuronales progresivas,
empleando pequeños cambios en el conjunto de entrenamiento [Bishop 95].
3. Identificación de los pesos menos significativos, como parte de algoritmos de poda.
4. Asignación de margenes de error de las predicciones realizadas.
5. Cálculo de parámetros de regularización a partir de autovalores de la matriz hessiana.
6. El determinante de la matriz hessiana se puede utilizar como medida de comparación
de las probabilidades relativas de diferentes modelos de redes neuronales.
4.3 Clasiftcadores basados en redes neuronales. 93

4.3.1.5. Implementación del clasiftcador basado en red neuronal de tipo MLP.


En la implementación de los clasificadores basados en este tipo de red neuronal, se han
utilizado los siguientes parámetros:
Algoritmo de aprendizaje: Levenberg-Marquardt (Backpropagation).
Número de neuronas en la capa oculta: 60.
Función de activación en las neuronas de la capa oculta:
2
tansig(x) = −1 (4.69)
1 + e−2x
Número de neuronas en la capa de salida: 3.
Función de activación en las neuronas de la capa de salida:
1
logsig(x) = (4.70)
1 + e−x
Error objetivo = 1e−5.
Número máximo de iteraciones en el proceso de aprendizaje = 400.
Max. fallo = 5.
Mem. reduc. = 1.
Min. grad. = 1e−10.
μ = 1e−3.
μdec = 0,1.
μinc = 10.
μmax = 1e−5.
La capa de salida queda compuesta por tres neuronas, ya que son tres las actividades
consideradas en el resultado de la clasificación, el rango de salida de su funcion de
activación, logsig, queda restringido a [0, 1], lo que permite indicar de forma sencilla,
con un valor próximo a la unidad, la asignación de un nuevo candidato a una de las clases
consideradas.
En la capa oculta se han considerado 60 neuronas, para conseguir esta cifra se realizó un
análisis considerando la influencia que el número de neuronas en la capa oculta ejercı́a sobre
el resultado final de la clasificación, se observó que con valores próximos a 60 neuronas en
la capa oculta se obtenı́an mejores resultados de clasificación correcta que los conseguidos
con un número de neuronas inferior a 40 o superior a 80. El número de entradas no es
directamente igual a la dimensión del vector de caracterı́sticas, N = 6, ya que se observa
cierta correlación entre las mismas, mediante el empleo de PCA (Principal Component
Analysis) se ha mantenido el 90 % de la variabilidad de los vectores de caracter´ısticas
derivados de las muestras tomadas, el 10 % restante queda atribu´ıdo a ruido, por lo que
para la gran mayorı́a de las pruebas el número de componentes ha quedado en N = 4.
En el apartado 5.6.3 se describe el diagrama de actividad asociado al empleo de
clasificadores basados en redes neuronales, mientras que por su parte en el apartado 6.3 se
presentan, analizan y discuten los resultados obtenidos de la aplicación de los clasificadores
basados en los anteriores tipos de redes neuronales.
94 Tipologı́a de clasiftcadores.

4.3.2. Clasificador basado en red neuronal de tipo RBF.


4.3.2.1. Descripción redes neuronales de funciones de base radial.
Las redes neuronales de tipo RBF son modelos no paramétricos, que comprenden todos
aquellos modelos de redes neuronales, en los que la función de activación de las neuronas
de la capa oculta tiene como variable de entrada la distancia entre el vector propuesto y
un vector prototipo propio de cada neurona [Ripley 96].
La topologı́a de una red neuronal de tipo RBF se muestra en la figura 4.7.

Figura 4.7: Arquitectura de una red neuronal tipo RBF.

Las redes neuronales de tipo RBF se emplean entre otras aplicaciones como:
aproximadores de funciones, regularizadores, interpolación ruidosa, estimación de
funciones de densidad, teorı́a de clasificación óptima, funciones potenciales [Bishop 95].
Debido a la gran multitud de aplicaciones, los métodos de entrenamiento utilizados
con las redes neuronales de tipo RBF han llegado a ser sustancialmente más rápidos que
los empleados en el entrenamiento de las redes neuronales de tipo perceptrón multicapa;
esto en parte es debido al procedimiento de entrenamiento en dos fases derivado de la
interpretación dada a la forma de representación interna de las neuronas de la capa oculta.
En la primera fase, los pesos de las funciones de base radial que corresponden a las neuronas
de la capa oculta se determinan mediante métodos no supervisados, más rápidos que los
métodos supervisados al considerar sólo los vectores de entrada de los patrones del conjunto
de entrenamiento y no tener que considerar los valores asociados de la salida [Nabney 02],
en una segunda etapa de entrenamiento se determinan los pesos de las neuronas de la
capa de salida, lo que implica la solución de un problema lineal, empleándose métodos de
resolución rápidos, eficientes y optimizados [Ripley 96] [Rich 94].
4.3 Clasiftcadores basados en redes neuronales. 95

4.3.2.2. Descripción de la técnica de interpolación exacta.


Los métodos basados en funciones de base radial tienen su origen en técnicas de
interpolación exacta de un conjunto de puntos en un espacio multidimensional (Powell
1987)[Bishop 95], donde se requiere que cada vector de entrada sea asociado de forma
exacta con su correspondiente vector de salida.
La técnica de interpolación exacta considera la asociación de un espacio de entrada
n-dimensional, X, en un espacio de salida de una única dimensión, t, para lo cual se
precisa de un conjunto de datos compuesto por N vectores de entrada xn, junto con sus
correspondientes valores destino tn ; quedando por tanto el objetivo de esta técnica en
encontrar la función h(x) que cumpla:

h(xn) = tn, n = 1, ..., N (4.71)

La aproximación de función de base radial introduce un conjunto de N funciones de


base, una por cada vector de entrada, que toman la forma || φ( −x xn||) en donde φ(.) es
una función no lineal que depende de la distancia ||x − xn ||, siendo ésta por lo general la
distancia euclı́dea entre x y xn . La salida de la red es la combinación lineal de las funciones
de base que realizan la asociación.
Σ
h(x) = wnφ(||x − xn||) (4.72)
n

Ecuación que tiene la misma forma que una función de discriminación lineal generalizada
[Bishop 95]. Las condiciones de interpolación pueden expresarse en forma matricial como:

ΦW = t (4.73)
−1
W=Φ t (4.74)

En donde t ≡ (tn ), W ≡ (wn ), y la matriz cuadrada Φ tiene como elementos φnnJ =


J
φ( ||xn − xn ||). Se ha demostrado que para grandes familias de funciones φ(.), la matriz
Φ es no singular, siempre que se suministren datos de entrada diferentes [Bishop 95].
Cuando los pesos de la ecuación 4.72 se introducen en los valores de 4.74, la función
h(x) representa una superficie continua diferenciable que pasa exactamente por cada
uno de los puntos considerados. Estudios teóricos y prácticos realizados por Powell en
1987 [Bishop 95], dentro del problema de interpolación exacta demuestran la relativa
insensibilidad a la forma precisa de la función no lineal φ(.). Diferentes tipos de funciones
han sido consideradas, siendo la más común la campana de Gauss
2
x
φ(x ) = e − 2 σ2 (4.75)

En donde σ es el parámetro que controla la suavidad de la función de interpolacion. La


campana de Gauss es una función de base localizada con la propiedad de φ → 0 cuando
|x | → ∞.
96 Tipologı́a de clasiftcadores.

x2
Figura 4.8: Función de activación, φ(x ) = e − 2 σ2

Otra función de base con la misma propiedad es la función


φ(x) = (x2 + σ2)−α, α >0 (4.76)
Sin embargo no es preciso que las funciones sean localizadas, otras posibles elecciones son:
φ(x) = x2ln(x) (4.77)
φ(x) = (x2 + σ2)β, 0 <β < 1 (4.78)
3
φ(x) = x (4.79)
φ(x) = x (4.80)
Todas ellas tiene la propiedad de que φ → ∞ cuando x ,→por ∞ otro lado hay que tener
en cuenta que aunque la función φ(x) = x sea lineal en x, no lo es en x, ya que x = x
xn . || − ||
La generalización a funciones de salida multivariable es inmediata. Cada vector de
entrada xn debe ser mapeado exactamente a un vector de salida tn, el cual tiene por
componentes tkn, lo cual da lugar a:
hk(xn) = tnk, n = 1, ...., N (4.81)
en donde hk (x) son obtenidas por superposición lineal de las mismas funciones de base
que las utilizadas para el caso de salida univariable.
Σ
hk(x) = wknφ(||x − xn||). (4.82)
n
4.3 Clasiftcadores basados en redes neuronales. 97

El peso de los parámetros se obtiene de forma análoga a la ecuación 4.74:


Σ
(Φ−1 )nnJ tnk
J
wkn = (4.83)
nJ

en donde la misma matriz Φ−1 se utiliza para cada función de salida.


La asociación realizada por las funciones de base radial consigue que la función de salida
pase exactamente por los puntos de datos suministrados como datos de aprendizaje, si el
conjunto de datos de entrenamiento de que se dispone es ruidoso, como salida de la red
neuronal se obtendrán valores con variaciones muy bruscas y comportamiento oscilatorio,
sin embargo la función de interpolacion deseada tı́picamente presenta una salida más
suavizada, promediando los datos de entrada afectados de ruido. Una limitación adicional
del procedimiento de interpolación exacta proviene de la necesidad de disponer de tantas
funciones de base como patrones en el conjunto de datos de entrenamiento, esto provoca
que para grandes conjuntos de datos sea muy costosa la evaluación de la asociacion entre
entradas y salidas.

4.3.2.3. Deftnición matemática de las redes neuronales de tipo RBF.


Las limitaciones anteriores dan lugar a la consideración y propuesta de una serie de
modificaciones al procedimiento de interpolación exacta, originando el modelo de redes
neuronales de base radial [Bishop 95], obteniéndose una función de interpolacion más
suave en la cual el número de funciones de base es determinado por la complejidad de la
asociación a realizar, esta serie de modificaciones es:
1. El número de funciones de base, M , no tiene por que ser igual al número de patrones
en el conjunto de datos de entrenamiento, N , siendo por lo general mucho menor.
2. Los centros de la funciones de base no están constreñidos a los vectores de entrada
de los patrones, sino que por el contrario la determinación de la posición adecuada
de los centros se considera como parte del proceso de entrenamiento.
3. En lugar de tener un parámetro común que determina la zona de influencia de cada
función base, σ, a cada función base se le asocia su propio parámetro, σj , cuyo valor
también se determina durante el proceso de entrenamiento.
4. Dentro del término de combinación lineal de la entradas se incluye un parámetro
asociado a la desviación. Este parámetro compensa la diferencia entre el valor medio
de los datos del conjunto de entrenamiento de las funciones base de activación y el
valor medio correspondiente de las salidas.
Realizando las modificaciones anteriores al procedimiento de interpolación exacta se
llega a la siguiente expresión para las redes neuronales de funciones de base radial:
M
Σ
yk(x) = wkjφj(x) + wk0. (4.84)
j=1
98 Tipologı́a de clasiftcadores.

Para el caso de la función de base Gaussiana se obtiene:


||x−μj ||2

− 2σ

φj (x) = e (4.85)
2
j

en donde x es el vector de entrada n-dimensional con elementos xi, y μj es el vector que


determina el centro de las funciones de base φj con elementos μji.
Por lo general topologı́as con más de una capa oculta no son consideradas a efectos
prácticos, Hartman en 1990 [Bishop 95] demostró que con la superposición lineal de
funciones de base Gaussiana localizadas, es posible obtener una aproximación a cualquier
función de forma universal, posteriormente Park en 1991 [Bishop 95] demostró que con
restricciones más suaves en la forma de las funciones también es posible conseguir de forma
universal aproximaciones a funciones, por otro lado Girosi [Bishop 95] demostró que las
redes de funciones de base radial tienen la propiedad de aproximación óptima, aunque
estas demostraciones no ofrecen procedimientos prácticos para la construcción de redes
neuronales, son de gran importancia como base teórica en la que las aplicaciones prácticas
conf´ıan.
Para el caso de matriz de covarianza arbitraria Σ j se obtiene:

φj (x) = e− 2(x−μj ) Σ j (x−μj )


1 J −1
(4.86)

Considerando que las matrices de covarianza Σj son simétricas, cada función de base
tiene d(d + 3)/2 parámetros independientes ajustables, en donde d es la dimensión del
espacio de entrada, en comparación con los d+1 parámetros independientes de las funciones
de base radial de la ecuación 4.85, en la práctica se busca un equilibrio entre usar un
número pequeño de funciones de base con muchos parámetros ajustables, muy flexibles, y
un número mayor de funciones de base menos flexibles.

4.3.2.4. Entrenamiento de la red neuronal.


Como se ha indicado con anterioridad, las funciones de base pueden ser interpretadas
de modo tal que los pesos de la primera capa, es decir los parámetros que controlan
las funciones de base, puedan ser determinados mediante técnicas de entrenamiento no
supervisadas. Lo que conduce a un proceso de entrenamiento basado en dos etapas, en la
primera las entradas del conjunto de entrenamiento, Xn, son utilizadas para determinar
los parámetros de las funciones de base: μj y σj , para las funciones Gausianas esféricas;
mientras que en la segunda etapa manteniendo las funciones de base se determinan los
pesos de la capa de salida.
Debido a que existe un número menor de funciones de base que patrones, por lo general
no será posible determinar un conjunto de pesos que consiga ajustar la salida de la función
de forma exacta a los patrones presentados [Freeman 93].
4.3 Clasiftcadores basados en redes neuronales. 99

Teniendo en cuenta que la salida de la red neuronal queda dada por la ecuación:
M
Σ
yk(x) = wkjφj(x) (4.87)
j=0
y(x) = Wφ (4.88)

en donde en la ecuación 4.87, φ0 , es la función de base extra que comprende el término


de desviación, la ecuación 4.88 representa la expresión anterior en notación matricial,
en donde W = (wkj) y φ = (φj); como las funciones de base se consideran fijas, la
determinación de los pesos de la capa de salida se realiza, como en el caso de las
redes neuronales de tipo MLP, minimizando la función de error elegida, para el caso de
clasificación es factible considerar la suma de errores cuadráticos, ecuación 4.89.

1 ΣΣ
E= (y k (xn) − (tnk))2 (4.89)
2 n k

en donde tkn es el valor objetivo de la salida de la unidad k cuando a la red se le presenta el


vector de entrada xn . La determinación de la solución se obtiene a través de las ecuaciones
lineales:

ΦJ ΦWJ = ΦJ T (4.90)

en donde (T)nk = tn yk (Φ)nj = φj(xn). El valor de los pesos de las neuronas de la red
viene dados por:

W J = Φ† T (4.91)

en donde Φ† representa la pseudo-inversa de Φ. En la práctica se utiliza la descomposición


por valores singulares para evitar matrices mal condicionadas.

4.3.2.5. Aplicación en clasiftcación


A diferencia de la clasificación por hiperplanos realizada con las redes neuronales de
tipo MLP, la clasificación obtenida con las redes neuronales de tipo RBF se basa en
funciones de kernel locales.
El objetivo de los clasificadores es modelar la probabilidad a posteriori p(x|Ck) para
cada una de las Ck clases consideradas siendo conocida la probabilidad a priori p(x k).|C
Aplicando el teorema de Bayes:
p(x|Ck)P (Ck)
P (Ck |x) = p(x)
(4.92)
p(x|Ck)P (Ck)
= Σ J J
(4.93)
kJ p(x|Ck )P (Ck )
10 Tipologı́a de clasiftcadores.
0

Figura 4.9: Comparación clasificación MLP vs RBF.


Que puede ser interpretado como una red de funciones de base con funciones de
normalización dada por:
p(x|Ck) (4.94)
φk(x) = Σ
J J
kJ p(x|C k )P (C k)
Siendo la capa oculta de conexión, la que enlaza dichas funciones con las salidas, a
través de los correspondientes pesos con valor P (Ck ). Las salidas de esta red representa
la aproximación a las probabilidades a posteriori.
Por lo general una única función de kernel por cada clase no suele producir buenos
resultados para la representación de las funciones de densidad de probabilidad de cada clase
p(x|Ck), por lo que se emplean mezclas que juntan varias funciones para modelizar cada
una de las funciones de densidad de probabilidad asociadas a cada clase. Con el objetivo de
aumentar la eficiencia computacional, reduciendo el número de parámetros ajustables en
el modelo, se opta por utilizar un conjunto de M funciones de base, etiquetadas con un
´ındice j, para representar todas las funciones de densidad condicional, dando lugar a:
M
Σ
p(x|Ck) = p(x|j)P (j|Ck ) (4.95)
j=1

Que sustitu´ıdo en las ecuaciones anteriores da a su vez lugar a:


M
Σ Σ
p(x) = p(x|Ck)P (C k) = p(x|j)P (j) (4.96)
k j=1
en donde se han definido las probabilidades a priori para las funciones de base:
Σ
P (j) = P (j|Ck)P (Ck) (4.97)
k

Por lo que considerando las probabilidades a posteriori, y sustituyendo las ecuaciones


4.96 y 4.97 en 4.92 se obtiene:
ΣM
P (C |x) = j=1 P (j|Ck)p(x|j)P (Ck ) P (j) = Σ w φ (x)
M
(4.98)
k ΣM kj j
j J =1 p(x|j J )P (j J )
P (j) j=1
4.3 Clasiftcadores basados en redes neuronales. 101

en donde en la ecuación 4.98 representa una red de funciones de bases, en la que la función
base de normalización está dada por:

φj (x) = ΣMp(x|j)P (j) = P (j|x) (4.99)


j J =1 p(x|j )P (j )
J J

y los pesos de la segunda capa son:


P (j|Ck)P (Ck)
wkj = = P (C k |j) (4.100)
P (j)
por lo que la activación de la funciones de base pueden ser interpretada como la
probabilidad a posterior de la presencia de las caracter´ısticas correspondientes en el espacio
de entrada, y los pesos pueden ser interpretados de igual forma como la pertenencia a cada
clase, dada la presencia de dichas caracter´ısticas.

4.3.2.6. Implementación del clasiftcador basado en red neuronal de tipo RBF.


En la implementación de los clasificadores basados en este tipo de red neuronal, se han
utilizado los siguientes parámetros:
Número de neuronas ocultas: Determinado por el algoritmo de aprendizaje a través
de un proceso iterativo que permite el crecimiento dinámico de la cantidad de
neuronas ocultas empleadas.
El algoritmo de entrenamiento inicialmente crea la red con un número reducido de
neuronas en la capa oculta, con cada iteración se ajustaran los pesos de las neuronas
y se guarda aquel vector de entrada que causa el menor error, se evalúa el error
global de la red para la iteración actual, si el error es superior al fijado se añade
una nueva neurona en la capa oculta utilizando como valores de partida los del vector
anteriormente guardado, a continuación se procede a repetir el proceso de
aprendizaje. El algoritmo finaliza cuando el error global presentado por la red es
inferior al error objetivo, o en la capa oculta se han alcanzado tantas neuronas como
vectores hay en el conjunto de entrenamiento.
Función de activación de las neuronas ocultas:

x = b(w̄ − p̄)
2
φ(x) = e−x (4.101)
Constante de extensión, b = 0.25 (Determina la zona de influencia de cada neurona19 .
Número de neuronas de salida: 3. Tantas como clases consideradas.
Como conclusión principal, tal y como puede extraerse del apartado 6.3, los
clasificadores basados en este tipo de redes neuronales presentan elevados porcentajes de
clasificación correcta, cercanos a los conseguidos con los clasificadores basados en redes de
tipo PNN, pero con una mejor capacidad de generalización, lo que les hace preferibles a
estos últimos.
19
El valor de esta constante se obtuvo tras un análisis previo en donde se utilizaron diferentes valores en el
intervalo [0.1 - 1], el mayor número de clasificaciones correctas se obtuvo para un valor de la constante de
amplitud de 0.25.
102 Tipologı́a de clasiftcadores.

4.3.3. Clasificador basado en red neuronal de tipo PNN.


4.3.3.1. Redes neuronales probabilı́sticas.
Las redes neuronales probabilı́sticas son métodos no paramétricos, basados en la
técnica de interpolación exacta [Bishop 95], en los que la clasificación se realiza asignando
la muestra candidata a aquella clase cuya probabilidad de observación es más elevada
[Ripley 96].

fk(x) = P (k|x) (4.102)


La topologı́a de una red neuronal de tipo PNN se muestra en la figura 4.7.

Figura 4.10: Arquitectura de una red neuronal tipo PNN.


La denominación de este tipo de redes neuronales se debe a Specht [Ripley 96], quien
acuñó este nombre para referirse a métodos en los que empleando la técnica de dejar
uno fuera como método de validación cruzada, empleaba las siguientes ecuaciones de
probabilidad para realizar la clasificación.
1 Σ
P̂j (x) = K(x − x i) (4.103)
nj i
En donde K(x − y) representa la función núcleo o kernel que expresa una medida de la
proximidad entre x e y, mientras que el sub´ındice [i] indica el grupo de entrenamiento i-
ésimo. La ecuación 4.103 puede ser interpretada como el promediado de las funciones
kernel centradas en el valor de representación de cada clase, lo cual da lugar a:
ˆ π P̂ (x) πk Σ K(x − xi)
j
=
kkπk j i i
P (k|x) = Σ
Σ
nk π[i]
(4.104)
=k
P̂ (x) n
[i]=k
K(x − x )
En caso de que las probabilidades a priori sean estimadas por:
[i

nk
]

P̂k = (4.105)
n
4.3 Clasiftcadores basados en redes neuronales. 103

La ecuación 4.104 se simplifica a:

ˆ( x) = [i]=k K(x − xi)


Σ
P k| (4.106)
i [i]
n K(x − xi

) Este tipo de redes neuronales se asemeja a las redes neuronales de tipo RBF, en que
ambas utilizan funciones de base radial en las neuronas de la capa oculta, como medio para
estimar la distancia entre un nuevo vector de entrada y los vectores patrones propuestos
durante la fase de entrenamiento. Sin embargo las redes neuronales probabil´ısticas se
diferencian de las RBF en que, las neuronas de la capa de salida suma las contribuciones
para cada clase produciendo un vector de probabilidades, el cual es procesado a través de
una función de transferencia de tipo competitivo, en la que la salida selecciona el valor
máximo de dichas probabilidades, asignando un 1 a dicha clase y un 0 a todas las demás. Por
otro lado, el algoritmo empleado en la fase de entrenamiento también es diferente,
ya que aunque en ambos casos queda encuadrado dentro de la clasificación de algoritmo
de entrenamiento supervisado en dos etapas, para el caso de redes neuronales PNN en
la primera etapa se crean tantas neuronas en la capa oculta como patrones se emplean en
el conjunto de entrenamiento, procedimiento derivado de la técnica de interpolación
exacta; en la segunda fase se procede a definir los pesos de las neuronas de la capa de
salida minimizando una función de error del tipo:
n
Σ
E= ||yi − ti|| (4.107)
i=1

4.3.3.2. Implementación del clasiftcador basado en red neuronal de tipo PNN.


En la implementación de los clasificadores basados en este tipo de red neuronal, se han
utilizado los siguientes parámetros:

1. Constante de extensión, b = 0.25.


2. Número de neuronas en la capa oculta = tantas como parejas vector de entrada -
clase a la que pertenece, tenga el conjunto de entrenamiento.
3. Número de neuronas en la capa de salida = 3. Tantas como clases consideradas.
Al igual que ocurre con la red RBF la capa oculta se construye a partir de neuronas de
base radial, durante la fase de aprendizaje se adquiere la localización de los vectores del
conjunto de entrenamiento, las neuronas de la capa de salida, tantas como clases
independientes se consideran, memorizan la asignación de las salidas de las funciones de
activación a cada una de las clases presentadas, la última parte de la capa de salida queda
formada por unidades de tipo competitivo, de forma tal que el vector de entrada presentado
se asigna a la neurona cuyo valor de activación sea más alto.
Como conclusión principal, tal y como puede extraerse del apartado 6.3, los
clasificadores basados en este tipo de redes neuronales son los que presentan mayores
porcentajes de clasificación correcta, aunque ası́ mismo presentan una menor capacidad
de generalización que los clasificadores basados en redes neuronales de tipo RBF.
104 Tipologı́a de clasiftcadores.

4.4. Clasificador bietapa basado en Modelo Oculto de


Markov y RBF.
4.4.1. Descripción Modelo Oculto de Markov.
Un Modelo Oculto de Markov (MOM)20 , es una representacion estadı́stica de la señal o
proceso observado, dentro de un marco doblemente estocástico, que consta de un proceso
de Markov de parámetros desconocidos y no observables, y un proceso observado cuyos
valores son dependientes estocásticamente de los estados ocultos [Rabiner 89]. Se asume
que la señal observada puede ser caracterizada como un proceso paramétrico aleatorio, y
que los parámetros del proceso estocástico pueden ser determinados o estimados de forma
precisa y bien definida.
Un proceso estocástico se llama
de Markov o cadena de Markov de
primer orden, si conocido el presente,
el futuro no depende del pasado; dada
una variable estocástica q(t − 1) la
probabilidad de transición en el instante
t se define como P (qt = σt |qt−1 = σt−1).
Una cadena de Markov se define
formalmente con la dupla (Q, A), donde
Q = 1, { 2, ..., N} son los N posibles
estados de la cadena y A = [aij]NxN es la
matriz de transición del modelo donde se
cumple:

0 ≤ aij ≤ 1 1 ≤ i, j ≤ N (4.108)
ΣN

aij = 1 1 ≤ i ≤ N (4.109) Figura 4.11: Representación Modelo Oculto de Markov.


j=1
Las probabilidades de transición y emisión dependen del estado actual y no del pasado.

P (qt = j|qt−1 = i, qt−2 = k, ...) = P (qt = j|qt−1 = i) = aij(t) (4.110)

Formalmente un Modelo Oculto de Markov discreto de primer orden se define por la


5- tupla λ = {Z, Q, A, B, π}. En donde:
Z = { V 1, V 2, ..., V m} . Es el alfabeto o conjunto discreto de M sı́mbolos. Los
sı́mbolos observados se corresponden con la salida fı́sica del sistema que se modela.
Q = 1,{ 2, ..., N}. Es el conjunto finito de N estados. Aunque por lo general los
estados están ocultos, para muchas aplicaciones prácticas a menudo existe algún
tipo de significación fı́sica asociada al estado o conjunto de estados del modelo.
En la figura 4.11 se representan por los c´ırculos S1 a S4.
20
En literatura inglesa se denomina “Hidden Markov Models (HMM)” o “Probabilistic functions of
Markov chains.”
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 10
5
A = [aij ]N xN . Es la matriz de probabilidades de transición de estados. Por lo general
los estados están interconectados de forma que un estado pueda ser alcanzado desde
cualquier otro (modelos ergódicos), sin embargo no es él único tipo de modelo, existen
otros tipos de modelos de interconexión en los que sólo se permiten evoluciones hacia
estados de ı́ndice superior, útiles para modelizar secuencias temporales.
En la figura 4.11 se representa por los parámetros a11 a a44 , al lado de las flechas
discontinuas que conectas los estados.
B = (bj (Qt ))N xM . Es la matriz de probabilidades de emisión de sı́mbolos.

bj (k) = P (vk, t|qt = Qj), 1≤ j≤N (4.111)


1≤ k ≤ M

En la figura 4.11 se representa por las flechas continuas B1(O) a B4(O).


π = (π1, π2, ..., πN ). Es el vector de probabilidades de estado inicial.

πi = P (q1 = Qi), 1 ≤ i ≤ N. (4.112)

Los parámetros de un MOM se expresan por: λ = {A, B, π }.


La primera cuestión en la definición de un MOM es decidir con qué se corresponden
los estados del modelo y cuántos estados han de considerarse.
Existen tres tipos de problemas básicos o canónicos asociados al diseño de los MOM
[Rabiner 89]:

1. Primer problema. Dados los parámetros del modelo, λ, calcular la probabilidad de


una secuencia de observaciones, O, en particular. Este problema se resuelve con el
algoritmo de “adelante-atrás”, véase apartado 4.4.2.2. Se puede interpretar también
como un ı́ndice de cómo el modelo se ajusta a la secuencia dada.
Un ejemplo de aplicación de este problema serı́a: dado un MOM con cinco estados,
N = 5, que representan respectivamente la pronunciacion de los números del uno
al cinco, y que ha sido entrenado con la secuencia O ={ J1J ,J 2J,J 3J ,J 4J,J 5J ,J 4J,J 2J} ,
T = 7, calcular la probabilidad con la que este modelo producirı́a la secuencia
inversa O = {J 2J ,J 4J ,J 5J ,J 4J ,J 3J ,J 2J ,J 1J }.

2. Segundo problema. Datos los parámetros del modelo, λ, encontrar la secuencia más
probable de estados ocultos, Q, que puedan haber generado una secuencia de salida
dada. Este problema se resuelve con el algoritmo de Viterbi [Forney 73]. Trata de
descubrir la parte oculta del modelo.
Siguiendo con el modelo del ejemplo anterior una aplicación de este problema serı́a
determinar la secuencia de estados que da lugar a la secuencia inversa.
106 Tipologı́a de clasiftcadores.

3. Tercer problema. Dada una secuencia de salida o un conjunto de tales secuencias, O,


encontrar los parámetros del modelo oculto de Markov, λ, que maximizan P (O| λ).
Este problema se resuelve con el algoritmo de Baum-Welch [Nabney 02]. A la
secuencia de observaciones usadas para ajustar los parámetros del modelo se la
denomina secuencia de entrenamiento.
Un ejemplo de la aplicación de la resolución de este problema serı́a la determinación
de los parámetros del modelo de los ejemplos anteriores a partir de la secuencia de
observaciones: O = {J 1J ,J 2J ,J 3J ,J 4J ,J 5J ,J 4J ,J 2J }.

Aunque la base teórica de los MOM fue establecida a finales de la década de los sesenta
y principio de los setenta [Baum 66], [Baum 70], [J. 75], no fue hasta dos décadas después
cuando, tras realizarse publicaciones de diversos tutoriales y desarrollo de aplicaciones
utilizando MOM en revistas de ingenier´ıa, empezaron a popularizarse y a utilizarse como
modelizadores de señal, sistemas de predicción, sistemas de reconocimiento e identificación,
clasificadores, etc., encontrándose su principal campo de aplicación en sistemas de
reconocimiento del habla [Rabiner 89], [Allen 77], [Cox 00], [Juang 91], [S.E.; 83].
Más próximas en el tiempo son la aplicación de los MOM en la identificación de
fuerzas en aplicaciones de teleoperación de sistemas robotizados [Herreo 98], ası́ como en la
identificación y caracterización de señales cerebrales [Chiappa 06], [Rezek 00], [Zhong 02],
siendo aplicados en el desarrollo de la tecnolog´ıa de Interfaz Cerebro Computador en la
identificación y clasificación de los patrones de señal electroencefalográfica asociados a
la imaginación de movimiento [Guger 99], [Neuper 01], [Obermaier 01a], [Muller 03a]. La
idea básica es la creación de modelos temporales de los ritmos μ y β que permitan la
identificación, aprendizaje y posterior reconocimiento de los cambios que se producen en
la señal cerebral cuando se realizan diferentes actividades cognitivas como la planificación
de movimientos, la realización de un cálculo matemático, u otro tipo de tarea mental
con elevada capacidad de discriminacion. En todos los casos, tal y como se ha indicado en
el apartado 1.1.2, la señal electroencefalográfica es filtrada, procesada para extraer sus
caracter´ısticas definitorias (potencia de determinadas bandas frecuenciales, coeficientes
adaptativos de modelos autorregresivos, etc.) las cuales son introducidas en los
correspondientes MOM’s. Por cada actividad mental se genera y entrena un MOM diferente,
comparándose posteriormente la probabilidad con la que nuevas secuencias de
observación serı́an generadas por cada uno de ellos, la nueva secuencia de observación se
asigna a aquel modelo, y por tanto actividad mental, cuya probabilidad de generación sea la
más alta. Los MOM muestran cierta mejora de clasificación sobre análisis de discriminación
lineal [Mardia 79].
Las principales ventajas de los MOM son dos:
1. Poseen una estructura matemática muy rica, de la que se desprende que puedan ser
usados en una gran cantidad de aplicaciones.
2. Los resultados prácticos obtenidos son muy próximos a los deseados.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 10
7
4.4.2. Solución a los problemas canónicos.
4.4.2.1. Solución al primer problema.
El objetivo es calcular la probabilidad de una secuencia de observaciones O = O1 , O2 ,
...,
{ OT , dado }un modelo λ. El modo más directo de efectuarlo es enumerando toda
posible secuencia de longitud T .21
Considerando una secuencia de estados Q = q { 1, q2, ..., qT} . La probabilidad de la
secuencia de observaciones O para la anterior secuencia de estados viene expresada por 22:
T
P (O|Q, λ) = P (Ot|qt, λ) (4.113)
t=1
Desarrollando la expresión anterior se obtiene:
P (O|Q, λ) = bq1 (O1) · bq2 (O2) · . . . · bqT (OT ) (4.114)
La probabilidad de la secuencia de estados Q, dado el modelo λ, se puede expresar como:
P (O|Q, λ) = πq1 aq1q2 aq2q3 . .. aqT−1qT (4.115)
La probabilidad conjunta de O y Q, es decir, de que O y Q ocurran simultáneamente es
el producto de las dos ecuaciones anteriores:

P (O, Q|λ) = P (O|Q, λ)P (Q|λ) (4.116)


Por lo que la probabilidad de O, dado el modelo λ, se obtiene sumando esta probabilidad
conjunta sobre todas las posibles secuencias de q posibles estados:
Σ
P (O|λ) = P (O|Q, λ)P (Q|λ) = . . .
∀Q

= πq1 bq1 (O1)aq1q2 bq2 (O2) . . . aqT−1qT bqT (OT ) (4.117)


q1,q2,...,qT

El cálculo de probabilidad utilizando este método implica 2T N T cálculos [Rabiner 89],


para cada t existen N posibles estados que se pueden alcanzar, en los ejemplos del
apartado anterior N = 5 y la longitud de la secuencia T = 7, por lo que hay N T posibles
secuencias de estados, y por cada secuencia 2T operaciones, siendo más exactos se necesitan
(2T − 1)N T multiplicaciones y N T −1 sumas, por lo que para la resolución del ejemplo
del primer problema del apartado anterior se necesitar´ıan (2 7 1)∗57 −
= 1,015,625

7
multiplicaciones y 5 1−= 78,124 sumas.
Puede comprobarse que el procedimiento directo, para cadenas de observaciones
obtenidas en aplicaciones prácticas23 excede la capacidad de computo de las computadoras
actuales, por lo que se hace necesario un algoritmo de cálculo más eficiente, el cual se
denomina “adelante-atrás”.
21
Notese que T es el número de observaciones.
22
Se asume la independencia de observaciones.
23
Por ejemplo en aplicaciones de reconocimiento de palabras habladas cada estado podrı́a modelar la
pronunciación de una letra, lo que da lugar a N = 27, con palabras de seis letras, T = 6, se obtendrı́an
4,65109 operaciones.
108 Tipologı́a de clasiftcadores.

4.4.2.2. Algoritmo “adelante-atrás”.


La idea de este algoritmo es que en cada instante de tiempo, t, existen sólo N posibles
estados en los que se puede encontrar el modelo, en lugar de los N T causados por la
anterior consideración implı́cita de la longitud de la cadena, véase figura 4.12.
Se define la variable hacia delante, αt(i) como:

αt(i) = P (O1, O 2 ,... , Ot, qt = Si|λ) (4.118)

Es la probabilidad de que se dé la secuencia de observaciones O hasta el instante t, y


que el sistema se encuentre en el estado Si, dado el modelo λ. Para evaluarla se utiliza el
siguiente procedimiento inductivo:
1. Inicialización:

α1(i) = πibi(O1) 1≤ i≤N (4.119)

2. Inducción:
ΣΣ
N Σ
αt+1(j) = αt(i)aij bj(Ot+1) 1 ≤ t ≤ T − 1; 1 ≤ j≤ N (4.120)
i=1

3. Terminación:
N
Σ
P (O|λ) = αT (i) (4.121)
i=1

El primer paso inicializa las probabilidades hacia delante como la probabilidad conjunta
de encontrarse el sistema en el estado Si y que se dé la observación O1 , véase figura 4.12.
El estado j puede alcanzarse en el instante t + 1 desde N posibles estados. Ya que αt(i) es
la probabilidad conjunta de que O1 . . . Ot sean observados, y que el estado en el instante
t sea Si, αt(i)aij es la probabilidad conjunta de que O1 . . . Ot sean observados, y de que el
estado Sj sea alcanzado a través del estado Si en el instante t + 1. Sumando este producto
para todos los posibles estados se obtendrá la probabilidad de estar en el estado
Sj en el instante t + 1 teniendo en cuenta las observaciones realizadas.
Conociendo el estado Sj , αt+1 se obtendrá teniendo en cuenta la observación Ot+1 , y
multiplicando su probabilidad por la suma de probabilidades αt(i)aij anteriores.
Por último, la probabilidad P (O|λ) se obtiene como la suma de las variables hacia
delante terminales, es decir αT (i).
En este caso, el número de cálculos necesarios es del orden de N 2 T . Siendo más exactos
son necesarias N (N +1)(T −1)+N multiplicaciones y N (N −1)(T −1) sumas [Rabiner 89],
para el caso del ejemplo anterior se tendr´ıan 5 · (5 + 1) · (7 − 1) + 5 = 185 multiplicaciones
y 5 · (5 − 1) · (7 − 1) sumas.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 10
9

Figura 4.12: Algoritmo “adelante- Figura 4.13: Algoritmo “adelante-


atras”. Procedimiento hacia delante. atrás”. Procedimiento hacia atrás.

Aunque en la solución del primer problema no se utilizan las variables hacia atrás, si
lo son en la solución del tercer problema. Por semejanza con la descripción realizada, su
explicación se realiza a continuación.
Se define la variable hacia atrás, βt (i) como:

βt(i) = P (Ot+1, O t+ 2 ,... , OT , qt = Si|λ) (4.122)


Es la probabilidad de que se de la secuencia parcial de observaciones desde el instante
t + 1 hasta el final, dado el estado Si en el instante t y el modelo λ. De modo análogo
al seguido para la evaluación de las variables hacia delante se emplea el siguiente
procedimiento inductivo:
1. Inicialización:

βT (i) = 1 1≤ i≤N (4.123)

2. Inducción:
N
Σ
βt (i) = aij bj (Ot+1 )βt+1 (j) t = T − 1, T − 2, . . . , 1; 1 ≤ i ≤ N (4.124)
j=1

El paso de inicialización arbitrariamente iguala βT (i) a uno. El paso de inducción tiene


en cuenta que para estar en el estado Si en el instante t, utilizando las observaciones
futuras, hay que considerar todos los posibles estados Sj en el instante t + 1, al igual que
las transiciones aij , ası́ como la observación Ot+1 en el estado Sj , véase figura 4.13.
110 Tipologı́a de clasiftcadores.

4.4.2.3. Solución al segundo problema.


La solución del segundo problema implica la definición de la función de optimización a
utilizar. Debido a la multiplicidad de criterios que pueden aplicarse, la solución no es única.
Una posible elección es la de maximizar la probabilidad de encontrarse en un determinado
estado en un instante t dada la secuencia de observaciones obtenida, o lo que es equivalente
a maximizar la probabilidad P (qt = Si O,| λ).
Este criterio de optimización individualizada, en la que no se tienen en cuenta los
estados anteriores,
puede llevar a obtener secuencias de estados que en la práctica no pueden darse debido
a que las probabilidades de transición entre ellos, aij , son nulas. Esto es ası́ debido a que
implı́citamente se busca el estado más probable en cada instante, sin tener en cuenta la
probabilidad de aparición de secuencias de estados.
Con la finalidad de evitar el inconveniente anterior, la solución a este problema
empleada con mayor frecuencia modifica el criterio de optimización, buscando aquella
secuencia de estados que maximiza:

P (Q|O, λ) ≡ P (Q, O|λ) (4.125)


El algoritmo utilizado para su búsqueda está basado en métodos de programación
dinámica, denominándose “algoritmo de Viterbi” [Forney 73]. Para encontrar la secuencia
de estados Q, que maximiza la probabilidad anterior, dada la secuencia de observaciones
O, se define previamente la variable:

δt (i) = maxq1 ,q2 ,...,qt−1 P (q1 q2 . . . qt = Si , O1 O2 . . . , Ot |λ) (4.126)


Siendo la probabilidad más alta a lo largo de una secuencia, en el instante t, teniendo en
cuenta las primeras t observaciones, y termina en el estado Si . Por inducción se tiene que:

δt+1(j) = [maxiδt(i)aij ]bj(Ot+1) (4.127)

Para poder recuperar la secuencia de estados, es necesario guardar el argumento que


maximiza la ecuación 4.127, para cada t y j, empleándose para tal fin la matriz Ψt(j). Los
pasos a realizar para encontrar la secuencia de estados es:
1. Inicialización:

δ1(i) = πibi(O1)
Ψ1(i) = 0 1≤ i ≤N (4.128)

2. Inducción:
Σ Σ
δ t(j) = max1≤i≤N (δt−1(i)aij) bj(O t) 2≤ t≤T (4.129)
Ψ t(j) = argmax1≤i≤N (δt−1(i)aij) 1≤ j≤N (4.130)
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 111

3. Terminación:

P ∗ = smax
˛¸x (δT (i)) (4.131)
1≤i≤N
qT∗ = argmax(δT (i)) (4.132)
s ˛¸ x
1≤i≤N

4. Obtención de la secuencia:

qt∗ = Ψt+1 (qt∗+1 ) t = T − 1, T − 2, . . . , 1 (4.133)

El algoritmo de Viterbi se muy semejante al “procedimiento hacia delante”, siendo la


principal diferencia el proceso de maximización que aparece en la ecuación 4.129 en lugar
de la suma que se produce en la ecuación 4.120

4.4.2.4. Solución al tercer problema.


No existe algoritmo conocido que halle anal´ıticamente el modelo que maximiza la
probabilidad de la secuencia observada. De hecho, dada cualquier secuencia finita de
observaciones como datos para el entrenamiento, no existe una manera óptima de estimar
los parámetros del modelo. Sin embargo se puede elegir un λ = (A, B, π) tal que P (O| λ)
alcanza un máximo local utilizando un procedimiento iterativo conocido como algoritmo
de Baum-Welch.24
El método se basa en un procedimiento de reestimación (actualización iterativa y
mejora) de los parámetros del modelo. Se define la variable:

εt(i, j) = P (qt = Si, qt+1 = Sj|O, λ) (4.134)


como la probabilidad de estar en el estado Si en el instante t, y en el Sj en el t + 1, dado el
modelo λ y la secuencia de observaciones O; desarrollándola se obtiene:
P (qt = Si , qt+1 = Sj |O, λ) αt (i)aij bj (Ot+1 )βt+1 (j)
tε (i, j) = = = ...
P (O|λ) P (O|λ)

αt (i)aij bj (Ot+1 )βt+1 (j) (4.135)


= ΣN ΣN
i=1 j=1 αt (i)aij bj (Ot+1 )βt+1 (j)

Tal y como se puede ver gráficamente en la figura 4.14.


Definiendo γt(i) como la probabilidad de estar en el estado Si en el instante t dada la
secuencia de observaciones y el modelo, se relaciona fácilmente con ε a través de la
ecuación:
N
Σ
γt(i) = εt(i, j) (4.136)
j=1
24
También conocido como algoritmo de Esperanza-Maximización.
112 Tipologı́a de clasiftcadores.

Figura 4.14: Representación de la obtención de εt (i, j).

Realizando el sumatorio de cada uno de los valores que representa la ecuación anterior
para todo instante t, se obtiene la esperanza del número de veces que va a ser alcanzado el
estado Si a lo largo del tiempo, o lo que es lo mismo, el número de transiciones hechas desde
el estado Si. De forma semejante, si se realiza el sumatorio de εt(i, j) para todo instante
t, lo que se obtiene es la esperanza de transiciones desde el estado Si al S j. Expresando lo
anterior formalmente:
T
Σ −1
γt (i) ≡ esperanza del número de transiciones desde Si
t=1

T
Σ −1
εt (i, j) ≡ esperanza del número de transiciones desde Si a Sj
t=1
Con las fórmulas anteriores se puede obtener un método para la reestimación de los
parámetros de un Modelo Oculto de Markov:

π̄i = γ1 (i) (4.137)


ΣT −1
εt(i, j) (4.138)
¯ = t=1
aij
Σ T − 1γt(i)
t=1
Σ T−1
b̄ (k) = t=1,Ot=νk γt(j) (4.139)
j ΣT −1
t=1 t
γ (j)
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 113

La ecuación 4.137 indica la esperanza del número de veces que se va a encontrar el


modelo en el estado Si en el instante inicial. La ecuación 4.138 es el cociente entre la
esperanza del número de transiciones desde el estado Si al Sj y la esperanza del número
de transiciones que se producen desde el estado Si . Por último la ecuación 4.139 es el
cociente entre la esperanza del número de veces que se encuentra en el estado Sj y se da
la observación νk , y la esperanza del número de instantes en el estado Sj .
Utilizando el modelo actual, λ = {A, B, π}, para calcular un modelo nuevo, λ̄ =
{Ā, B̄, π̄}, Baum y su equipo [Baum 66], [Baum 70], [J. 75], probaron que:
1. El modelo inicial, λ, define un punto crı́tico de la función de coste P (O| λ) en el caso
de que λ = λ̄.
2. El modelo λ̄, es mejor que el λ en el sentido en que P (O| λ̄) > P (O |λ), es decir, que
la probabilidad de producir la secuencia de observaciones sea mayor con λ̄ que con
λ.
De este modo, reiterando el proceso descrito por el sistema de ecuaciones 4.137 a 4.139,
se mejora el modelo ya que se aumenta la probabilidad de que la secuencia de observaciones
sea producida por el modelo, hasta llegar a un l´ımite. Al resultado as´ı obtenido se le
denomina estimación de máxima verosimilitud del Modelo Oculto de Markov.
Las ecuaciones de reestimación de parámetros se pueden obtener maximizando, a través
de métodos de optimización por restricciones, la función auxiliar de Baum en la variable
λ̄:
Σ
Q(λ, λ̄) = P (Q|O, λ)log[P (O, Q|λ̄)] (4.140)
Q

Al igual que con las funciones de reestimación, Baum y su equipo [J. 75], probaron que
la maximización de Q implica aumentar la verosimilitud:

maxλ̄ [Q(λ, λ̄)] ⇒ P (Q|λ̄) ≥ P (Q|λ) (4.141)


Las fórmula de reestimación se pueden interpretar como la implementación del método
estadı́stico de Esperanza - Maximización, EM. El paso de esperanza serı́a el cálculo de la
función Q, y el de modificación serı́a el de maximización.
En cada iteración se cumplen las restricciones estocásticas:
N
Σ
π̄i = 1 (4.142)
i=1
N
Σ
āij = 1 1≤i≤N (4.143)
j=1
M
Σ
b̄j (k) = 1 1≤j≤N (4.144)
k=1
114 Tipologı́a de clasiftcadores.

4.4.3. Densidades de observación continuas en MOM.


Hasta ahora las observaciones consideradas pertenecen a un conjunto finito de sı́mbolos
discretos, lo que permite utilizar una función de probabilidad discreta para describirlas.
Para el caso de que las observaciones sean señales continuas, y con la finalidad de evitar
pérdida de información, serı́a preciso modificar los modelos para que puedan trabajar con
densidades de probabilidad continuas.
La estructura de la función de densidad de probabilidad es una combinación lineal de
las funciones de densidad de probabilidad multidimensional:
M
Σ
bj (O) = cjmΩ(O, μjm, Ujm) 1≤ j≤N (4.145)
m=1

En donde O es el vector de observaciones, Ω es cualquier función de probabilidad


algorı́tmico-cóncava (por lo general una gaussiana) o con simetrı́a elı́ptica, con vector
de medias μjm y matriz de covarianzas Ujm, mientras que cjm son los coeficientes de
ponderación de las funciones Ω sujetos a las siguientes restricciones estocásticas:
M
Σ
cjm = 1 1≤ j≤N (4.146)
m=1
cjm ≥ 0 1 ≤ j ≤ N, 1 ≤ m ≤ M (4.147)
Asegurando que la función de densidad de probabilidad queda normalizada:
∫ ∞
bj(x)dx = 1 1≤ j≤N (4.148)
−∞
En este caso las fórmulas de reestimación son:
ΣT
c̄ = t=1 γt(j, k) (4.149)
jk ΣT Σ M
t=1 k=1 γt(j, k)
ΣT
t=1 γt(j, k)Ot
μ̄jk = ΣT (4.150)
t=1 γt (j, k)
ΣT
t=1 γt(j, k)(Ot − μjk)(Ot − μjk)
T
Ū = (4.151)
jk ΣT
t=1 γt(j, k)
αt(j)βt(j) cjkΩ(Ot, μjk, Ujk)
γt(j, k) = ΣN · ΣM (4.152)
j=1 t
α (j)βt (j) m=1 cjkΩ(O ,μ )
t jk ,U jk

En donde γt(j, k) es la probabilidad de estar en el estado Sj en el instante t, teniendo en


cuenta el k−ésimo componente de la combinación lineal, ver ecuación 4.152. Del mismo
modo que para el caso discreto, la ecuación de reestimación para cjk es la relación entre
la esperanza del número de veces que el modelo se encuentra en el estado Sj utilizando la
componente k−ésima de la combinación y la esperanza del número de veces que el sistema
se encuentra en el estado Sj. Para mujk se ponderan los sumandos del numerador de la
fórmula para cjk con el valor de observaciones, hayándose la esperanza de la observación
que proporciona el k−ésimo componente de la combinación. De igual modo se procede con
U jk.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 115

4.4.4. Tipos de Modelos Ocultos de Markov


En la modelización de secuencias temporales empleando Modelos Ocultos de Markov,
la consideración a priori de las posibles transiciones entre los estados del modelo simplifica
la resolución de los problemas canónicos anteriores, por ejemplo en aquellos casos donde la
sintaxis subyacente de generación de la cadena de observaciones provoque un determinado
orden de aparición de las mismas, dando lugar a que en la matriz de probabilidades de
transición de estados, determinados elementos sean nulos.
Dependiendo de las restricciones de transición entre estados, se presentan los diferentes
tipos de modelos que se describen a continuación:

4.4.4.1. Modelo ergódico.

El caso más común de modelo es el


ergódico, véase figura 4.15, en este modelo
cualquier estado puede ser alcanzado desde
cualquier otro; lo que se traduce en que todo
elemento aij de la matriz A es estrictamente
positivo.

4.4.4.2. Modelo izquierda-derecha.


Sin embargo se han encontrado otros
tipos de modelos que describen mejor
determinados tipos de señales temporales
que el modelo ergódico. Uno de ellos es el
denominado modelo izquierda-derecha. Tiene
la peculiaridad de que a medida que el tiempo
aumente, el modelo o bien se mantiene en el Figura 4.15: Esquema del modelo ergódico.
mismo estado, o bien el ´ındice del estado se incrementa. No se tiene en cuenta de manera
explı́cita el tiempo, pero tiene la ventaja de modelar bien señales cuyas propiedades
cambian con el tiempo. Sus coeficientes tiene como propiedad:

aij = 0 j<i (4.153)

Es decir, no se permiten transiciones a estados cuyos ´ındices sean menores que el actual.
El estado inicial tiene la propiedad:
.
= ƒ0 i = 1 (4.154)
π1i i = 1

En la figura 4.16 se muestra una representación gráfica de lo que serı́a este modelo
suponiendo que lo componen cuatro estados.
116 Tipologı́a de clasiftcadores.

Figura 4.16: Esquema del modelo izquierda-derecha.

Ası́ mismo es habitual imponer a este tipo de modelos un mayor número de restricciones
para evitar cambios grandes en los ´ındices del estado:

aij = 0 j > i + Δ, Δ ∈ N. (4.155)


En el caso del último estado se tendrá que:

aNN = 1 (4.156)
aNi = 0 i<N (4.157)

4.4.4.3. Modelo rutas paralelas.


Otro tipo de modelo derivado del anterior y bastante común es el de rutas paralelas,
véase figura 4.17. Se basa en la interconexión de modelos izquierda-derecha, presenta una
mayor flexibilidad cumpliendo las restricciones de los anteriores.

Figura 4.17: Esquema del modelo rutas paralelas.


4.4.4.4. Modelo de entrada salida.
Hasta el momento se ha tratado con modelos probabil´ısticos en los que en cada instante
de tiempo, t, se observa una variable, vt, generada desde un estado discreto oculto, qt, el
cual evoluciona según una dinámica de Markov; sin embargo existe una variante de
modelos probabil´ısticos derivados de los anteriores, denominados modelos de entrada-
salida 25 aplicados en clasificación, en donde para cada intervalo de tiempo, t ∈ 1, . . . , T ;
25
La denominación anglosajona de los mismos es “Input-Output Hidden Markov Model, IOHMM”
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 117

existe una variable yt que depende tanto del estado oculto en el que se encuentra el modelo,
qt, como de una variable de entrada observable, xt, [Bengio 96].
La variable de entrada representa el proceso observado, por lo que en la práctica
puede existir cierto preprocesamiento asociado al mismo; mientras que la variable de salida
representa las clases.
La distribución conjunta de estado y variables de salida condicionadas a las variables
de entrada vienen dada por:
T
P (q1:T , y1:T |x1:T ) = P (y1|x1, q1)P (q1|x1) P (yt|xt, qt)P (qt|xt, qt−1) (4.158)
t=2

Cuya representación gráfica se muestra en la figura 4.18 [Lauritzen 96].

Figura 4.18: Esquema del modelo entrada-salida.


Por lo tanto se comprueba que un Modelo Oculto de Markov de entrada-salida queda
definido por la probabilidad de transición de estado P (qt |xt , qt−1 ) y la probabilidad de
emisión P (yt |xt , qt ); siendo la principal diferencia con los MOM’s tradicionales el vincular
funcionalmente estas funciones de probabilidad con la variable de entrada xt, para lo cual
se puede utilizar técnicas de optimización no lineal [Lauzon; 01], en donde la función de
distribución de probabilidad de la transición de estado dependiente de la variable de
entrada xt se modela como:
ez
i

p(qt = i|xt, qt−1 = j) = Σ zk (4.159)


ke

En donde:
W
Σ U
.Σ Σ
zk = wkjf ujixit (4.160)
j=0 i=0

Siendo f una función no lineal.


118 Tipologı́a de clasiftcadores.

La distribución de la función probabilidad de emisión p(yt = c| xt , qt = j) se modela


de forma semejante, obsérvese el paralelismo con las redes neuronales tipo perceptrón
multicapa [Bishop 95]. El denominador en la ecuación 4.159 asegura que la función de
distribución queda correctamente normalizada.
Este modelo permite especificar para cada instante de tiempo, t, la clase yt. De
forma alternativa, es posible asignar una sola etiqueta a todas aquellas secuencias de
entrenamiento que, siendo de tamaño T , provienen de una misma clase.26

4.4.4.5. Clasiftcación continua utilizando Modelos Ocultos de Markov de


entrada-salida.
En este tipo de modelo, por cada secuencia de entrada, xt , de duración T , se desea
obtener la clase o patrón al que más se aproxima; por lo que las secuencias utilizadas
durante el proceso de entrenamiento llevan asociada información de la clase a la que
pertenecen, formando el binomio: (xt , yt ), por lo que la función de probabilidad objetivo
en forma logar´ıtmica es:
M
m m
L(λ) = log 1:T |x1:T , λ) (4.161)
P (y m=1
En donde λ representa a los parámetros del modelo, y m representa la m− ésima
secuencia del conjunto de entrenamiento.
Una vez fijados los parámetros del modelo λ, se asignará una nueva secuencia
entrenamiento a la clase c∗ de modo tal que:

c∗ = argmaxC P (y1 = C,... , yT = C|λ) (4.162)

Una aproximación común para maximizar la función de probabilidad, considerando


los parámetros del modelo λ, es mediante el algoritmo de Esperanza - Maximización
(EM) [McLachlan 97][Nabney 02]. Sin embargo el paso de Maximización no puede
ser llevado a cabo en forma cerrada debido a las limitaciones de las funciones de
densidad de probabilidad asociadas a las transiciones y emisiones, por lo que se utiliza
una variante de dicho algoritmo, denominada Algoritmo de Expectación-Maximización
Generalizado,GEM, [McLachlan 97], en el que para la iteración i− ésima se realizan los
siguientes pasos:

1. Paso de Expectación. Resuelve la ecuación:

Q(λ, λi−1) = E(logP (q1:T , y1:T |x1:T , λ))P (q1:T ,y1:T |x1:T ,λi−1) (4.163)
26
Todas aquellas secuencias menores de T son separadas bien para su descarte final o bien para formar
una secuencia de tamaño apropiado.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 119

2. Paso de Maximización. Modifica el valor de los parámetros del modelo λ de modo


que:

Q(λi, λi−1) ≥ Q(λ, λi−1) (4.164)

De este modo se asegura que la semejanza no decrezca en cada iteración y que la


secuencia de modelos {λi } converge a un mı́nimo local λ∗ .
La ecuación 4.163 puede expresarse como:
T
Σ
Q(λ, λ i−1 )= E(log(P (yt|xt, qt, λ)))P (q 1: ,y1: |x1:T ,λi−1) +
t=1 T T

ΣT
+ E(log(P (qt |xt , qt−1 , λ)))P (qt−1:T |x1:T ,y1:T ,λi−1) +
t=2
+E(log(P (q1|x1, λ)))P (q1 |x1:T ,y1:T ,λi−1) (4.165)

En donde se observa que el paso de Expectación necesita conocer P (qt|x1:T , y1:T , λi−1 ) y P
| , y1:T , λi−1), siendo ambas probabilidades marginales una forma de inferencia del
(qt−1:T x1:T
modelo, la cual se puede obtener a través de las fórmulas 4.166, [Bengio 96]

Recursión hacia delante.

P (qt|x1:t, y1:t) ∝ P (qt, yt|x1:t, y1:t−1) =


= P (yt|x1:t, qt, y1:t−1)P (qt|x1:t, y1:t−1) =
Σ
= P (yt|x1:t, qt) P (qt−1:t|x1:t, y1:t−1) =
qt−1
Σ
= P (yt|xt, qt) P (qt|x1:t, qt−1, y1:t−1)P (qt−1|x1:t, y(1 : t − 1)) =
qt−1
Σ
= P (yt|xt, qt) P (qt|xt, qt−1)P (qt−1|x1:t−1, y(1 : t − 1)) (4.166)
qt−1

En donde la constante de proporcionalidad se determina por normalización.

Recursión hacia atrás. Calcula p(qt , y1:T |x1:T ) en función de p(qt+1 |x1:T , y1:T )
Σ
P (qt|x1:t, y1:t) = P (qt:t+1|x1:t, y1:t) =
qt+1
Σ
= P (qt|x1:t, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) =
qt+1
Σ
= P (qt|x1:t+1, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) (4.167)
qt+1
120 Tipologı́a de clasiftcadores.

El término P (qt |x1:t+1 , qt+1 , y1:t ) puede calcularse como:


P (qt|x1:t+1, qt+1, y1:t) ∝ P (qt:t+1|x1:t+1, y1:t) =
= P (qt+1|x1:t+1, qt, y1:t)P (qt|x1:t+1, y(1 : t)) =
= P (qt+1|xt+1, qt)P (qt|x1:t, y(1 : t)) (4.168)
En donde como en el caso anterior la constante de proporcionalidad se determina
por normalización.
La actualización de los parámetros del modelo se realiza utilizando el método de
descenso del gradiente [Bishop 95][Nabney 02]

i−1
λi = λi−1 α δQ(λ, λ ) (4.169)
.
+ . i−1
δλ λ=λ
En donde α es el parámetro de entrenamiento, que puede ser determinado utilizando
un conjunto de validación. Las derivadas de logP (yt |qt , xt , λ), logP (qt |qt−1 , xt , λ) y
logp(q1 |x1 , λ) con respecto a los parámetros del modelo se calculan empleando la regla
de la cadena (algoritmo de propagación hacia atrás [Rabiner 89]).
El procedimiento de entrenamiento descrito obliga a especificar la clase a la que
pertenece cada una de las secuencias de entrada, optimizando la función objetivo:
M

log P (y1m = c m ,... , yTm = cm|xm


1:T, λ) (4.170)
m=1

En donde cM es la etiqueta de clase correcta. Durante la fase de test se calcula P (y1 = c, . . .


, yT = c x1:T , λ)
| para cada una de las clases, asignándose la secuencia x1:T a aquella clase
que presente el valor de probabilidad más alto. Idealmente la distancia entre la
probabilidad de clasificar la secuencia en la clase correcta y clasificaciones incorrectas se
incrementa en las iteraciones realizadas durante la fase de entrenamiento. La probabilidad
de asignación incorrecta viene dada por:
M C
Σ
log P (y1m = i m ,... , yTm = im|xm1:T, λ) (4.171)
m=1 im=1,imƒ=cm
Sin embargo, cuando se especifica la misma clase para varias secuencias de entrada se
fuerza a que los recursos del modelo sean empleados para aprender esta caracter´ıstica, con
la consecuencia de que el modelo se centra en aprender la predicción de la misma
clase para cada intervalo de tiempo t, en lugar de centrarse en la clase que se predice. Para
solucionar este problema o bien se reconsidera la función objetivo a maximizar, una
alternativaMser´ıa:
m m m m m
P (y1 = c , . . . , yT = c |x1:T , λ)
log ΣC (4.172)
m=1 im=1 P (y1m = i m ,... , yTm = im|xm
1:T , λ)
o bien se utiliza el procedimiento de entrenamiento mostrado a continuación.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 121

4.4.4.6. Clasiftcación de punto ftnal utilizando Modelos Ocultos de Markov


de entrada-salida.
Para evitar el problema de entrenamiento del método de clasificación continua,
existe un procedimiento alternativo en el que se asigna una misma clase a un todo un
conjunto de secuencias de entrenamiento que provengan del mismo patrón. El algoritmo de
entrenamiento concatena las secuencias propuestas asignando una única etiqueta de salida
de tal modo que t ƒ= T lo que implica que P (yt| x1:T ) = P (y|t x1:t), o lo que es lo mismo,
información futura de la secuencia de entrada no es considerada en la determinación de la
probabilidad a posteriori de la clase. En este caso, el entrenamiento maximiza la siguiente
función de semejanza logarı́tmica:
M

L(λ) = log P (ym|xmT 1:T , λ) (4.173)


m=1

Al igual que en el caso anterior, una vez entrenado el modelo, una nueva secuencia
de entrada puede ser aplicada con la finalidad de encontrar la clase a la que con mayor
probabilidad pertenecerı́a.
De forma análoga al procedimiento anterior se utiliza el algoritmo GEM en la
determinación de los parámetros del modelo.

1. Paso de Expectación. Resuelve la ecuación:

Q(λ, λi−1 ) = E(logP (q1:T , yT |x1:T , λ))P (q 1:T |x


1:T T ,y ,λi−1 ) (4.174)

2. Paso de Maximización. Modifica el valor de los parámetros del modelo λ de modo


que:

Q(λi, λi−1) ≥ Q(λ, λi−1) (4.175)

La ecuación 4.175 puede expresarse como:

Q(λ, λi−1) = E(log(P (yT |xT , qT , λ)))P (q T |x1:T ,yT ,λi−1) +


ΣT
+ E(log(P (qT |qT −1 , xT , λ)))P (qt−1:T |x1:T ,yT ,λi−1) +
t=2
+E(log(P (q1|x1, λ)))P (q1 |x1:T ,yT ,λi−1) (4.176)
En donde se observa que el paso de Expectación necesita conocer
P (qt |x1:T , yT , λi−1) y P (qt−1:T x1:T| , y1:T , λi−1), las cuales pueden ser calculadas como
sigue:

P (qt|x1:T , yT ) ∝ P (qT , yt|x1:T ) =


Σ
= P (yT |xT , qT ) P (qT |xT , qT −1)P (qT −1|x1:T −1) (4.177)
qT−1
122 Tipologı́a de clasiftcadores.

En donde P (qt|x1:t), (t< T ) se obtiene la siguiente iteracion hacia delante:


Σ
P (qt|x1:t) = P (qt|xt, qt−1)P (qt−1|x1:t−1) (4.178)
qt−1

Mientras que P (qt |x1:T , yT se obtiene a través de la iteración hacia atrás:


Σ
P (qt|x1:T , yT ) = P (qT |x1:T , qt+1yT )P (qt+1|x1:T −1, yT ) =
qT−1
Σ
= P (qt|x1:t+1, qt+1)P (qt+1|x1:T , yT ) (4.179)
qt+1
En donde:
P (qt|x1:T +1, qt+1) ∝ P (qt:t+1|x1:t+1) =
= P (qt+1|xt, qt)P (qt|x1:t) (4.180)

4.4.5. Consideraciones prácticas en la implementación de Modelos


Ocultos de Markov.
En las secciones anteriores se ha considerado tanto la teorı́a básica como distintas
variaciones en la estructura del Modelo Oculto de Markov. En esta sección se describe
brevemente los problemas prácticos más importantes a resolver en la implementación de
Modelos Ocultos de Markov, como son: el escalado, la consideración de múltiples secuencias
de observación, la estimación de los parámetros iniciales del modelo, el efecto de secuencias
de datos insuficientes, o la elección del tipo de modelo. Estos problemas se han tenido en
cuenta en la toolbox de Matlab utilizada en la realización de los experimentos, véase
apartado 5.6.4.

4.4.5.1. Escalado.
Considerando las fórmulas de reestimación se observa que son sumatorios que contienen
términos de la forma:
t−1 t

aqs qs+1 bqs (Os )


s=1 s=1
Ya que tanto a como b son términos menores a 1, se comprueba que cuando t alcanza
valores altos, por ejemplo 10 o más, cada término α tiende exponencialmente a cero; con
cadenas de longitud suficiente el cálculo de αt (i) llega a exceder el rango de precisión
de cualquier computadora, incluso empleando doble precisión, de lo que se deduce que
la única forma razonable de realizar el calculo de los parámetros del modelo implique la
incorporación de un proceso de reescalado.
El método básico de escalado consiste en multiplicar αt (i) por un coeficiente de escala
independiente de i, es decir que sólo dependa de t, con el objetivo de mantener el valor
escalado de αt (i) dentro del rango dinámico de cálculo de la computadora para 1 ≤ t ≤ T .
Procedimiento semejante se realiza con los coeficientes βt(i).
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 12
3
4.4.5.2. Múltiples secuencias de observación.
En el caso de modelos izquierda-derecha es preciso utilizar más de una secuencia de
observación en la estimación de los parámetros debido a las restricciones en ellos impuestas,
ya que la naturaleza transitoria de los estados dentro del modelo sólo permite un número
limitado de observaciones.
Denominando el conjunto de las K secuencias observadas como:
O = [O(1), O (2 ) ,... , O(k)] (4.181)
Y asumiendo que cada secuencia de observación es independiente del resto de secuencias,
el objetivo es ajustar los parámetros del modelo λ que maximicen:
K K

P (O|λ) = P (O(k)|λ) = Pk (4.182)


k=1 k=1
Como las fórmulas de reestimación se basan en la frecuencia de ocurrencia de los
diferentes eventos, las fórmulas de reestimación con múltiples secuencias de observación
se modifican añadiendo juntas las frecuencias de ocurrencia individual de cada secuencia,
obteniéndose:
ΣK 1 ΣTk−1 k (k)
k=1 Pk t=1 Σ t
α (i)aijbj(Ot+1 )βt+1
k (j)
āij = ΣK 1 Tk−1 k k
α (i)β (j) (4.183)
k=1 P t=1 t t
ΣK 1 ΣTk−1 k

¯b (l) = k=1 Pk t=1,Ot=xt αtk(j)βkt (j)


(4.184)
j ΣKk=1 P1k ΣTkt=1
−1
αkt(j)βkt (j)
No siendo preciso reestimar πi ya que:
π1 = 1, πi = 0,i ƒ= 1 (4.185)

4.4.5.3. Estimación de los parámetros iniciales.


Desde un punto de vista teórico, las ecuaciones de reestimación proporcionan valores
para los parámetros del modelo que corresponden con un máximo local de la función de
semejanza; por lo que es importante elegir los parámetros iniciales de modo tal que este
máximo local coincida con el máximo global.
Por regla general no existe un método directo, sin embargo la experiencia demuestra
que tanto inicialización aleatoria (sujeta a las restricciones estocásticas, como a que los
valores iniciales sean distintos de cero) como estimaciones iniciales uniformes de π y A
son válidas para dar reestimaciones útiles de dichos parámetros en la gran mayorı́a de las
aplicaciones. Sin embargo para los parámetros asociados a estimación de observaciones B
una buena estimación inicial es importante para el caso de sı́mbolos discretos y esencial
en el caso de observaciones continuas. Estas estimaciones iniciales se pueden conseguir
mediante: segmentación manual de secuencias de observación en estados que promedian
observaciones entre los mimos, segmentación y promediado de observaciones a través de
métodos de que maximicen la semejanza, métodos de programación dinámica como k-
means y clustering.
124 Tipologı́a de clasiftcadores.

4.4.5.4. El efecto de datos de entrenamiento insuftcientes.


Otro problema asociado con el entrenamiento de MOM’s, vı́a métodos de reestimación
de parámetros, es que la secuencia de observaciones empleada es finita, por lo que a menudo
suele haber un número insuficiente de ocurrencias para los diferentes eventos del modelo,
[Jelinek 80], [Rabiner 89].
Una solución podrı́a ser aumentar el tamaño del conjunto de las secuencias de
observación, lo cual no siempre es posible. Otra solución serı́a reducir el tamaño del
modelo, considerando bien menos estados, bien menos sı́mbolos observables por estado, o
bien añadiendo restricciones adicionales; aunque lo anterior siempre es posible a menudo
existen consideraciones fı́sicas que fundamentan la elección del tamaño del modelo. Una
tercera solución es interpolar el conjunto de estimación de parámetros de un modelo con
otro conjunto de parámetros de un modelo para el cual existe una cantidad adecuada de
datos de entrenamiento[Jelinek 80]. La idea es diseñar simultáneamente ambos modelos,
de modo que existan suficientes datos para estimar los parámetros del modelo menor e
interpolar las estimaciones de parámetros de los dos modelos.

λ̄ = sλ + (1 − s)λJ (4.186)

En donde λ representa los parámetros del modelo completo, λJ representa al modelo


reducido, y s es el coeficiente de ponderación entre ambos modelos, de este modo si se
dispone de un número elevado de secuencias de entrenamiento s → 1, mientras que si por
el contrario el número es reducido s → 0 [Jelinek 80]

4.4.5.5. Elección del modelo.


Uno de los puntos más importantes en la implementación de MOM’s es la elección de
la arquitectura del modelo:

Tamaño: número de estados que se consideran.

Tipo: ergódico, izquierda-derecha, rutas paralelas, entrada-salida, etc.

Conjunto de sı́mbolos de observación: discreto o continuo; funciones de modelización


simples o mezcla de múltiples F .

Elección de la parametrización de las funciones de observación.

Desafortunadamente no existe una única solución o metó do que de forma sencilla y


teóricamente correcta indique como se han de realizar estas elecciones. En la mayorı́a de los
casos dependerán tanto del tipo de señal que se modele, ası́ como del ámbito del problema;
en algunas aplicaciones el tamaño del modelo, aún siendo oculto, puede representar estados
con cierta significación fı́sica; en otros casos la consideración temporal de la señal puede
dar lugar a que ciertas topologı́as sean más adecuadas que otras, al igual que ocurre con
la elección de las funciones y parámetros asociados a la modelización de las observaciones.
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 12
5
4.4.6. Descripción del algoritmo de clasificación bietapa.
En los apartados anteriores se ha descrito la base teórica y consideraciones prácticas
asociadas a la aplicación de los Modelos Ocultos de Markov en el estudio de secuencias
temporales.
Aunque dichas técnicas has sido aplicadas con éxito en el área de reconocimiento del
habla mediante patrones temporales, su aplicación en la tecnologı́a de Interfaz Cerebro
Computador no es inmediata, debido a las caracter´ısticas intr´ınsecas que diferencian la
señal de voz de la señal electroencefalográfica, las cuales dan lugar a que, para su
caracterización, se prefieran patrones frecuenciales a los temporales.
Por tal motivo en esta tesis se propone un nuevo clasificador que aune la capacidad de
identificación y reconocimiento de las redes neuronales de tipo RBF, descrita en el
apartado 4.3.2, con la capacidad de modelización de secuencias propia de los Modelos
Ocultos de Markov.
La figura 4.19 representa el diagrama de bloques del clasificador propuesto. En él
se puede observar como, la clasificación de la señal electroencefalográfica introducida,
proviene de evaluar la probabilidad con la cual diferentes modelos ocultos de Markov
generar´ıan la secuencia de asignaciones, proporcionada por la red neuronal, asociada a la
señal electroencefalográfica.
Los modelos ocultos de Markov, tantos como actividades mentales entre las que
se quiere discriminar, son previamente entrenados con secuencias de asignaciones
provenientes de dichas actividades cognitivas. La secuencia de asignaciones son
proporcionadas por una red neuronal, la cual recibe datos de señal tras ser preprocesados,
normalizados y extraı́da la combinación de caracterı́sticas de la señal, tal y como se expone
en los subapartados siguientes.

4.4.6.1. Entrenamiento de la red neuronal.


La red neuronal considerada es de tipo RBF, Función de Base Radial. Esta categorı́a de
redes neuronales se caracterizan por su capacidad de interpolación, ası́ como por aprender
la región del espacio de entrada en la que se presentan las muestras a aprender, véase el
apartado 4.3.2.4. La función de activación utilizada tiene la siguiente expresion:

φ(x) = e−(x ); x = (wp − pp)sc


2
(4.187)

La figura 4.20 muestra la arquitectura de red neuronal empleada.


Las neuronas de la capa oculta, durante la fase de entrenamiento, se encargan de
aprender la localización de los vectores de entrada; mientras que en la fase de utilización,
ante la presentación de un nuevo vector de entrada, calcula la distancia entre éste y las
localizaciones de posiciones aprendidas, los resultados de las funciones de activación de las
neuronas más cercanas al vector propuesto serán más altos a los mostrados por neuronas
más alejadas, el parámetro sc controla la amplitud de la zona de influencia de cada neurona.
126 Tipologı́a de clasiftcadores.

Figura 4.19: Algoritmo de clasificación bietapa.

De estudios previos se concluye que este tipo de red neuronal presenta un mejor
comportamiento que otros tipos de redes neuronales como por ejemplo MLP o PNN
[Mart´ınez 08].
Para el proceso de aprendizaje se consideran vectores de caracter´ısticas provenientes
de la señal EEG, capturada cuando el usuario realiza una de las diferentes actividades
mentales entre las que se quiere discriminar. De toda la población de caracterı́sticas
disponible por experimento, el 75 % se emplea para formar el conjunto de entrenamiento,
mientras que el 25 % restante se emplea para el conjunto de validación. Tras la
determinación de los conjuntos de aprendizaje y validación se obtienen las constantes
que permiten definir la normalización de los datos de entrada, posteriormente se obtiene
una matriz de transformación con objeto de reducir la dimensión del espacio de entrada de
la red neuronal [Martı́nez 07] [Martı́nez 08], dicha matriz permite proyectar los vectores de
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 127

Figura 4.20: Arquitectura de la red neuronal RBF.

caracterı́sticas en la dirección de los ejes sobre los que mejor se discriminan las actividades
cognitivas consideradas. Esta matriz de proyección se calcula de modo tal que el 90 % de
la variabilidad de las caracter´ısticas se mantenga, el 10 % restante de la variabilidad se
atribuye a ruido.
El proceso de entrenamiento permite el crecimiento dinámico del número de neuronas
de entrada que conforman la red neuronal de modo que se minimice el efecto de sobre-
aprendizaje, en la etapa de salida se utilizan tantas neuronas como actividades cognitivas a
discriminar. Por lo que los parámetros definitorios de la red neuronal y su proceso de
aprendizaje son: sc (define la zona de influencia de cada neurona de la red), el número
de actividades cognitivas a discriminar, y el error objetivo de entrenamiento (goal). El
bloque asignador que sigue a la red neuronal en la figura 4.19, se encarga de evaluar las
componentes del vector de salida de la red, detectar el que es mayor y si su valor es superior
a un determinado nivel de umbral δ, asignar la señal recibida al orden del componente
mayor del vector; si por el contrario resulta que ninguna de las componentes supera el valor
de umbral, la señal introducida no será asignada a ninguna de las actividades propuestas.
Una vez entrenada la red neuronal, cuando se introduce un vector de caracter´ısticas nuevo,
la actividad cognitiva que haya presentado muestras de aprendizaje más próximas al vector
de entrada presentado tendrá un nivel de activación más alto, y la salida correspondiente
tendrá un valor mayor al de las otras actividades mentales, véase fig.4.21.

4.4.6.2. Entrenamiento de los Modelos Ocultos de Markov.


Para el entrenamiento de los modelos ocultos de Markov se vuelven a emplear las
muestras de señal EEG tal y como se muestra en la figura 4.22.
Para cada una de las actividades cognitivas se procede a entrenar un modelo con las
siguientes caracter´ısticas:
Número de estados ocultos: 4
Número de objetos diferentes observables: 4
128 Tipologı́a de clasiftcadores.

Figura 4.21: Entrenamiento de la red neuronal RBF.

Figura 4.22: Entrenamiento de los MOM’s.

Para el entrenamiento se utilizan cadenas de nueve elementos de longitud. En un


experimento previo con muestras sintéticas se concluyó que la mayor tasa de clasificaciones
correctamente identificadas se consegu´ıa con cadenas de longitud de nueve elementos
para la arquitectura del modelo propuesto. Tras el entrenamiento las probabilidades de
transición entre estados y de observación de los objetos quedan definidas. Mediante el
algoritmo de Viterbi es posible determinar con que probabilidad una secuencia es
proporcionada por un modelo.

4.4.6.3. Empleo del clasiftcador bietapa.


La implementación del algoritmo de clasificación descrito en esta sección se describe
en el apartado 5.6.4, a la vez que los resultados obtenidos de su utilización por varios
voluntarios se presentan en el apartado 6.4, la conclusión más significativa que se obtiene
en dicho apartado es que la capacidad de aprendizaje que se obtiene con este clasificador es
superior a la obtenida con un clasificador basado en redes neuronales de tipo RBF, aunque
con el tamaño del conjunto de datos utilizado para el aprendizaje el clasificador tiende al
sobre-aprendizaje de dicho conjunto, por lo que su capacidad de generalización no es todo
lo óptima que cabrı́a esperar atendiendo a los resultados de la fase de aprendizaje.
4.5 Clasiftcador basado en Máquina de Soporte de Vectores. 129

4.5. Clasificador basado en Máquina de Soporte de


Vectores.
4.5.1. Introducción a las Máquinas de Soporte de Vectores.
Bajo la denominación de Máquinas de Soporte de Vectores, MSV27 , se engloba
a un conjunto de métodos de aprendizaje supervisado, pertenecientes a la familia de
clasificadores lineales generalizados, aplicables tanto en problemas de clasificación como
de regresión [Cristianini 05b], [Burges 98], [Ivanciuc 07].
Su estructura se basa en una red estática de núcleos,28 los cuales operan sobre vectores
de caracterı́sticas que han sido transformados a un espacio de dimensión mayor a la del
espacio de caracter´ısticas original [Cristianini 05a], [Gunn 98], [Gunn 03].
Las MSV’s se emplean tanto en aplicaciones de clasificación como en regresión, su
caracterı́stica más importante es su buena capacidad de generalización, basada en la
determinación del hiperplano que da lugar a la máxima distancia de separación entre
los vectores transformados [Cristianini 05b],[Castro 03]. Esta distancia de separación se
obtiene mediante la construcción de dos hiperplanos paralelos al hiperplano de separación
óptima, localizados a ambos lados del mismo y que contengan al menos a uno de los
vectores transformados, denominado vector soporte, véase fig.4.23; se asume que cuanto
mayor sea esta distancia, mejor será la capacidad de generalización del clasificador
[Burges 98].

    Espacio de caracteris´ticas
Espacio de caracteristic´as original transformado

m<n
n
m
R
X2
R U
2 H0
Hiperplano de
H1
H2 separacio´n
óptima

Margen
X1

U1

Figura 4.23: Funcionamiento MSV.

Las operaciones que realiza una MSV en clasificación son [Gunn 98] [Cristianini 05a]:

Transformación de los datos o vectores de caracterı́sticas de entrada a un espacio de


mayor dimensión a través de una función Φ.
27
En inglés la denominación es “Support Vector Machine (SVM).”
28
También denominados como “Kernels”
130 Tipologı́a de clasiftcadores.

El objetivo es formular el problema de modo que el procedimiento de clasificación


transforme impl´ıcitamente los datos operando con funciones kernel, K.

Cálculo del hiperplano óptimo que maximiza la distancia entre las clases
consideradas. Si los datos son linealmente separables, el hiperplano obtenido
maximiza el margen de separación, a la vez que minimiza la función de penalización
que considera las clasificaciones incorrectas.

Las MSV’s representan la extensión a modelos no lineales del algoritmo desarrollado


en 1963 por Vapnik y Lerner [Vapnik 63], basado en la teor´ıa de aprendizaje estad´ıstico de
Reconocimiento de Patrones, utilizando la dimensión de Vapnik-Chervonenkis,(V C),
como evaluador de la complejidad de dicho algoritmo [Chervonenkis 74].
En un corto intervalo de tiempo se han desarrollado numerosas aplicaciones basadas
en MSV en campos como [Ivanciuc 07]:
Farmacologı́a: empleándose para el diseño de medicamentos en la discriminación
entre inhibidores y desinhibidores, o en la predicción de propiedades biológicas, fı́sicas
y qu´ımicas de los mismos.
Quimiometrı́a: en la optimización de separación cromatográfica, o en la predicción
de la concentración de compuestos a través de muestras de análisis espectral.
En sensores: aplicándose a la predicción cualitativa y cuantitativa de sus medidas.
Ingenierı́a quı́mica: usándose en la modelización y detección de fallos de procesos
industriales.
En minerı́a de datos: para el reconocimiento automático de información cientı́fica.
En clasificación de señal EEG se ha aplicado en experimentos “Off-line” para el control
de dispositivos externos; obteniéndose, para el mejor de los casos y bajo condiciones de
laboratororio, tasas de clasificación correcta cercanas al 95 % [Nicolau 08] y [Sarcinelli 09].

4.5.2. Descripción del clasificador lineal óptimo.


El clasificador lineal óptimo se basa en la selección del hiperplano, H0 , que actuando
como frontera de separación entre las clases consideradas, maximiza la distancia a los
ejemplares más próximos de dichas clases, denominándose a estos datos “vectores soporte”,
sobre los mismos se dispondrán dos hiperplanos, H1 y H2 , paralelos al hiperplano H0 , o
hiperplano de separación óptima.
Los clasificadores basados en MSV se caracterizan por su buena capacidad de
generalización, directamente relacionada con la distancia entre los hiperplanos H1 y
H2, o margen; as´ı como por minimizar el efecto de sobre-aprendizaje del conjunto de
entrenamiento, del que son suceptibles otros métodos de aprendizaje como es el caso de
clasificadores basados en redes neuronales[Bishop 95], ya que con las MSV’s durante el
proceso de entrenamiento sólo se aprenden los vectores soporte, véase figura 4.24.
4.5 Clasiftcador basado en Máquina de Soporte de Vectores. 131

Hiperplano o´ptimo
Vectores
soporte Margen

Figura 4.24: Selección del hiperplano óptimo.

4.5.3. Descripción del problema de optimización lineal.


Dado un conjunto de datos o vectores de entrada x∈Rn de las diferentes clases y N,
∈ se
desea encontrar el valor de los parámetros del hiperplano: {w, b }, que da lugar a la
mayor separación del hiperplano a dichas clases.
Matemáticamente se obtiene la expresión recogida en la ecuación 4.188.
.
yi = 1 ∀xi ∈ Ci = A
wx + b ≷ y ii/ ⇒ (4.188)
yi = −1 ∀xi ∈ Ci = B
⇒ ∃(w∗ , b∗ ) / w ∗ x + b∗ = 0 Hiperplano óptimo
Aunque para el desarrollo formal se empleen sólo dos clases: { A, B} , las conclusiones
son extrapolables para el caso de múltiples clases bajo el paradigma de uno contra uno, o
uno contra todos, generando tantos clasificadores como clases.
El mejor hiperplano, para la clasificación de nuevos datos, es aquel cuya distancia de
separación a los vectores vecinos de ambas clases sea máxima.
Al hiperplano, H0 , ası́ obtenido se le denomina hiperplano de separación óptima, para el
cual el margen es máximo. Este margen se obtiene como la distancia entre dos hiperplanos,
H1 y H2, paralelos a H0, que contienen al menos a un vector de cada clase, denominados
vectores soporte.
La expresión matemática de H1 y H2 se muestra en las ecs.: 4.189 y 4.190.
H1 : wx − b = 1 (4.189)
H2 : wx − b = −1 (4.190)
Si los vectores de entrada son linealmente separables, es posible elegir dos hiperplanos entre
los que no haya datos y maximizen la distancia entre ellos [Cristianini 05b], [Burges 98],
[Gunn 98].
132 Tipologı́a de clasiftcadores.

Ya que geométricamente el vector w es perpendicular al hiperplano que define, y la


distancia del hiperplano al origen del sistema de coordenadas viene dada por la ec. 4.191.
b
d= (4.191)
|w|
Utilizando las ecs. 4.189 y 4.190 se obtiene que la distancia entre H1 y H2 es:
2
d= (4.192)
|w|
Por lo que el objetivo de maximizar la distancia de separación entre ambos hiperplanos
es equivalente a minimizar |w| . A la vez que la solución propuesta debe evitar que haya
vectores de entrada dentro de la región entre ambos hiperplanos, ec. 4.193.

yi(wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.193)
Todo lo cual da lugar a la expresión del siguiente problema de optimización 29 :

Minimizar Ω(w) = 12|w|2 (4.194)


Considerando la restricción yi (wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.195)
Para el cual, en su resolución, se utiliza el método de los multiplicadores de Lagrange,
dando lugar a la siguiente función lagrangiana, ec. 4.196.
N
1 Σ
L(w, b, α) = wT w − α i[yi (wT xi + b) − 1] (4.196)
2 i=1

Cuya resolución en el punto óptimo da lugar al sistema de ecuaciones 4.197 y 4.198,


resoluble si los datos son linealmente separables, asegurando que el m´ınimo encontrado es
un m´ınimo global.
δL ΣN
= 0→ w= αyx (4.197)
δw iii
i=1
N
δL Σ
=0 → w= αi yi = 0 (4.198)
δb i=1
Obsérvese la analogı́a de la ecuación 4.197 con la solución del perceptrón.
Las ecuaciones anteriores dan lugar a:
N N N
Σ ΣΣ
w w=w
T T αi y i x i = αiαj y i y jx i x j (4.199)
i=1 i=1 j=1

Que sustituyendo en la ec.4.196 hacen que la función a maximizar Q(α) sea:


N N N
Σ 1 ΣΣ
J (w, b, α) = Q(α) = αi − α iα jy iyj xi x j (4.200)
i=1
2 i=1 j=1
29
El factor 1 se
2 introduce por conveniencia para el desarrollo posterior.
4.5 Clasiftcador basado en Máquina de Soporte de Vectores. 133

Estando sujeta a las restricciones:


N
Σ
α i yi = 0 (4.201)
i=1
αi ≥ 0 i = 1, ..., N.
En donde se puede demostrar que sólo los αi correspondientes a vectores soporte son
distintos de cero.
De todo lo cual se deduce que el hiperplano de separación óptima, H0 , sólo depende
de los vectores soporte provenientes del conjunto de entrenamiento.
Una vez hayados los valores α∗i se obtienen los coeficientes del hiperplano:
N
Σ
α∗i ⇒ w∗ = α∗i yi xi → b∗ = 1 − w∗T xs (4.202)
i=1

4.5.4. Margen blando.


En el análisis anterior se considera que en la región comprendida entre los hiperplanos
H1 y H2 no han de existir vectores, ni que éstos pudieran ser erróneamente clasificados.
Esta consideración es muy exigente para su aplicacion en casos prácticos, lo que motivó que
en 1995 Corinna Cortes y Vladimir Vapnik propusieran una nueva idea de margen máximo
[Vapnik 95], a la que denominaron “Margen Blando” la cual, para el caso en que no es
posible encontrar un hiperplano de separación óptimo, H0 , seleccionara aquel hiperplano
que separando los vectores de entrada tan limpiamente como fuera posible, permitiera
errores de clasificacion a la vez que maximiza la distancia al resto de los datos que han sido
correctemante identificados, véase la figura 4.25. Esta nueva variante introduce un
nuevo conjunto de variables, denominadas “variables de holgura”: h i ,i = {1, ..., N}, que
permiten ponderar el grado de desclasificación de cada vector, tal que:

yi(wT xi + b) ≥ 1 − hi, i = 1,... ,N (4.203)


En donde:
.
0 ≤ hi ≤ 1 → clasificación correcta.
h ≥ 0 ∀i ⇒
i (4.204)
hi > 1 → clasificación incorrecta.
Originando que la nueva función objetivo, Ω(w, h), contenga un término que penaliza
a las variables de holgura, convirtiéndose la optimización en un balance entre el mayor
margen y el error de penalización.
En caso de que la función de penalización sea lineal, la función objetivo (ec.4.194) se
transforma en:
ΣN
Minimizar Ω(w, h) = 21 |w|2 + C i=1 hi (4.205)
Considerando la restricción yi (wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.206)
134 Tipologı́a de clasiftcadores.

Siguiendo un proceso de resolución semejante al seguido con anterioridad, da lugar


a que en el problema dual las variables de ajuste desaparezcan, manteniéndose sólo la
constante C como restricción adicional en los multiplicadores de Lagrange, la cual controla
el compromiso entre complejidad del modelo y el número de datos no separables, esta
constante se especifica empı́ricamente mediante procedimiento de validación cruzada.

hj

hi

1
1

Figura 4.25: Separación lineal: margen blando.

Funciones de penalización no lineales también han sido propuestas, sobre todo en


aquellos casos donde es preciso minizar el efecto de muestras anómalas; presentan el
inconveniente de aumentar la complejidad de la resolución del problema de optimización,
pues se tiende a perder la convexidad, siendo más complejo encontrar una solución global.

4.5.5. Descripción del clasificador no lineal.


Hasta ahora se ha descrito un algoritmo de clasificación lineal, a excepción de la
modificación de margen blando, lo que da lugar a que el número de aplicaciones prácticas
del mismo sea reducido. Esto motivó que, para aquellos problemas de clasificación de
conjuntos de datos no separables linealmente, Bernhard Boser, Isabelle Guyon y Vladimir
Vapnik, propusieran en 1992 [Vapnik 92] un nuevo tipo de clasificador, que tras la
transformación a través de una función no lineal Φ(.) de los conjuntos de datos originales
a conjuntos de datos en espacios de caracterı́sticas transformados, de dimensión superior a
la del espacio de caracter´ısticas original, y separables linealmente, emplearan el algoritmo
de determinación de hiperplano óptimo, H0 , como metó do de separación de dichos
conjuntos. De este modo, aunque el clasificador se base en un hiperplano en el espacio
de caracter´ısticas transformado, este puede ser no lineal en el espacio de caracter´ısticas
original.
4.5 Clasiftcador basado en Máquina de Soporte de Vectores. 135

El algoritmo resultante es formalmente similar al descrito con anterioridad, con la


diferencia de que el producto escalar de vectores original es reemplazado por una función
de kernel K no lineal.
Descrito matemáticamente, el procedimiento aplica una transformación no lineal, Φ(.),
a los datos de entrada transformándolos a un espacio de dimensión superior:

Φ
Rn −−−−→ Rm , m>n
en el cual es posible realizar una separación lineal de los datos transformados.

Figura 4.26: Separación no lineal.


Por lo que, teniendo en cuenta el desarrollo del procedimiento de optimización lineal
anterior y la consideración realizada para margen blando, la función objetivo a minimizar,
Ω(w, h), es equivalente a la considerada en la ec. 4.205:

ΣN
1 T
Ω(w, h) = w w + C hi (4.207)
2 i=1

Teniendo en cuenta que en las restricciones equivalentes a la ec. 4.206, la función de


transformación Φ(x) sustituye al vector de datos x, se da lugar a:

yi(wT Φ(xi) + b) ≥ 1 − hi, i = 1,... ,N (4.208)


hi ≥ 0 ∀i

Obteniéndose los parámetros del hiperplano {w, b} en el nuevo espacio de


caracter´ısticas Rm.
Hay que tener en cuenta que la transformación explı́cita, Φ(x), es costosa en caso
de que m sea elevada, por lo que se buscan alternativas para no tener que realizar la
transformación explı́cita de cada dato, dando lugar a las denominadas funciones Kernel
K, mencionadas en 4.5.1.
136 Tipologı́a de clasiftcadores.

4.5.5.1. Función Kernel K.


Teniendo en cuenta que en la ecuación 4.200 de la formulacion dual, aparece solamente
el producto escalar de los datos, y que su equivalente para el caso de clasificación no lineal
serı́a la ecuación 4.209.
N N N
Σ 1 ΣΣ T
Q(α) = α i− α αi y i jΦ(x i) Φ(xj )
j y (4.209)
i=1
2 i=1 j=1

El objetivo es encontrar una funcion en la que el producto escalar de las


transformaciones de cada dato, Φ(x), sea igual a la transformación del producto escalar
de los datos, lo cual origina que no sea preciso transformar expl´ıcitamente los datos de
entrada para resolver el problema de optimización o entrenamiento de las MSV, ni que
sea preciso el conocimiento exacto de la expresión de la función Φ(x).

K(xi · x j) = Φ(xi) · Φ(xj) (4.210)


A modo de ejemplo [Castro 03], [Cristianini 05a], sea a = (a1, a2):
√ √ √
Φ(a) = (a2, a2, 2a1a2, 2a1, 2a2, 1) (4.211)
1 2

El producto escalar de Φ(a) · Φ(b) será:


Φ(a) · Φ(b) = a21b21 + a22b22+ 2a1b1a2b2 + 2a1b1 + 2a2b2 + 1 = . . . (4.212)
= (a1b1 + a2b2 + 1)2 = (aT b + 1)2

De donde se deduce que una posible función kernel, K(a · b), asociada a Φ(a) serı́a:

K(a · b) = (aT b + 1)2 = Φ(a)Φ(b) (4.213)


El teorema de Mercer indica si una funcion kernel cumple la propiedad de producto
escalar y por tanto es útil para una MSV [Cristianini 05b]

Σ
K(u, v) = amΦ m(u)Φm(v), am ≥ 0 (4.214)
m
∫ ∫
K(u, v)g(u)g(v)dudv > 0, g ∈ L2 (4.215)

Este teorema no indica sin embargo como construir las funciones Φ(x). La tabla 4.2
recoge los tipos de funciones kernel más utilizados [Gunn 98].
Las funciones compuestas por sumas y/o productos de funciones kernel también son
funciones kernel [Cristianini 05b], [Burges 98], [Gunn 98].

4.5.6. Comparación entre Máquinas de soporte de Vectores y Redes


Neuronales.
La tabla 4.3 presenta una comparación cualitativa entre clasificadores basados en
Máquinas de Soporte de Vectores y Redes Neuronales Artificiales.
4.5 Clasiftcador basado en Máquina de Soporte de Vectores. 137

Tipo MSV. Función kernel. Comentario.

Polinómica. (xT y + 1)p El valor de p lo especifica el usuario.

|x−x |i 2
)
RBF Gaus- e−( 2σ2 El valor de σ lo especifica el usuario y es
sianas. común a todas las funciones kernel

|x−x |i
RBF Expo- e−( 2σ2 ) El valor de σ lo especifica el usuario y es
neciales. común a todas las funciones kernel

Perceptrón tanh(β0xT xi + β1) Solo ciertos valores de β son válidos


de 2 capas

sin(N + 21)(x−y)
Serie de 1 El valor de N lo especifica el usuario.
sin( 2(x−y))
Fourier.
ΣN
Splines. r=0 xryr+ El orden de la curva k y el número
ΣN k k
s=1 (x − τs )+( y − τs )+ de los N puntos localizados en τs lo especifica
el usuario.

B splines. B2N+1(x − y) El valor de N lo especifica el usuario.


Tabla 4.2: Funciones Kernel.

MSV. Redes neuronales.


Las funciones Kernel transforman los Las capas ocultas transforman los datos a
datos de entrada a espacios de dimensión espacios de cualquier dimensión.
muy superior.
El espacio de búsqueda tiene sólo un El espacio de búsqueda tiene múltiples
m´ınimo global. m´ınimos locales.
El entrenamiento es muy eficiente. El entrenamiento es costoso.
Clasificación eficiente. Clasificación eficiente.
Se diseña la función Kernel y el parámetro Se diseña el número de capas ocultas y
de coste C. nodos.
Buen funcionamiento en problemas tipo. Buen funcionamiento en problemas tipo.
Comportamiento muy robusto para gene- Precisan controlar el sobre-aprendizaje.
ralización, menor necesidad de heurı́sticos
para entrenamiento.
Tabla 4.3: Comparación entre SVM y Redes Neuronales.
138 Tipologı́a de clasiftcadores.

4.5.7. Implementaciones.
Tal y como se puede dedudir de la secciones anteriores, los parámetros del hiperplano
de separación óptima, H0 , se obtienen tras la resolución de un problema de optimización;
actualmente existen diferentes tipos de algoritmos especializados en la rápida resolución
de problemas de optimización aplicados a MSV.
Para el desarrollo del clasificador empleado en los resultados del capı́tulo 6 se han
valorado tres conjuntos de herramientas, “Toolboxes”, de distribución gratuita para
Matlab:

1. Matlab Support Vector Machine Toolbox. Disponible en [Gunn 05]:


http://www.isis.ecs.soton.ac.uk/resources/svminfo/

2. SVM and Kernel Methods Matlab Toolbox. Disponible en [Canu 05]:


http://asi.insa-rouen.fr/ensignants/ãrakotom/toolbox/index.html

3. LIBSVM – A Library for Support Vector Machines. Disponible en [Chang 07]:


http://www.csie.ntu.edu.tw/c̃jlin/libsvm/

Eligiéndose la segunda opción por ser eficiente, disponer de una interfaz clara y
adecuada documentación, hay que destacar que junto con la primera opción también se
suministran abundantes ejemplos.
La implementación del algoritmo de clasificación descrito en esta sección se describe
en el apartado 5.6.5, a la vez que los resultados obtenidos de su utilización por varios
voluntarios se presentan en el apartado 6.5, la conclusión más significativa que se obtiene
en dicho apartado es que los clasificadores basados en Máquinas de Soporte de Vectores que
utilicen Kernels polinómicos de orden 4 ó 5 presentan mejores resultados que los basados
en Kernels gaussianos.
Capı́tulo 5

Procedimientos experimentales y
aplicación de demostración.
En este cap´ıtulo se describen las actividades cognitivas propuestas a modo de interfaz,
ası́ como los protocolos de preparación del usuario y del equipo de adquisición y
procesamiento, que han sido empleados en la realización de los procedimientos
experimentales a cuyos resultados se les aplican las diferentes técnicas de clasificación
presentadas en el capı́tulo 4. Por último se presenta una propuesta de arquitectura para
el empleo de la tecnologı́a ICC en un dispositivo genérico que ha sido implementada en la
aplicación de demostración.

5.1. Protocolo preparación del usuario.


Para que el registro de señal electroencefalográfica presente una menor sensibilidad a
perturbaciones causadas por ruido y artefactos, es preciso que sobre el usuario se realicen
las siguientes actividades:
1. Limpieza de la zona de cuero cabelludo sobre la que se dispondrán los electrodos.
El objetivo de esta actividad es mejorar la conductividad eléctrica de la zona,
eliminando células de piel muerta, grasa y suciedad.
2. Aplicación de gel conductor. Mediante la utilización de un gel conductor se aumenta
la conductividad en la zona de contacto del electrodo con la piel, lo que da lugar a
registros de señal con mayor amplitud.
3. Colocación de los electrodos. Tal y como se ha indicado en el capı́tulo 3, los electrodos
se disponen en las proximidades de C3 y C4, dando lugar a dos canales diferenciales.
4. Medida de impedancia entre cada electrodo y el electrodo de referencia de masa del
amplificador. Cuanto menor sea la impedancia de la fuente de origen de la señal
muestreada, mayor será su inmunidad frente a perturbaciones causadas por ruido
electromagnético, por lo que se comprueba que la impedancia entre los electrodos
activos de los canales y el electrodo de referencia de masa del bio-amplificador sea
inferior a 4KOhms.
140 Procedimientos experimentales y aplicación de demostración.

Figura 5.1: Localización de los electrodos.

La elección de C3 y C4 como punto de localización de los electrodos se debe a que como


demuestran las investigaciones del equipo del Dr.S.J.Roberts [Penny 00] [Sykacek 03], o
Dr.J.Millán: [Babiloni 00], [Gerstner 04], [Millan 03]; es en esta zona encefálica en donde se
registran niveles de señal electroencefalográfica más altos, cuando se comparan actividades
cognitivas en las que se ven involucrados ejercicios de imaginación con ejercicios de
planificación y realización de movimiento. Es ası́ mismo en esta zona donde se produce
una mejor detección de ritmos μ [Birch 00] [Lauer 00] [Pineda 00], relacionados con los
potenciales de desincronización y posterior sincronización asociados a la realización de
movimiento, lo cual ha sido empleado por el equipo del Dr. Wolpaw para el desarrollo de
su dispositivo ICC: [Wolpaw 07],[Wolpaw 02],[Wolpaw 00b], [Wolpaw 03].
Investigaciones realizadas por el equipo del Dr. Pfurtscheller, dirigidas hacia la
localización de patrones geométricos de actividad cerebral cuando se realizan diferentes
tipos de tareas mentales, [Pfurtscheller 00], [Scherer 04], [Pfurtscheller 03]; as´ı como
as´ı los trabajos de Dra.C.Neuper y Dr. N Bribaumer: [Obermaier 01b], [Blankertz 04],
[Hinterberger 04], [Birbaumer 03], corroboran las localizaciones de los electrodos C3 y C4
como unas de las que más capacidad de discriminación poseen.

5.2. Descripción del equipo de adquisición y procesamiento.


El equipo de adquisición y procesamiento se compone de los siguientes dispositivos, en
los que se ajustan los parámetros indicados.:
Electrodos superficiales tipo Au-Cu. Impedancia entre el electrodo activo N y el
electrodo de referencia de masa del bio-amplificador: ZN ≤ 4KOhms.
Bio-amplificador. Modelo: g.BSamp Fabricante: g.tec. Filtro Notch de rechazo de
banda sintonizado a 50 Hz. Filtro paso alto sintonizado a 0.5 Hz. [Guger 05].
Acumulador. Modelo: Akkupack. Fabricante: g.tec
Tarjeta de adquisición. Modelo: PCI-MIO-16 E-4. Fabricante: National Instrument.
Frecuencia de muestreo: Fs = 384Hz. Bloque de muestras considerado: N = 128.
[Instruments 01]
PC para procesamiento de señal e interfaz con el usuario.
5.3 Descripción de las actividades cognitivas. 141

Figura 5.2: Componentes del sistema.

Una vez realizado el conexionado y puesta en marcha de los elementos se procede a


observar la evolución temporal de los cuatro canales de señal adquiridos:
Canal 1: Corresponde a los electrodos dispuestos en C3J y C3JJ .
Canal 2: Corresponde a los electrodos dispuestos en C4J y C4JJ .
Canal 3: Electrodos dispuestos para registrar la actividad ocular.
Canal 4: Canal sin electrodos conectados, permite tener una estimación del nivel de
ruido interno presente en el bio-amplificador.
Tras la inspección temporal de la señal de cada uno de los canales se procede a observar la
estimación espectral de potencia de los mismos, se comprueba que la activación del filtro
Notch provoca una reducción significativa de la componente presente en 50 Hz.

5.3. Descripción de las actividades cognitivas.


Los dispositivos basados en la tecnologı́a ICC endógenos parten de la hipótesis de que
actividades cognitivas diferentes dan lugar a patrones de ondas electroencefalográficas
distintos, los cuales tras ser caracterizados e identificados permiten el control del
dispositivo externo asociado.
Se ha escogido el siguiente conjunto de actividades cognitivas a efectos de poder
comparar los resultados con los obtenidos por otros grupos de investigación donde se
utilizan actividades cognitivas equivalentes [Penny 00], [Perelmouter 00], [Cincotti 03].
Actividad matemática. Al usuario se le instruye para que piense en una operación
matemática sencilla que necesite de su concentración, por ejemplo la resta sucesiva
de un número primo a una cantidad elevada.
Imaginación de movimiento. Al usuario se le indica que debe imaginar que mueve sus
extremidades superiores, en particular la mano derecha, pero sin que llegue a realizar
el movimiento propiamente dicho. Un ejemplo ser´ıa imaginar que esta tocando una
guitarra.
Relax. En esta actividad al usuario se le sugiere que mantenga la mente en blanco,
relajándose todo lo que pueda.1
1
Resaltar que la parametrización e identificación de la actividad de relax es novedosa, permitiendo una
mejor identificación y posterior clasificación de los patrones de señal electroencefalográfica asociados a las
actividades cognitivas.
142 Procedimientos experimentales y aplicación de demostración.

5.4. Descripción del protocolo para el procedimiento Off-


line.
Mediante el proceso experimental “Off-line” se adquieren registros de señal
electroencefalográfica mientras el usuario realiza las actividades cognitivas propuestas,
sin que el sistema proporcione realimentación de la tasa de discriminación alcanzada.
En la figura 5.3 se presenta el flujograma de desarrollo del experimento.

Figura 5.3: Flujograma procedimiento “Off-line”.


5.4 Descripción del protocolo para el procedimiento Off-line. 143

La finalidad de esta fase experimental es obtener un conjunto de registros de señal


electroencefalográfica con el que verificar que, para el usuario considerado, es posible
discriminar entre las actividades cognitivas propuestas, y a su vez puedan ser utilizados
para el entrenamiento de los clasificadores.
En cada sesión experimental el supervisor del experimento introduce en el sistema el
número de réplicas a realizar, Nrep 2 , y el número de actividades cognitivas consideradas
Nact3
Cada réplica queda compuesta por tantos registros de señal electroencefalográfica como
número de actividades cognitivas se consideren, Nact . La duración de cada registro es de
siete segundos. Considerando que la frecuencia de muestreo es de FS = 384Hz y que cada
ventana de análisis tiene una extensión de N = 27 = 128 muestras, por cada registro se
obtienen NW = 21 ventanas de análisis. Para cada réplica, el sistema presenta en pantalla,
de forma aleatoria, la actividad cognitiva en la que debe pensar el usuario. La adquisición
de señal comienza tras cinco segundos de presentación del aviso de la actividad cognitiva
en la que concentrase.
Durante el desarrollo del experimento el usuario se encuentra sentado en frente de la
pantalla del sistema de adquisición, a una distancia de 50 cm, con las manos en posición
visible para el supervisor del experimento, quien comprueba que no se produce movimiento
alguno de las mismas. El resto de dispositivos electrónicos cercanos al experimento son
desconectados para evitar posibles perturbaciones.

2
Por defecto se considera Nrep = 10.
3
Por defecto se considera Nact = 3.
144 Procedimientos experimentales y aplicación de demostración.

5.5. Descripción del protocolo para el procedimiento On-


line.

En el proceso experimental
“On-line” al usuario se le reali-
menta información del proceso de
clasificación de la señal adquiri-
da en el instante inmediatamen-
te anterior. En pantalla se mues-
tra el icono objetivo, en forma
de cuadrado, dispuesto aleatoria-
mente en la parte izquierda o en
la derecha; un cursor, en forma
de rombo, se desplaza horizontal-
mente dependiendo del resultado
de la clasificación.
La figura 5.4 presenta el flujogra-
ma de desarrollo del experimen-
to. Se emplean las mismas acti-
vidades cognitivas que en el pro-
cedimiento “Off-line”, utilizando
los registros de señal previamente
adquiridos para entrenar un cla-
sificador basado en redes neuro-
nales de tipo RBF. El supervisor
del experimento indica el núme-
ro de actividades cognitivas con-
sideradas, Nact , y el número de
réplicas a realizar, Nrep , ası́ mis-
mo se realiza la asociación de ac-
tividad cognitiva con el sentido
de movimiento, comunicándoselo
verbalmente al usuario. La dura-
ción del experimento es de sie-
te segundos, presentando el icono
objetivo con una antelación de
cinco segundos. En cada réplica
el sistema presenta el icono obje-
tivo aleatoriamente en la derecha
o en la izquierda de la pantalla.

Figura 5.4: Flujograma procedimiento “On-line”.


5.6 Procedimientos experimentales de clasiftcación. 145

5.6. Procedimientos experimentales de clasificación.


En esta sección se muestran los diagramas de actividad [Arlow 05] empleados en los
procedimientos de aplicación de las diferentes técnicas de clasificación presentadas en el
capitulo 4, cuyos resultados se recogen en el cap´ıtulo 6.
En la figura 5.5 se muestra el diagrama asociado al procesamiento de los registros de
señal electroencefalográfica, que permite obtener los vectores de caracterı́sticas a partir de
las muestras de señal EEG adquiridas.

Figura 5.5: Procedimiento de procesamiento registros EEG.


146 Procedimientos experimentales y aplicación de demostración.

5.6.1. Contraste estadı́stico de poblaciones.

La figura 5.6 repre-


senta el diagrama de
actividad empleado en
el procedimiento experi-
mental que implementa
el contraste estad´ıstico
de poblaciones.
Obsérvese que el pro-
cedimiento se realiza
para cada tipo diferen-
te de ventana de pro-
cesamiento, recuperan-
do los vectores de ca-
racter´ısticas a ellas aso-
ciados. Para cada canal
electroencefalográfico se
realizan contrastes inde-
pendientes de las po-
blaciones de cada com-
ponente del vector de
caracter´ısticas, conside-
rando parejas de activi-
dades cognitivas, lo que
da lugar a que el proce-
so se reitere N veces:
. Σ
3
N= ·2·7·6 = 252
2

Figura 5.6: Procedimiento estadı́stico de comparación de poblaciones.


5.6 Procedimientos experimentales de clasiftcación. 147

5.6.2. Análisis Discriminante Lineal.

La figura 5.7 repre-


senta el diagrama de ac-
tividad asociado a la
implementación del ex-
perimento basado en la
técnica de Análisis Dis-
criminatorio Lineal.
Al igual que en el ca-
so anterior, el procedi-
miento experimental se
realiza con los vectores
de caracter´ısticas obte-
nidos tras el procesa-
miento de las muestras
de señal electroencefa-
lográfica con cada uno
de los diferentes tipos de
ventas de procesamien-
to.
As´ı mismo, para
determinar la poten-
cia de discriminación
obtenida, con cada
tipo de ventana de
procesamiento cuando
se aplica la técnica
LDA, se utiliza el
contraste estad´ıstico
de poblaciones sobre el
vector de caracter´ısticas
transformado.

Figura 5.7: Procedimiento de aplicación de la técnica LDA.


148 Procedimientos experimentales y aplicación de demostración.

5.6.3. Clasificadores basados en redes neuronales.

La figura 5.8 representa el


diagrama de actividad asocia-
do al experimento que emplea
clasificadores basados en re-
des neuronales de tipo MLP,
RBF y PNN. Por cada ti-
po de clasificador se realizan
dos implementaciones, una de
ellas considera redes neuro-
nales independientes por ca-
da canal electroencefalográfi-
co, mientras que la segunda
emplea una única red neuro-
nal que considera de forma
conjunta ambos canales.

Figura 5.8: Procedimiento de aplicación de clasificadores basados


en redes neuronales.
5.6 Procedimientos experimentales de clasiftcación. 149

5.6.4. Clasificador bietapa RBF-MOM

La figura 5.9 representa el dia-


grama de actividad de la implemen-
tación del experimento basado en
el empleo del clasificador bietapa
RBF-MOM.
La implementación consta de
cuatro bloques principales. En el
primero se genera el conjunto de da-
tos que se emplearan para el entre-
namiento y prueba, considerando los
tres tipos de actividades cognitivas.
Como procedimiento de validación
se emplea el método de validación
cruzada, por lo que del total de se-
siones de datos una de ellas se re-
serva para validación, empleando el
resto para el entrenamiento, el pro-
cedimiento se replica seleccionando
secuencialmente la sesión empleada
para validación.
En el segundo bloque se realiza
el entrenamiento del preclasificador
basado en redes neuronales de ti-
po RBF. Posteriormente se proce-
de al entrenamiento de tres modelos
ocultos de Markov, uno por activi-
dad cognitiva considerada, partien-
do de secuencias de preclasificación
de 9 elementos proporcionadas por
el preclasificador RBF.
Por último en el cuarto bloque
se prueba el conjunto de vectores
de caracter´ısticas reservado para el
proceso de validación cruzada.

Figura 5.9: Procedimiento de aplicación del clasificador


bietapa RBF-MOM.
150 Procedimientos experimentales y aplicación de demostración.

5.6.5. Clasificador basado en Máquinas de Soporte de Vectores.

La figura 5.10 representa


el diagrama de actividad de la
implementación del expe-
rimento que emplea el clasi-
ficador basado en Máquinas
de Soporte de Vectores. Al
igual que en los apartados an-
teriores, en una primera eta-
pa se realiza la carga de datos
provenientes de las activida-
des cognitivas consideradas.
Posteriormente se proce-
de a la determinación de los
parámetros del kernel y de-
terminación de los conjuntos
de datos para entrenamiento
y prueba.
Se continua con el entre-
namiento del clasificador, ba-
sado en tres sub-clasificadores
bajo el paradigma de uno con-
tra uno, ya que es más selec-
tiva que la comparación uno
contra el resto.
Por último se realiza la
prueba de rendimiento y guar-
dado de datos.

Figura 5.10: Procedimiento de aplicación del clasificador basado en


MSV.
5.7 Descripción de arquitectura dispositivo ICC. 151

5.7. Descripción de arquitectura dispositivo ICC.


En esta sección se presenta la propuesta de arquitectura a nivel de análisis para un
dispositivo ICC, la cual ha sido empleada en una aplicación para deletrear palabras
en un sistema informático basado en entorno PC. Se ha escogido esta aplicación por
su utilidad casi directa por personas que padecen algún tipo de sı́ndrome de bloqueo.
Hay que resaltar que este tipo de aplicación, basada en la utilización de un paradigma
de ICC endógeno y en el empleo de sólo dos canales electroencefalográficos, precisa de
usuarios entrenados y altamente motivados, pues deletrear correctamente una palabra a
través de en un algoritmo de decisión por dicotomı́a requiere un número elevado de
clasificaciones correctamente concatenadas, lo que significa un nivel de concentración
elevado. La definición de la aplicación se realiza empleando UML, [Ambler 05], [Arlow 05],
[Pilone 05], [Rumbaugh 00b], [Rumbaugh. 00a], [Rumbaugh. 99].

5.7.1. Identificación de actores.


En la aplicación para deletrear palabras se han identificado dos actores.
Usuario. Persona encargada de controlar la aplicación a través de sus patrones
cerebrales endógenos, asociados a las actividades cognitivas propuestas.
Controlador. Persona a cargo de realizar los protocolos de preparación del usuario
y del sistema, ası́ como supervisar el correcto funcionamiento de la aplicación y la
puesta en marcha / apagado del sistema.

5.7.2. Descripción de casos de uso.


Los casos de uso indi-
can como se va a compor-
tar la aplicación desde el
punto de vista de los ac-
tores, se trata pues de la
descripción de la funcio-
nalidad requerida al sis-
tema. Desde un punto de
vista de análisis se consi-
deran sólo los casos de uso
claves para los actores, tal
y como se muestra en la
figura 5.11.

Figura 5.11: Casos de uso de la aplicación.


152 Procedimientos experimentales y aplicación de demostración.

5.7.2.1. Deletrear palabra.


Condiciones iniciales:
Los procedimientos de preparación de usuario y equipo han sido llevados a cabo y
el sistema funciona correctamente.
La aplicación presenta en pantalla una ventana semejante a la mostrada en la figura
5.12, en donde en la parte superior aparecen letras del alfabeto, mientras que en la
parte inferior se muestran caracteres numéricos, ası́ como las secuencias de control
de “Espacio” y “Fin”. En la parte izquierda se muestra el cursor controlado por
el usuario. En la parte central se muestran mensajes de aviso para el usuario. Por
último, inmediatamente debajo de la secuencia de caracteres, en la parte inferior se
muestran los caracteres seleccionados.
La asociación de movimiento vertical del cursor con las actividades cognitivas, se ha
realizado conforme a la elección del usuario.
El usuario ha identificado tanto la palabra que desea deletrear, como la primera letra
de dicha palabra.

Figura 5.12: Interfaz de la aplicación demostrador.


5.7 Descripción de arquitectura dispositivo ICC. 153

Flujo principal del caso de uso:


1.a El usuario realiza la actividad cognitiva asociada al desplazamiento del cursor, que lo
acerca a la mitad que contiene el carácter que se desea escribir.
2.a La aplicación procede a realizar registros de señal electroencefalográfica siguiendo
el protocolo del procedimiento “On-line”, apartado 5.5, y desplaza el cursor
verticalmente según el patrón cognitivo identificado. Tras N desplazamientos
sucesivos en el mismo sentido, el cursor se posiciona sobre el grupo de caracteres
elegido.4
3.a El paso 2.a. se repite hasta que el cursor se posiciona sobre el grupo de caracteres
superior o inferior.
4.a Si el grupo de caracteres alcanzado queda compuesto por más de un elemento, la
aplicación procederá a presentar la primera mitad en la parte superior y la segunda
en la inferior.5 Si el número de caracteres seleccionado es impar, la primera mitad
tendrá un carácter menos que la segunda. El cursor se reposicionará en el centro de
la ventana y se volverá al punto 1.a.
4.b En caso de que el grupo de caracteres alcanzado quede compuesto por un único
elemento, éste será el carácter seleccionado, pasando a mostrarlo en la zona en la
que se deletrea la palabra elegida.
La aplicación procederá a reposicionar el cursor en la zona central de la ventana,
mostrará el alfabeto en la parte superior y la secuencia numérica en la parte inferior,
tras lo cual se volverá al punto 1.a.

Postcondiciones.
La aplicación permanecerá activa mostrando los caracteres seleccionados hasta que el
supervisor decida finalizarla.
Las muestras de señal electroencefalográfica adquiridas, ası́ como el procesamiento de
las mismas y las selecciones llevadas a cabo serán almacenadas en los correspondientes
ficheros.

Flujos alternativos.
2.b Si el registro de actividad electroencefalográfica no puede clasificarse como
perteneciente a alguna de las actividades cognitivas asociadas a movimiento del
cursor, o su nivel de certeza en el reconocimiento es inferior a un determinado valor
de umbral, el cursor no se desplazará.

4
N será configurable, siendo su valor por defecto N = 3.
5
La selección de los caracteres se realiza por dicotomı́a.
154 Procedimientos experimentales y aplicación de demostración.

5.7.2.2. Puesta en marcha del sistema.


Condiciones iniciales:
La preparación del usuario se ha realizado conforme a lo indicado en el apartado 5.1.
El supervisor realiza la puesta en marcha del sistema, verificando el correcto
funcionamiento de los componentes según se describe en el apartado 5.2.
Flujo principal del caso de uso:
1.a El supervisor inicia la aplicación.
2.a La aplicación solicita del supervisor los parámetros de la sesión:
Identificación de usuario.
Número de sesión.
Número de actividades cognitivas.
Identificación de las actividades cognitivas.
Número de réplicas consideradas.
3.a El supervisor introduce los parámetros de configuración de la sesión.
4.a El sistema crea una estructura de ficheros para almacenar las muestra de señal
electroencefalográfica adquiridas, procesamiento de las mismas, ası́ como los datos
de clasificaciones a las que dieran lugar y estructuras de datos de aprendizaje de los
clasificadores.
5.a La aplicación procede a comunicar que en N6 segundos se va a efectuar la adquisición
de registros de señal EEG relacionada con la actividad cognitiva propuesta. En la
parte central de la ventana se mostrará la cuenta atrás de tiempo para comienzo de
la adquisición de muestras.
6.a La aplicación procede a la captura de muestras de señal electroencefalográfica, según
se ha descrito en el apartado 5.4. Los registros de actividad electroencefalográfica se
almacenarán en la estructura de datos del experimento.
7.a La aplicación procede a extraer y guardar el conjunto de vectores de caracterı́sticas
de los registros de señal efectuados.
8.a Con la población de vectores de caracterı́sticas obtenidos se procede a entrenar al
clasificador, tras lo cual se indica al supervisor el porcentaje de clasificaciones
correctas obtenido. La parametrización del clasificador se almacenará en la estructura
de datos del experimento.
9.a El supervisor decide si con el porcentaje de clasificación obtenido se procede con
el caso de uso de “Deletrear palabra”, o se procede a repetir el caso de uso actual
devolviendo el control al punto 2.a, o bien se finaliza la aplicación.
Postcondiciones.
El sistema guarda tanto la información de los registros de señal electroencefalográfica,
como las estructuras de datos que definen el entrenamiento del clasificador.

Flujos alternativos.
4.b Si el sistema detecta que la identificación de la sesión ya existe, procede a
comunicárselo al supervisor, devolviendo el control al punto 2.a, para evitar la
corrupción de datos de sesiones anteriores.
6
N será configurable, por defecto se consideran 5 segundos.
5.7 Descripción de arquitectura dispositivo ICC. 155

5.7.2.3. Finalización de la aplicación.


Condiciones iniciales:
Se ha realizado la puesta en marcha del sistema según el caso de uso 5.7.2.2.

Flujo principal del caso de uso:


1.a El supervisor decide finalizar la aplicación, comunicándolo a través de la consola de
la aplicación.
2.a La aplicación procede a finalizar el proceso de adquisición de muestras de señal
electroencefalográfica. Guardando los últimos registros de señal que no hubieran
sido almacenados.
3.a La aplicación procede a cerrar los flujos de datos de la tarjeta de adquisición.
4.a La aplicación deja de realizar clasificaciones. Guardando la última clasificación no
almacenada.
5.a La aplicación comunica la finalización de la aplicación al usuario y cierra la ventana
de diálogo.

Postcondiciones.
La aplicación queda finalizada y la información asociada a la sesión realizada alma-
cenada en la estructura de ficheros, creada por el caso de uso Puesta en marcha del sistema.

Flujos alternativos.
1.b El usuario procede a seleccionar “Fin” como carácter a deletrear.

5.7.3. Estructura de clases de análisis.


Mediante el diagrama de clases de análisis se identifican y relacionan los componentes
que representan una abstracción de conceptos en el dominio de la aplicación. Se trata pues
de una representación estática de todos aquellos elementos y relaciones estructurales entre
los mismos, que se van a utilizar para llevar a cabo la funcionalidad descrita en los casos
de uso.
La arquitectura de dispositivo ICC propuesta, mostrada en la figura 5.13, se basa en el
empleo del patrón del modelo de tres capas [Larman 03], diferenciando entre la capa de
interfaz de la aplicación con los actores, la capa que representa la lógica de la aplicación
y la que considera el almacenamiento de datos.
Se han considerado los siguientes tipos de datos:
Datos Sesión: datos identificativos de la sesión en curso.
Registro EEG: considera la agrupación de muestras de señal EEG que constituyen
una ventana de análisis.
Vector Caracterı́sticas: representa el vector de componentes frecuenciales obtenido
de una ventana de análisis.
156 Procedimientos experimentales y aplicación de demostración.

Clasificación: actividad cognitiva a la que se asocia el vector de caracterı́sticas


suministrado.
Cad Caract Deletreados: representa a la cadena de caracteres seleccionados por el
usuario.
Cad Caract Inferior: conjunto de caracteres alfanuméricos dispuestos en la parte
inferior de la ventana.
Cad Caract Superior: conjunto de caracteres alfanuméricos dispuestos en la parte
superior de la ventana.
Cadena Aviso: representa al mensaje textual que se comunica al usuario.

Las clases de análisis identificadas han sido:


Tarjeta de Adquisición: clase perteneciente a la capa de interfaz, encargada de
representar la tarjeta de adquisición desde el punto de vista Software. Sus funciones
clave son: configuración, adquisición de muestras y generación de Registro EEG. Tal
y como se indica en el apartado 3.2, se consideran ventanas de análisis de duración
1
3
s, con una frecuencia de muestreo de Fs = 384Hz.
Procesamiento Señal EEG: clase perteneciente a la capa de lógica de la aplicación,
se encarga de extraer los vectores de caracter´ısticas frecuenciales a partir de los
registros de señal electroencefalográfica, según lo indicado en el apartado 3.5.
Clasificador: clase perteneciente a la capa de lógica de la aplicación, encargada de
aprender y reconocer los patrones cerebrales del usuario asociados a las actividades
cognitivas consideradas, véase apartado 5.3. Tras el análisis de los resultados de
los experimentos de la sección 5.6, presentados en el capı́tulo 6, se ha optado por
implementar una versión de clasificador basada en redes neuronales de tipo RBF, y
otra en MSV.
Ventana Diálogo Usuario: clase perteneciente a la capa de interfaz, encargada de
la comunicación con el usuario, gestionando el movimiento del cursor en pantalla,
presentación de secuencia de caracteres y avisos.
Consola Supervisor: es el interfaz con el supervisor, muestra avisos y opciones; punto
de entrada para parámetros de configuración y selecciones.
Grabador Datos: clase perteneciente a la capa de almacenamiento de datos, se
encarga de guardar la información de la sesión en curso.
Control: clase encargada de la secuenciación de funciones de cada una de las clases
anteriores, es en esta clase en donde reside la lógica de la aplicación.
5.7 Descripción de arquitectura dispositivo ICC. 157

Figura 5.13: Interfaz de la aplicación demostrador.


158 Procedimientos experimentales y aplicación de demostración.

5.7.4. Realización de los Casos de Uso.


La realización de los Casos de Uso muestran como interactúan las instancias de las
clases de análisis para realizar la funcionalidad del sistema. Representan la Vista Dinámica
del comportamiento del sistema, identificando a alto nivel las relaciones entre las clases de
análisis, operaciones y atributos.
La descripción de la Realización de los Casos de Uso se lleva a cabo mediante
los Diagramas de Interacción, de entre los cuatro tipos existentes7 se han escogido los
diagramas de secuencia como vı́a de documentación de la aplicación de demostración,
debido a su facilidad de comprensión, ası́ en las figuras 5.15 a 5.16 se muestra la realización
de los casos de uso anteriores con las clases de análisis consideradas.

Figura 5.14: Diagrama de secuencia del caso de uso Puesta en marcha del sistema.

7
UML 2.0 reúne los diagramas de: Secuencia, Comunicación, Tiempo y Visión de Interaccion, dentro
del tipo de Diagramas de Interacción.
5.7 Descripción de arquitectura dispositivo ICC. 159

Figura 5.15: Diagrama de secuencia del caso de uso “Deletrear palabra”.


160 Procedimientos experimentales y aplicación de demostración.

Figura 5.16: Diagrama de secuencia del caso de uso Finalización de la aplicación.


Capı́tulo 6

Análisis y discusión de los


resultados experimentales.
En este cap´ıtulo se presentan, analizan y discuten los resultados obtenidos con los
clasificadores descritos en el capı́tulo 4, empleando los registros de señal
electroencefalográfica adquiridos a través de los procedimientos experimentales descritos
en el capı́tulo 5, que a su vez aplican las técnicas de adquisición y procesamiento de señal
descritas en el cap´ıtulo 3.
Tras analizar y comprobar que existe evidencia de diferencia estad´ıstica entre las
poblaciones de los vectores de caracter´ısticas, obtenidos cuando los sujetos de los
experimentos realizan las actividades cognitivas propuestas, se procede a comprobar que
dicha diferencia estadı́stica se mantiene aplicando la técnica de Análisis Discriminativo
Lineal, lo que permite proceder a la reducción de la dimensionalidad del espacio de entrada
en clasificadores basados en redes neuronales de los tipos MLP, RBF y PNN. Finalmente
se analizan y discuten los resultados obtenidos con clasificadores de mayor complejidad,
como clasificadores bietapa basados en redes neuronales y modelos ocultos de Markov, ası́
como clasificadores basados en máquinas de soporte de vectores.
Como conclusión, el análisis de los resultados experimentales obtenidos muestra que
los ı́ndices de clasificación más altos se obtienen con máquinas de soporte de vectores, con
Kernels polinómicos de orden 4, empleando las ventanas de procesamiento de Tukey.

6.1. Resultados del método estadı́stico de comparación de


poblaciones.
Mediante los experimentos basados en la comparación estadı́stica de poblaciones,
procedimiento descrito en el apartado 4.1.2, se pretende determinar si existe evidencia
estadı́stica que permita diferenciar entre los registros de señal electroencefalográfica
realizados cuando el sujeto lleva a cabo actividades cognitivas diferentes, valorando
cuantitativamente los siguientes puntos:
Actividades cognitivas que ofrecen mayor poder de discriminación.
Tipo de ventana de procesamiento que da lugar a una mejor discriminación.
Identificación de las componentes del vector de caracterı́sticas que presentan mayor
tasa de discriminación.
Influencia del canal electroencefalográfico en la capacidad de discriminación.
162 Análisis y discusión de los resultados experimentales.

6.1.1. Presentación de resultados.


Las figuras 6.1 y 6.2 que se muestran a continuacion resumen los resultados obtenidos
en 10 sesiones experimentales, realizadas con un mismo voluntario en d´ıas diferentes,
siguiendo los procedimientos operacional y experimental descritos en los apartados 4.1.3
y 5.6.1 respectivamente. Por cada canal se representa una pareja de figuras, en cuyo eje de
abscisas se muestra la comparación entre las diferentes actividades cognitivas
empleadas. Para cada caso se han aplicado los siete tipos de ventana de procesamiento
considerados: rectangular, triangular, Blackman, Hamming, Hanning, Kaiser y Tukey; en
el eje de ordenadas se muestra el porcentaje de veces que cada ventana de procesamiento
ha mostrado diferencia estad´ıstica significativa, (p< 0,05); junto a su nombre, en la parte
superior, se muestra el promedio de caracter´ısticas estad´ısticamente significativas.1 Por
último, inmediatamente encima de la barra identificaba de cada ventana, se muestran las
componentes del vector de caracter´ısticas que han resultado significativas.

6.1.2. Análisis.
El análisis de las figuras 6.1 y 6.2 muestra la existencia de diferencia estadı́stica, entre las
poblaciones de caracterı́sticas extraı́das de la muestras de señal electroencefalográfica,
cuando el usuario realiza diferentes actividades cognitivas.2 As´ı mismo se observa que,
siendo el voluntario analizado diestro, la mayor capacidad de discriminación se obtiene en el
segundo canal electroencefalográfico, asociado a C4’ - C4” (hemisferio cerebral derecho), lo
que muestra una elevada lateralidad cerebral.
Estudiando cada una de las comparaciones de parejas de actividades cognitivas se
observa que:
Comparando “Cálculo matemático” con “Imaginación de movimiento”, véase lado
superior izquierdo de las figuras 6.1 y 6.2, se comprueba que las ventanas de
procesamiento de tipo Tukey, Kaiser y rectangular, son las que presentan mayor
evidencia de diferencia estadı́stica en la comparación de las poblaciones de los
vectores de caracter´ısticas en ambos hemisferios. As´ı mismo se observa que para todos
los tipos de ventanas de procesamiento, las componentes del vector de caracter´ısticas
con mayor poder de discriminación son β1 y β2 .
Analizando “Cálculo matemático” frente a “Realización de movimiento”, véase zona
superior central de las figuras 6.1 y 6.2, se observa que las ventanas de procesamiento
con mayor número de componentes significativas son las de Blackman, Hanning y
Tukey, ya que presentan caracter´ısticas significativas tanto en el hemisferio izquierdo
como en el derecho. Por otro lado las componentes con mayor relevancia en la
discriminación de actividades son α1 y α2 .
1
Este valor es equivalente a la suma de caracterı́sticas que muestran diferencia estadı́stica, divido por
el número de veces que el experimento ha sido replicado, N = 10.
2
Nótese que a efectos experimentales se ha considerado tanto la “Imaginación de movimiento” como
la “Realización de movimiento”, aunque está última actividad no deba ser considerada en dispositivos de
Interfaz Cerebro Computador.
6.1 Resultados del método estadı́stico de comparación de poblaciones. 163

Figura 6.1: Resultados de la comparación de actividades cognitivas en el canal 1.

Analizando “Cálculo matemático” frente a “Relax”, véase parte superior derecha de


las figuras 6.1 y 6.2, se observa que las ventanas de procesamiento más significativas
son las de Tukey y rectangular; mientras que las componentes del vector de
caracterı́sticas con mayor poder de discriminación son β1 seguida de β2 y β3 .
Del estudio de “Imaginación de movimiento” frente a “Relax”, véase parte
inferior izquierda de las figuras 6.1 y 6.2, se observa que la ventana rectangular
164 Análisis y discusión de los resultados experimentales.

Figura 6.2: Resultados de la comparación de actividades cognitivas en el canal 2.


6.1 Resultados del método estadı́stico de comparación de poblaciones. 165

es la que mejor capacidad de discriminación presenta, mostrando tanto diferencia


estad´ıstica significativa en ambos hemisferios cerebrales, como un mayor promedio
de componentes significativas del vector de caracter´ısticas, 1.3 para el hemisferio
izquierdo y 1.6 para el derecho. As´ı mismo se comprueba que con independencia
de la ventana de procesamiento, el hemisferio derecho, canal 2, presenta una mejor
capacidad de discriminación entre ambas actividades cognitivas, siendo las
componentes del vector de caracterı́sticas más relevantes: θ, β1 y β2 , con
independencia de la ventana de procesamiento; mientras que para el canal 1,
hemisferio izquierdo, las caracterı́sticas más significativas obtenidas con una ventana
de procesamiento de tipo rectangular son: α2, β1, β2 y β3.
La pareja de actividades que mejor capacidad de discriminación presenta es
“Imaginación de movimiento” frente a “Realización de movimiento”, véase zona
inferior central de la figura 6.2. Para todos los tipos de ventanas de procesamiento
aplicadas a la señal electroencefalográfica proveniente del canal 2, las caracterı́sticas
más significativas son: θ, α1 , α2 , β1 ; seguidas de β2 y β3 .
Por último, realizando la comparación entre diferentes sesiones de “Relax”, véase
parte inferior derecha de las figuras 6.1 y 6.2, aparecen diferencias significativas
entre poblaciones para las caracter´ısticas α2 y β2 del canal 2, y β1 β2 del canal 1.

6.1.3. Discusión.
Tras el análisis de la capacidad de discriminación de las diferentes actividades cognitivas
propuestas, considerando los registros EEG realizados sobre ambos hemisferios cerebrales,
se confirma que en todos los casos el hemisferio derecho muestra mayor capacidad de
discriminación que el izquierdo. Investigaciones en Neurologı́a indican que el hemisferio
izquierdo es calculador, comunicativo y capaz de construir planes complicados, mientras
que por su parte el derecho es causante de pensamientos creativos, integrales y hol´ısticos,
siendo más emotivo y conceptual [Alarcon 00], [Gazzaniga 92], [Jessell 97]. La razón de
que el hemisferio izquierdo se muestre menos discriminativo puede deberse a que su
nivel de actividad pueda llegar a enmascarar la diferencia ente las actividades cognitivas
propuestas; a este respecto son de especial relevancia los resultados obtenidos en la
comparación de las actividades de “Realización de movimiento” con “Imaginación de
movimiento”, en donde el hemisferio izquierdo (canal 1: C3’-C3”), no muestra ninguna
caracter´ıstica significativa, mientras que para el hemisferio derecho (canal 2: C4’-C4”) es la
pareja de actividades con mayor capacidad de discriminación.
De la inspección de los resultados de la comparación por parejas de las actividades
cognitivas propuestas, se obtiene la siguiente lista, ordenada de mayor a menor capacidad
de discriminación:
1. “Imaginación de movimiento” frente a “Realización de movimiento”.
2. “Cálculo matemático” frente a “Realización de movimiento”.
3. “Cálculo matemático” frente a “Imaginación de movimiento”.
4. “Cálculo matemático” frente a “Relax”.
5. “Imaginación de movimiento” frente a “Relax”.
166 Análisis y discusión de los resultados experimentales.

Del análisis de las ventanas de procesamiento, los mejores resultados se obtienen con
las ventanas de Tukey, Kaiser y rectangular. Las dos primeras son las que menos distorsión
en frecuencia ocasionan sobre la señal que enmarcan. Por su parte la ventana rectangular,
al tener una extensión igual al número de datos considerados en la FFT, N = 27 , minimiza
el efecto de fuga en el dominio frecuencial, ya que considera que la señal, es la repetición
periódica de la ventana de análisis considerada. El resto de las ventanas suavizan los bordes
de la ventana de análisis en el dominio temporal, aunque en menor grado, obteniéndose
los peores resultados con la ventana de tipo triangular o de Bartlett.
En la comparación de la actividad de “Relax” en sesiones diferentes, zona inferior de-
recha de las figuras 6.1 y 6.2, se detectan falsos positivos debido a la captación de ruido en
la señal electroencefalográfica de entrada. Obsérvese que la ventana de Tukey no muestra
diferencia para el hemisferio izquierdo, detectandose sólo la componente α2 , en el hemis-
ferio derecho, como falso positivo.

Considerando las caracterı́sticas que presentan una mejor capacidad de discriminación,


se observa que la banda más significativa comprende a las componentes α2 , β1 y β2 ,
observándose una mayor significación en aquellas componentes cercanas a la zona de
influencia del ritmo μ, en las comparaciones que involucran actividades en las que se
emplea imaginación o realización de movimiento.

6.1.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas presentadas en el apartado
6.1.2, empleando tests estadı́sticos de comparación bilateral de poblaciones, descritos en
la sección 4.1, se obtienen las siguientes conclusiones:
1. Un clasificador que discriminara entre actividad matemática e imaginación de
movimiento deberı́a considerar en la fase de filtrado y acondicionamiento de la
señal electroencefalográfica ventanas de tipo Tukey y considerar al menos las
caracter´ısticas α2, β1 y β2. Es importante destacar que la ventana de Tukey minimiza
el número de falsos positivos, por lo que es más robusta que otros tipos de ventanas.

2. En los test llevados a cabo, el canal localizado en C4’-C4” es más significativo que
el formado por C3’-C3”.
6.2 Resultados obtenidos aplicando la técnica LDA. 167

6.2. Resultados obtenidos aplicando la técnica LDA.


Una vez demostrada la evidencia de la diferencia estad´ıstica entre las poblaciones de
caracterı́sticas provenientes de la señal electroencefalográfica, cuando el usuario lleva a
cabo diferentes actividades mentales, el siguiente paso para el desarrollo de un clasificador
ICC en lı́nea, es la determinación automática del conjunto caracterı́sticas y combinación
de las mismas, que da lugar a una mejor capacidad de discriminación, para lo cual se
emplea la técnica LDA expuesta en el apartado 4.2. Es ası́ mismo de interés, evaluar el
efecto que la realimentación de la información hacia el usuario tiene sobre dicha capacidad
de discriminación, por lo que para la realización de este estudio se han utilizado los
procedimientos experimentales “Off-line” y “On-line” descritos en los apartados 5.4 y
5.5. El objetivo del procedimiento experimental “Off-line” es la adquisición de muestras
de señal electroencefalográfica del usuario, cuando éste realiza las actividades cognitivas
indicadas a modo de entrenamiento, por su parte el procedimiento “On-line” considera la
realimentación de información al usuario mientras éste realiza dichas actividades. 3

6.2.1. Presentación de resultados.


Debido a que se consideran sólo tres tipos de actividades cognitivas, la aplicación de
la técnica LDA da lugar a que sólo dos de los autovalores sean significativos (> 1 ∗ 10−4 ),
con sus autovectores asociados, ocasionando que la aplicación de esta técnica proyecte los
vectores de caracterı́sticas de dimensión 6 en un espacio bidimensional {X1 , X2 }, a través
de la aplicación de los coeficientes de ponderación recogidos en la matriz de transformación
W , manteniendo las propiedades intrı́nsecas de cada actividad cognitiva, véase apartados
4.2.4 y 4.2.5.
Las figuras 6.3 a 6.14 resumen los resultados de los tests estadı́sticos de comparación
bilateral de diferencias, entre las poblaciones de caracter´ısticas transformadas{4 X1, X2} ,
tras la aplicación de la técnica LDA, considerando los paradigmas experimentales
“Off-line” y “On-line”. Para cada canal (C3’-C3” y C4’-C4”) y tipo de ventana de
procesamiento, se muestra el nivel cr´ıtico, p, asociado a cada contraste bilateral de las
actividades cognitivas analizadas. Al objeto de mostrar la dispersión de resultados, se
representa el valor de la moda mediante un cuadrado (C3’-C3”) y un triángulo (C4’-C4”),
y el de los percentiles 15 y 85 mediante una l´ınea vertical.
Las muestras de señal provienen de los procedimientos experimentales descritos en el
cap´ıtulo 5, llevados a cabo sobre cinco voluntarios varones, diestros y sanos, de edades
comprendidas entre los 27 y 35 años.

3
Los resultados, análisis y conclusiones acerca de LDA han sido presentados en [Martı́nez 07] y
[Martinez 09].
4
Véase el apartado 4.1 del capı́tulo 4.
168 Análisis y discusión de los resultados experimentales.

Figura 6.3: Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X1 .

Figura 6.4: Off-line. Cálculo matemático vs Relax. Proyec. sobre X1 .


6.2 Resultados obtenidos aplicando la técnica LDA. 169

Figura 6.5: Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 .

Figura 6.6: On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X1 .


170 Análisis y discusión de los resultados experimentales.

Figura 6.7: On-line. Cálculo matemático vs Relax. Proyec. sobre X1 .

Figura 6.8: On-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 .


6.2 Resultados obtenidos aplicando la técnica LDA. 171

Figura 6.9: Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X2 .

Figura 6.10: Off-line. Cálculo matemático vs Relax. Proyec. sobre X2 .


172 Análisis y discusión de los resultados experimentales.

Figura 6.11: Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 .

Figura 6.12: On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X2 .


6.2 Resultados obtenidos aplicando la técnica LDA. 173

Figura 6.13: On-line. Cálculo matemático vs Relax. Proyec. sobre X2 .

Figura 6.14: On-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 .


174 Análisis y discusión de los resultados experimentales.

6.2.2. Análisis.
De los contraste bilaterales llevados a cabo con un nivel de significación α = 2,5 %,
α = 1 p,
− representados en las figuras 6.3 a 6.8 para X1, se observa que:
En la mayorı́a de los casos, la hipótesis nula H0 , que mantiene la igualdad de las
poblaciones de las caracter´ısticas asociadas a las actividades cognitivas, debe ser
rechazada para ambos tipos de experimentos.
As´ı mismo, los niveles cr´ıticos p, de los contrastes obtenidos en las comparaciones de
“Cálculo matemático” frente a “Imaginación de movimiento”, son menores para los
experimentos “On-line” que los obtenidos para los experimentos “Off-line”, en ambos
canales; mientras que la dispersión de los resultados es similar en ambos casos.
En los voluntarios analizados, de forma general el canal C4’-C4”, asociado al
hemisferio derecho, presenta una mejor capacidad de discriminación que C3’-
C3”, excepto en la comparación realizada para experimentos “On- line” entre las
actividades cognitivas “Cálculo matemático” e “Imaginación de movimiento”, en
donde se observa un cambio de tendencia, véase figura 6.6.
La mayor potencia de contraste se obtiene en la comparación entre “Imaginación
de movimiento” y “Relax”, seguido de “Cálculo matemático” y “Relax”, el menor
de ellos se da para la comparación entre “Cálculo matemático” e “Imaginación de
movimiento.”
El mismo tipo de análisis para X2 , figuras 6.9 a 6.14, muestra que la diferencia apenas
aperece en los experimentos “Off-line” y en ningún caso para los experimentos “On-line”,
p < 0,975.

6.2.3. Discusión.
Por lo general, para los dos tipos de experimentos, todas las ventanas de filtrado
muestran evidencia de diferencia estad´ıstica entre las actividades cognitivas propuestas;
los mejores resultados, representados por niveles crı́ticos p más altos y menor dispersión,
son obtenidos para X1 con las ventanas de Tukey y Kaiser. De los resultados numéricos se
observa que cuanto mayor es la magnitud del autovalor, caso de X1 , mayor es la aportación
de una de las componentes del vector de caracter´ısticas original, normalmente en la banda
de frecuencia β, por el contrario, cuanto menor es el autovalor, mayor es la contribución
del resto de los componentes del autovector.
As´ı mismo se observa que, la presencia de artefactos es mayor para los experimentos
“On-line” que para los experimentos “Off-line”.
Por otra parte, para los sujetos analizados, se confirma que le hemisferio derecho
presenta una capacidad de discriminación superior a la del hemisferio izquierdo, excepto
cuando, empleando las actividades cognitivas de “Cálculo matemático” e “Imaginación de
movimiento”, al sujeto se le realimenta información sobre el resultado de la clasificación;
lo que confirma lo indicado en el apartado 6.1.3 acerca de la especialización del
funcionamiento de cada hemisferio.
6.2 Resultados obtenidos aplicando la técnica LDA. 175

6.2.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas presentadas en el apartado
6.2.2, basado en la utilización de la técnica de Análisis Discriminatorio Lineal, se obtienen
las siguientes conclusiones:

1. Estadı́sticamente se ha probado que a través del uso de la técnica LDA es posible


reducir la dimensionalidad del espacio de caracterı́sticas de entrada original, a la
vez que la capacidad de discriminación entre las actitividades cognitivas propuestas
se mantiene, permitiendo as´ı el control de dispositivos externos por medio de la
asociación de dichas tareas a comandos del dispositivo.
2. De los resultados de experimentos “On-line” y “Off-line” llevados a cabo con cinco
voluntarios se concluye que, la realimentación del resultado de la clasificación al
usuario provoca una disminución de la capacidad de discriminación, pero sin llegar a
comprometer su uso en dispostivos ICC en lı́nea, conclusiones también confirmadas
en [Pineda 03].
3. Se demuestra que las ventanas de procesamiento de tipo Tukey y rectangular mejoran
la capacidad de discriminación entre las actividades cognitivas consideradas.
176 Análisis y discusión de los resultados experimentales.

6.3. Resultados obtenidos con clasificadores basados en


redes neuronales.
Después de comprobar que es posible discriminar entre poblaciones de caracterı́sticas,
provenientes de muestreo de señal electroencefalográfica adquiridas cuando el usuario
realiza las actividades cognitivas propuestas, habiendo sido reducida la dimensionalidad
del espacio de caracter´ısticas original, el siguiente paso es determinar la tecnolog´ıa y
estructura del clasificador que presente una mayor tasa de aciertos con menor variabilidad.
Para tal fin, en este apartado se muestran los resultados obtenidos con clasificadores
basados en redes neuronales de tipo: Perceptrón Multicapa (MLP), redes neuronales
basadas en Funciones de Base Radial (RBF) y Redes Neuronales Probabil´ısticas (PNN);
descritas respectivamente en los apartados: 4.3.1, 4.3.2 y 4.3.3. A efectos de comprobar si
la estructura interna del clasificador influye en el resultado final de la clasificación, se
han considerado dos modalidades de clasificadores para cada tipo de red neuronal, en la
primera modalidad el clasificador consta de dos redes neuronales independientes,
procesando cada una de ellas el flujo de vectores de caracterı́sticas que proviene del
canal electroencefalográfico considerado (C3’-C3” o C4’-C4”); mientras que en la segunda
modalidad, el clasificador consta de una única red neuronal que procesa de forma conjunta
ambos flujos de vectores de caracter´ısticas.
Considerando el efecto de sobre-aprendizaje, las redes neuronales fueron entrenadas
siguiendo lo expuesto en los apartados: 4.3.1.3, 4.3.2.4 y 4.3.3.

6.3.1. Presentación de resultados.


Las figuras siguientes resumen los resultados obtenidos, con cinco voluntarios, tras la
aplicación de los clasificadores una vez han sido entrenados con las muestras adquiridas.
En el eje de ordenadas se muestran los porcentajes de clasificaciones correctas obtenidos de
las matrices de confusión, veáse apéndice B, aplicadas a cada uno de los tres clasificadores.
Nótese que la escala ha sido divida a efectos de apreciar la dispersión de los resultados.
En el eje de abcisas se muestran los diferentes tipos de ventanas de preprocesamiento
considerados.
A efectos de mostrar la dispersión en los valores obtenidos, para cada clasificador y
tipo de ventana de procesamiento se muestra una barra con los porcentajes de clasificación
máximo, mı́nimo y valor de la mediana. Ası́ mismo se representan los resultados obtenidos
para las dos modalidades de clasificadores.
6.3 Resultados obtenidos con clasiftcadores basados en redes neuronales. 177

Figura 6.15: Sujeto A. Canal 1. Clasificaciones correctas.

Figura 6.16: Sujeto A. Canal 2. Clasificaciones correctas.


178 Análisis y discusión de los resultados experimentales.

Figura 6.17: Sujeto A. Canal 1 y 2. Clasificaciones correctas.

Figura 6.18: Sujeto B. Canal 1. Clasificaciones correctas.


6.3 Resultados obtenidos con clasiftcadores basados en redes neuronales. 179

Figura 6.19: Sujeto B. Canal 2. Clasificaciones correctas.

Figura 6.20: Sujeto B. Canal 1 y 2. Clasificaciones correctas.


180 Análisis y discusión de los resultados experimentales.

Figura 6.21: Sujeto C. Canal 1. Clasificaciones correctas.

Figura 6.22: Sujeto C. Canal 2. Clasificaciones correctas.


6.3 Resultados obtenidos con clasiftcadores basados en redes neuronales. 181

Figura 6.23: Sujeto C. Canal 1 y 2. Clasificaciones correctas.

Figura 6.24: Sujeto D. Canal 1. Clasificaciones correctas.


182 Análisis y discusión de los resultados experimentales.

Figura 6.25: Sujeto D. Canal 2. Clasificaciones correctas.

Figura 6.26: Sujeto D. Canal 1 y 2. Clasificaciones correctas.


6.3 Resultados obtenidos con clasiftcadores basados en redes neuronales. 18
3

Figura 6.27: Sujeto E. Canal 1. Clasificaciones correctas.

Figura 6.28: Sujeto E. Canal 2. Clasificaciones correctas.


184 Análisis y discusión de los resultados experimentales.

Figura 6.29: Sujeto E. Canal 1 y 2. Clasificaciones correctas.


6.3 Resultados obtenidos con clasiftcadores basados en redes neuronales. 18
5
6.3.2. Análisis.
De los resultados anteriores se extraen las siguientes consideraciones:
Los clasificadores basados en redes neuronales de tipo PNN o RBF presentan un
porcentaje de clasificaciones correctas del 84 %, frente al 33 % obtenido con los
clasificadores basados en redes neuronales de tipo MLP.
Estabilidad de resultados. En todos los casos el procedimiento se replicó tres veces.
Con clasificadores basados en PNN o en RBF se obtuvo siempre la misma matriz de
confusión, véase apéndice B, mientras que con clasificadores basados en MLP se
obtuvieron matrices de confusión diferentes para cada replica.
Los clasificadores basados en PNN dan lugar a porcentajes de clasificaciones
correctas más altos que los obtenidos con los clasificadores basados en RBF, sin
embargo por contra también muestran una mayor dispersión.
Clasificadores con redes neuronales distintas, una para cada canal electroencefa-
lográfico, proporcionan mejores resultados que aquellos que consideran una única
red neuronal que procesa conjuntamente ambos vectores de caracter´ısticas.
Considerando los tipos de ventanas de preprocesamiento, los ı́ndices de
discriminación más altos y menor dispersión se obtienen para las ventanas de tipo
Kaiser, Tukey y rectangular.
Un clasificador que emplee en su estructura dos redes neuronales diferentes, una por
cada canal, conectadas a un bloque que pondere las salidas de ambas redes, permite
obtener mejores porcentajes de clasificación correcta que otros clasificadores basados
en una sola red neuronal, que fusione los vectores de caracter´ısticas de ambos canales
en uno solo.
Se observa que el empleo de ventanas de Kaiser, Tukey y rectangular, da lugar a un
incremento en el porcentaje de clasificaciones correctas, a la vez que disminuye su
dispersión, lo cual está en lı́nea con lo expuesto en 6.1.3 acerca del tipo de ventana
de procesamiento.

6.3.3. Discusión.
Con los vectores de caracterı́sticas considerados, basados en la estimación espectral
de potencia de las bandas frecuenciales: θ, α1, α2, β1, β2 y β3; los clasificadores basados
en redes neuronales de tipo probabilı́stico (PNN) o en funciones de base radial (RBF),
presentan mejores resultados que los clasificadores basados en redes neuronales de tipo
Perceptrón Multicapa (MLP), tanto desde el punto de vista de porcentanjes correctos
de clasificación, como en estabilidad de los mismos, conclusión similar se presenta en
[Garrett 03]. Este comportamiento se explica por la función de distribución de probabilidad
de los vectores de caracterı́sticas, y la mayor capacidad de interpolación de las redes
neuronales de tipo PNN o RBF, que la obtenida con las redes de tipo MLP.
186 Análisis y discusión de los resultados experimentales.

As´ı mismo, en l´ınea con lo discutido en los apartados 6.1.3 y 6.2.3, se observa que los
resultados obtenidos con el clasificador basado en redes RBF presenta mejores resultados
para el hemisferio derecho que para el izquierdo.
Por otro lado, la variabilidad de resultados entre los clasificadores basados en redes
neuronales de tipo PNN y los basados en redes neuronales de tipo RBF, se debe no tanto a
la estructura intrı́nseca de ambas redes neuronales, muy próximas entre sı́, tal y como puede
verse en los apartados 4.3.2 y 4.3.3, sino al proceso de aprendizaje y número de neuronas
considerados en la capa oculta. Mientras que para las redes neuronales RBF el número de
neuronas se determina incrementalmente mediante el proceso de aprendizaje, para las redes
neuronales PNN este número se determina a partir del número de elementos considerados
en el conjunto de entrenamiento, dando lugar a que las redes neuronales de tipo PNN
tengan más neuronas en la capa oculta que las redes neuronales de tipo RBF, lo que a su
vez provoca un mayor sobre-aprendizaje del conjunto de entrenamiento, caraterizado por
un porcentaje mayor en el número de clasificaciones correctas sobre dicho conjunto, pero
también una menor capacidad de generalización sobre los conjuntos de validación y test.

6.3.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas realizadas con cinco voluntarios,
presentados en el apartado 6.3.2, empleando clasificadores basados en redes neuronales
descritos en la sección 4.3, se obtienen las siguientes conclusiones:
1. Es factible la discriminación entre las actividades cognitivas propuestas, empleando
los registros de señal electroencefalográfica provenientes de los canales C3’-C3” y
C4’-C4”.
2. Es preferible el empleo de un clasificador en cuya arquitectura se empleen dos redes
neuronales diferentes, especializadas respectivamente en cada uno de los dos canales
de señal electroencefalográfica, siendo sus resultados evaluados en un ponderador
que otorgue mayor peso a la red asociada al hemisferio derecho.
3. Se recomienda la utilización de ventanas de procesamiento de Tukey o Kaiser, ya
que dan lugar a un porcentaje mayor de clasificaciones correctas.
6.4 Resultados obtenidos con clasiftcadores bietapa basados en redes neuronales y
Modelos Ocultos de Markov. 187

6.4. Resultados obtenidos con clasificadores bietapa basa-


dos en redes neuronales y Modelos Ocultos de Markov.
En la sección anterior se mostraron los resultados de clasificación conseguidos con
diferentes topologı́as y arquitecturas de redes neuronales. En esta sección se presentan,
analizan y discuten los resultados obtenidos tras la aplicacion del clasificador bietapa,
descrito en el apartado 4.4.6, a las muestras de señal electroencefalográfica provenientes
de seis sesiones realizadas con cinco voluntarios diestros, siguiendo el procedimiento
experimental “Off-line” del cap´ıtulo 5.
Como se describe en el apartado 4.4.6, el clasificador implementado emplea en una
primera etapa de clasificación una red neuronal de tipo RBF, ya que como se muestra en
el punto 6.3.2 anterior, ésta da lugar a un elevado porcentaje de aciertos, semejante al
máximo obtenido con las redes neuronales de tipo PNN, pero con menor dispersión. En
una segunda etapa se compara la secuencia de preclasificaciones proveniente de la etapa
anterior con tres modelos de Markov, entrenados cada uno de ellos con secuencias de
preclasificaciones provenientes de cada una de las actividades cognitivas, la presecuencia
es asignada a la actividad cognitiva cuyo Modelo Oculto de Markov de lugar a una mayor
probabilidad de observación.5 Ası́ mismo, considerando los análisis anteriores acerca de la
influencia del tipo de ventana de preprocesamiento en la clasificación, véanse apartados
6.1.2 y 6.2.2, en la implementación del clasificador se han empleado ventanas de tipo Tukey.
Una primera estimación del efecto de entrenamiento en el usuario puede ser extraı́da de
la comparación de los resultados de las dos sesiones realizadas por el mismo voluntario.

6.4.1. Presentación de resultados.


Con objeto de comprobar el funcionamiento del algoritmo de clasificación propuesto
y la influencia que sobre el mismo tienen los parámetros de umbral de asignación, λ,
as´ı como la variable que determina la zona de influencia de cada neurona de entrada de la
red neuronal, Sc, se procede a utilizar las muestras de señal EEG adquiridas de las sesiones
de prueba con los voluntarios del modo siguiente:

6.4.1.1. Evaluación de la capacidad de aprendizaje.


Con un subconjunto de las muestras de señal EEG adquiridas se procede a
entrenar el algoritmo con los siguientes valores: λ = 0,55;
{ 0,65; 0,8 ,}Sc = 0,5; { 0,95 . La
}
determinación del valor de los parámetros viene fijada por los máximos que se
detectan después de una búsqueda extensiva sobre la señal del primer voluntario. Con
posterioridad al entrenamiento se vuelve a procesar la misma señal a través del clasificador,
comparándose la clasificación obtenida con la proporcionada durante el proceso de
aprendizaje, en todos los casos se obtiene un reconocimiento correcto del 100 %.
5
La longitud de la cadena de preclasificaciones ha sido determinada en 9 elementos, tras experimentar con
cadenas sintéticas de longitudes diferentes y entrenar tres Modelos Ocultos de Markov, semejantes a los
empleados en el clasificador.
188 Análisis y discusión de los resultados experimentales.

6.4.1.2. Evaluación de la capacidad de generalización.


Ante el buen comportamiento de la capacidad de aprendizaje se opta por utilizar el
método de validación cruzada, en el que el entrenamiento se hace con nueve sesiones,
todas menos una de las sesiones de señal EEG disponible, dejando la sesión no utilizada
para la evaluación del comportamiento del algoritmo, el proceso se realiza tantas veces
como sesiones disponibles existen, seleccionando en cada ocasión una sesión de evaluación
diferente. Las tablas siguientes muestran los resultados obtenidos para cada voluntario en
función de los citados parámetros: λ y Sc.
Para cada combinación de los mismos, el proceso entero se replica 3 veces. En la fila
superior se muestra el número de identificaciones correctas, en la fila inferior se muestra el
tanto por ciento de mejora que se obtiene al compararlo con un clasificador equiprobable.
Tabla 6.1: Resultados voluntario AL01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
94 103 103 94 81 87 93 92 87 86 97 81
4% 14 % 14 % 4% -10 % -3 % 3% 2% -3 % -4 % 8% -10 %
Tabla 6.2: Resultados voluntario RO01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
103 97 92 118 109 118 97 87 86 117 106 110
14 % 8% 2% 31 % 21 % 31 % 8% -3 % -4 % 30 % 18 % 22 %
Tabla 6.3: Resultados voluntario JA01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
106 97 110 87 90 107 99 106 107 98 108 99
18 % 8% 22 % -3 % 0% 19 % 10 % 18 % 19 % 9% 20 % 10 %
Tabla 6.4: Resultados voluntario DA01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
109 102 104 83 92 92 106 91 110 86 87 92
21 % 13 % 15 % -8 % 2% 2% 18 % 1% 22 % -4 % -3 % 2%
Tabla 6.5: Resultados voluntario RA01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
106 97 110 87 90 107 99 106 107 91 76 99
18 % 8% 22 % -3 % 0% 19 % 10 % 18 % 19 % 1% -15 % 10 %
Tabla 6.6: Resultados voluntario RA02.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
102 102 98 102 107 114 103 105 96 116 99 98
13 % 13 % 8% 13 % 19 % 26 % 14 % 16 % 6% 29 % 10 % 9%
6.4 Resultados obtenidos con clasiftcadores bietapa basados en redes neuronales y
Modelos Ocultos de Markov. 189

6.4.2. Análisis.
De los resultados obtenidos de la aplicación del algoritmo de clasificación propuesto se
observa que:
1. La capacidad de aprendizaje es superior a la que se obtiene con una red neuronal de
tipo RBF, 100 % de reconocimiento del conjunto de aprendizaje.
2. La variabilidad en los valores de clasificación de las réplicas es debida al empleo de
modelos ocultos de Markov, tanto en la fase de aprendizaje como durante la fase de
clasificación posterior.
3. Los ı́ndice de clasificación más altos se dan para valores de Sc = 0,5 y λ = 0,65;
aunque se observa una gran dependencia con respecto al usuario y su experiencia en
la utilización del sistema. La discrepancia de resultados entre RA1 y RA2 se
explicada por el proceso de aprendizaje en la utilizacion del dispositivo, la sesión
RA1 es previa a RA2.
4. Los resultados de las pruebas de validación cruzada son mejores que los obtenidos
con un clasificador equiprobable.

6.4.3. Discusión.
La dispersión de máximos en los valores de clasificaciones correctas obtenidos en
las pruebas de validación cruzada, indican que la combinación de los parámetros λ
y Sc es dependiente del usuario, por lo que para un dispositivo ICC que utilice un
algoritmo de este tipo, se deberı́a prever al menos una fase de sintonización que permitiera
ajustar estos parámetros. Si bien es cierto que el algoritmo se comporta mejor que un
clasificador equiprobable, su comportamiento no es todo lo óptimo que cabrı́a esperar
considerando su capacidad de aprendizaje, observándose un sobre-aprendizaje del conjunto
de entrenamiento. El tamaño del conjunto de datos de entrenamiento es determinante
en los resultados obtenidos en la fase de ejecución. El efecto de sobre-aprendizaje se
minimizar´ıa aumentando el conjunto de datos disponibles para el entrenamiento.

6.4.4. Conclusiones.
Del análisis y discución anteriores, empleando clasificadores bietapa basados en redes
neuronales de tipo RBF y Modelos Ocultos de Markov descritos en la sección 4.4.6, se
obtienen las siguientes conclusiones:
1. La información contenida en la secuencia de asignaciones mejora la capacidad de
clasificación, siendo los modelos ocultos de Markov una técnica válida para la
extracción y utilización de dicha información.
2. Los parámetros de ajuste del algoritmo, λ y Sc, han de modificarse en función
del usuario, ya que influyen notoriamente en la capacidad de generalización y
clasificación del algoritmo, por lo que se precisa un proceso previo de optimización
que determine el valor de dichos parámetros.
190 Análisis y discusión de los resultados experimentales.

6.5. Resultados obtenidos con clasificadores basados en


Máquinas de Soporte de Vectores.
En esta sección se presentan, analizan y discuten, los resultados obtenidos con
clasificadores basados en Máquinas de Soporte de Vectores. Estos clasificadores utilizan el
método de discrimación lineal, en un espacio de caracterı́sticas transformado de dimensión
superior a la del espacio de caracter´ısticas original, tal y como se describe en los apartados:
4.5.1, 4.5.2 y 4.5.5.
Los resultados presentados se han obtenido tras la aplicación del procedimiento descrito
en el apartado 5.6.5, a los datos de once sesiones experimentales realizadas siguiendo el
procedimiento descrito en 4.5.1.
Para determinar que clasificador proporciona los ı́ndices de clasificación correcta más
elevados, con la mayor capacidad de generalización, o lo que es lo mismo con un porcentaje
menor de vectores soporte [Cristianini 05b], se han empleado los datos considerados en la
tabla 6.7.
Tipo de Kernel. Valores de los parámetros caracterı́sticos.
Gaussiano 1, 2, 3, 5 y 10.
Polinómico 2, 3, 4, 7 y 8.
Tabla 6.7: Familia de funciones Kernel y parámetros caracterı́sticos.

Se han seleccionado estos valores con el propósito de evaluar la influencia que, tanto su
magnitud, como la forma de la función Kernel a la que dan lugar6 , tienen tanto sobre
el porcentaje de clasificaciones correctas obtenido, como sobre el número de vectores
soporte seleccionados. As´ı mismo destacar que, un clasificador basado en funciones Kernel
polinómicas de orden 1 darı́a lugar a un clasificador lineal.

6.5.1. Presentación de resultados.


A continución se representan para los Kernels considerados, tanto los resultados de
porcentajes de clasificaciones correctas, como el número de vectores soporte seleccionados
del total del conjunto de entrenamiento. Por último, para cada tipo de Kernel, se
muestra una familia de gráficas donde se representa la correlacion entre el porcentaje de
clasificaciones correctas y vectores soporte, considerando los diferentes tipos de ventanas
de procesamiento.

6.5.1.1. Clasiftcaciones correctas frente a parámetros del Kernel.


En las figuras 6.30 a 6.33 se representan, para cada tipo de ventana de
preprocesamiento, función Kernel del tipo de clasificador y parámetros considerados en
6
Con Kernels de tipo polinómicos, valores pares del parámetro dan lugar a funciones kernel simétricas,
mientras que valores impares dan lugar a funciones kernel anti-simétricas.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 191

el mismo, los resultados de porcentaje de clasificaciones correctas obtenidos a partir de las


matrices de confusión, véase apéndice B, tras la aplicación de las muestras a los
clasificadores una vez entrenados.
Las figuras muestran diagramas de cajas, en donde el valor medio de clasificación se
muestra por la l´ınea central en la muesca de la caja, la certeza de dicho valor se representa
por el tamaño de la caja, mientras que la variabilidad de los datos se muestra por la
longitud de los segmentos a ambos extremos de cada caja, siendo equivalentes a 1.5 veces
la desviación tı́pica. En el caso de aparecer datos que difieran del valor medio en más de
1.5 desviaciones tı́picas, se muestran como pequeñas circunferencias, mientras que por el
contrario, si todos los datos quedan dentro de ambos segmentos se representa un punto en
el extremo.

6.5.1.2. Número de vectores soporte frente a parámetros del Kernel.


Las figuras 6.34 a 6.37, muestran los resultados de porcentaje de vectores soporte
seleccionados en el clasificador, en función de los parámetros considerados para los
diferentes tipos de funciones Kernel.

6.5.1.3. Clasiftcaciones correctas frente a número de vectores soporte.


Por último en las figuras 6.38 a 6.53 se representan para ambos canales: C1 y
C2, el porcentaje de clasificaciones correctas en función del porcentaje del número de
vectores soporte seleccionados, considerando tanto los diferentes tipos de ventanas de
preprocesamiento, como los valores de parametrización de las funciones Kernel. Ası́ mismo
se muestra una tabla con los valores numéricos de valores medios y desviaciones tı́picas
obtenidos en cada caso.
Al igual que en el apartado anterior, se representa tanto el valor medio como la
desviación tı́pica asociada a ambos porcentajes, por lo que en lugar de utilizar diagrama
de cajas se utiliza una elipse para cada tipo de ventana de preprocesamiento, su centro
representa el valor medio, mientras que los diámetros horizontal y vertical muestran,
respectivamente, las desviaciones tı́picas de los porcentajes del número de vectores soporte
y clasificaciones correctas.
A diferencia de los apartados anteriores, la representación para Kernels polinómicos
de grado 5 o superior no se realiza, ya que como se muestra en las figuras 6.36 y 6.37 se
obtiene la práctica totalidad de clasificaciones correctas con Kernels polinómicos de grado
4, salvo casos excepcionales.
192 Análisis y discusión de los resultados experimentales.

Figura 6.30: Porcentaje de clasificaciones correctas. Canal 1. Kernel gaussiano.

Figura 6.31: Porcentaje de clasificaciones correctas. Canal 2. Kernel gaussiano


6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 193

Figura 6.32: Porcentaje de clasificaciones correctas. Canal 1. Kernel polinómico.

Figura 6.33: Porcentaje de clasificaciones correctas. Canal 2. Kernel polinómico.


194 Análisis y discusión de los resultados experimentales.

Figura 6.34: Porcentaje de vectores soporte. Canal 1. Kernel gaussiano.

Figura 6.35: Porcentaje de vectores soporte. Canal 2. Kernel gaussiano


6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 195

Figura 6.36: Porcentaje de vectores soporte. Canal 1. Kernel polinómico.

Figura 6.37: Porcentaje de vectores soporte. Canal 2. Kernel polinómico.


196 Análisis y discusión de los resultados experimentales.
Tabla 6.8: Resultados Kernel gaussiano (P:1).

Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 100.00 0.1 96.87 10.85 100.00 0.1 96.81 11.06
Triangular 97.50 3.90 95.96 10.45 97.92 2.75 96.93 10.10
Blackman 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01
Hamming 98.33 3.39 96.18 10.25 98.75 1.66 96.82 10.50
Hanning 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01
Kaiser 99.67 0.78 96.77 10.83 100.00 0.10 96.81 11.06
Tukey 99.67 0.78 96.75 11.04 100.00 0.10 96.81 11.06

Figura 6.38: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=1.

Figura 6.39: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=1.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 197
Tabla 6.9: Resultados Kernel gaussiano (P:2).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 99.75 0.62 96.88 10.64 100.00 0.10 96.90 10.74
Triangular 84.67 10.89 93.49 10.38 85.25 11.26 96.15 9.19
Blackman 88.50 8.23 93.67 10.20 88.08 9.05 96.11 9.19
Hamming 90.33 7.08 94.48 9.87 90.17 7.63 96.50 9.20
Hanning 88.58 8.28 93.65 10.22 88.08 9.05 96.13 9.18
Kaiser 96.92 3.82 96.70 9.28 97.75 2.26 97.12 9.93
Tukey 98.58 2.97 96.33 10.46 99.08 1.24 96.98 10.45

Figura 6.40: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=2.

Figura 6.41: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=2.
198 Análisis y discusión de los resultados experimentales.
Tabla 6.10: Resultados Kernel gaussiano (P:3).

Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 98.83 2.08 96.84 9.77 98.67 1.92 97.17 9.81
Triangular 77.08 17.50 89.84 12.78 74.92 17.39 92.92 10.36
Blackman 81.00 14.89 90.74 11.90 77.83 16.04 93.59 10.61
Hamming 80.92 14.18 91.54 11.69 79.17 15.26 95.03 9.85
Hanning 80.08 15.10 90.82 11.83 77.92 16.06 93.63 10.58
Kaiser 91.00 6.58 95.68 8.84 91.08 5.99 96.58 9.28
Tukey 94.17 4.88 95.59 10.17 94.08 5.12 96.80 9.75

Figura 6.42: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=3.

Figura 6.43: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=3.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 199
Tabla 6.11: Resultados Kernel gaussiano (P:5).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 89.67 7.08 95.83 9.49 89.75 7.82 97.03 8.60
Triangular 77.50 17.83 81.03 14.47 75.08 17.87 83.88 11.78
Blackman 78.08 16.98 83.53 13.87 75.42 18.08 85.78 12.10
Hamming 77.00 17.79 84.78 14.11 74.67 18.22 86.89 11.52
Hanning 78.17 16.88 83.59 13.87 75.42 18.08 85.82 12.13
Kaiser 78.75 15.48 91.41 11.32 76.67 15.98 94.52 10.00
Tukey 81.58 13.48 92.60 11.23 79.67 14.48 95.13 10.44

Figura 6.44: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=5.

Figura 6.45: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=5.
20 Análisis y discusión de los resultados experimentales.
0 Tabla 6.12: Resultados Kernel gaussiano (P:10).

Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 74.67 19.06 88.08 13.56 74.25 18.48 91.52 11.03
Triangular 85.33 14.15 65.71 13.86 83.08 16.30 69.52 11.93
Blackman 84.00 14.81 67.94 14.00 82.33 17.12 72.38 12.24
Hamming 83.25 15.27 68.29 13.68 80.83 17.31 73.68 11.95
Hanning 84.00 14.81 67.97 13.96 82.33 17.12 72.48 12.24
Kaiser 78.58 17.80 78.27 14.75 76.00 17.65 81.22 12.00
Tukey 76.83 18.36 81.55 15.19 75.00 17.70 85.46 11.85

Figura 6.46: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=10.

Figura 6.47: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=10.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 201
Tabla 6.13: Resultados Kernel polinómico (P:2).

Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 69.33 18.97 66.63 15.51 71.83 20.85 67.47 13.96
Triangular 75.83 19.08 61.20 11.59 72.50 20.30 67.71 12.16
Blackman 77.42 19.64 60.99 9.95 73.50 20.02 66.93 12.44
Hamming 76.33 19.46 61.20 9.71 72.50 20.59 67.42 13.04
Hanning 77.42 19.64 60.97 9.95 73.42 20.10 66.95 12.42
Kaiser 73.50 19.57 63.51 11.89 71.33 20.50 66.59 13.14
Tukey 73.67 19.18 62.78 10.79 72.67 21.01 65.92 11.33
Canal 1. Kernel polinomico, n=2
80
Rect.
Trian.
Black.
Hamm.
Hann.
75 Kaiser

Tukey.
% Clasificaciones correctas.

70

65

60

55
55 60 65 70 75 80 85 90
% Vectores soporte.

Figura 6.48: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=2.
Canal 2. Kernel polinomico, n=2
80
Rect.
Trian.
Black.
Hamm.
Hann.
75 Kaiser

Tukey.
% Clasificaciones correctas.

70

65

60

55
55 60 65 70 75 80 85 90
% Vectores soporte.

Figura 6.49: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico P=2.
20 Análisis y discusión de los resultados experimentales.
2 Tabla 6.14: Resultados Kernel polinómico (P:3).

Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 56.00 15.62 85.54 11.81 55.92 16.75 86.57 12.48
Triangular 57.17 13.97 85.08 11.59 56.50 15.44 85.40 12.61
Blackman 57.58 13.63 87.26 9.82 57.58 15.38 85.51 12.82
Hamming 56.58 13.41 85.25 10.80 56.58 15.56 85.02 12.77
Hanning 57.58 13.66 85.83 10.91 57.58 15.38 85.51 12.82
Kaiser 54.67 14.59 85.81 11.43 54.58 15.64 86.98 12.30
Tukey 55.75 15.11 85.83 11.06 54.75 16.73 85.57 13.03
Canal 1. Kernel polinomico, n=3
94
Rect.
Trian.
92 Black.
Hamm.
Hann.
Kaiser
90 Tukey.
% Clasificaciones correctas.

88

86

84

82

80

78

76
46 48 50 52 54 56 58 60 62 64 66
% Vectores soporte.

Figura 6.50: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=3.
Canal 2. Kernel polinomico, n=3
94
Rect.
Trian.
92 Black.
Hamm.
Hann.
Kaiser
90 Tukey.
% Clasificaciones correctas.

88

86

84

82

80

78

76
46 48 50 52 54 56 58 60 62 64 66
% Vectores soporte.

Figura 6.51: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico P=3.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 20
Tabla 6.15: Resultados Kernel polinómico (P:4). 3
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 45.25 10.52 100.00 0.10 45.00 11.36 96.58 11.84
Triangular 48.00 10.79 99.40 1.35 45.42 8.20 99.94 0.20
Blackman 49.67 12.02 99.27 1.58 46.25 9.56 100.00 0.10
Hamming 47.83 10.14 99.53 1.22 45.25 8.41 100.00 0.10
Hanning 49.75 12.11 99.27 1.58 46.17 9.49 100.00 0.10
Kaiser 45.25 9.28 99.96 0.14 44.33 9.03 100.00 0.10
Tukey 45.50 9.96 99.98 0.10 43.25 10.90 96.26 12.96
Canal 1. Kernel polinomico, n=4
101
Rect.
Trian.
Black.
Hamm.
100.5 Hann.

Kaiser
Tukey.
% Clasificaciones correctas.

100

99.5

99

98.5

98

40 42 44 46 48 50 52 54 56
% Vectores soporte.

Figura 6.52: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=4.
Canal 2. Kernel polinomico, n=4

Rect.
102 Trian.
Black.
Hamm.
Hann.
Kaiser
100
Tukey.
% Clasificaciones correctas.

98

96

94

92

90

38 40 42 44 46 48 50 52
% Vectores soporte.

Figura 6.53: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico P=4.
204 Análisis y discusión de los resultados experimentales.

6.5.2. Análisis.
De la inspección de los resultados obtenidos con los clasificadores basados en Kernels
gaussianos se observa que:
Conforme se aumenta la extensión de la zona de influencia de la función Kernel: 1,
2, 3, 5 y 10; el porcentaje de clasificaciones correctas disminuye, con independencia
tanto del canal como del tipo de ventana de procesamiento, pasando de un 100 % de
clasificaciones correctas para n=1 con cualquier tipo de ventana de preprocesameinto
a valores comprendidos entre el 80 % - 90 % en el caso de ventanas de tipo rectangular,
Kaiser y Tukey, o 65 % - 75 % para el resto de ventanas de preprocesamiento, cuando
se consideran clasificadores con funciones Kernel gaussianas con n=10.
Conforme aumenta el parámetro de la función Kernel, el porcentaje de vectores
soporte considerados disminuye, pasando del 100 % del conjunto de datos de
entrenamiento para n=1, a valores comprendidos entre el 74 % - 85 % dependiendo del
tipo de ventana de preprocesamiento, al igual que para el porcentaje de clasificaciones
correctas, los valores menores se obtienen con ventanas de tipo rectangular, Kaiser y
Tukey, obteniéndose la menor variabilidad para ventanas de Kaiser.

El mismo tipo de análisis llevado a cabo sobre los clasificadores basados en Kernels
polinómicos muestra que:
Al aumentar el orden del polinomio aumenta el número de clasificaciones correctas,
a la vez que disminuye el porcentaje de vectores soporte, llegándose a obtener un
100 % de clasificaciones correctas con Kernels polinómicos de orden 4 o superior, para
Kernels de orden 4 se obtiene un 100 % de clasificaciones correctas con ventanas de
preprocesamiento de tipo rectangular, Kaiser y Tukey, ver figuras 6.32 y 6.33.
Para Kernels de orden 4 o superior el porcentaje de vectores soporte seleccionados se
estabiliza entre el 45 % - 50 % dependiendo del tipo de ventana de preprocesamiento,
los valores menores se obtienen para ventanas de tipo rectangular, Kaiser, Tukey (ver
figuras 6.36, 6.37, 6.52, 6.53), volviéndose a obtener la menor variabilidad para
ventanas de Kaiser.
Realizando una comparación entre los resultados obtenidos con clasificadores cuya
información proviene del canal C3’-C3” frente a los del C4’-C4”, se observa que
el segundo muestra un mejor comportamiento al presentar porcentajes ligeramente
mayores de clasificaciones correctas con menores porcentajes de vectores soporte que
los mostrados por sus homólogos en C3’-C3”, ver figuras 6.30 y 6.31, 6.32 y 6.33.

6.5.3. Discusión.
Los clasificadores basados en Kernels gaussianos tienden al sobre-aprendizaje del
conjunto de entrenamiento, ya que cuando el parámetro caracterı́stico es pequeño, todos
los patrones de entrenamiento presentados se convierten en vectores soporte, conforme el
parámetro caracterı́stico del Kernel aumenta, lo que es equivalente a aumentar la zona
de influencia de cada uno de los vectores soporte seleccionados, el número de los mismos
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 205

disminuye, reduciendo as´ı mismo el porcentaje obtenido de clasificaciones correctas. Tal y


como se desprende de los dos primeros puntos del análisis previo, los mejores resultados
se obtienen con las ventanas de procesamiento de tipo rectangular, Kaiser y Tukey.
Los clasificadores basados en Kernels polinómicos no muestran el efecto de sobre-
aprendizaje del conjunto de entrenamiento, ya que como se indica en los puntos tercero y
cuarto del análisis anterior, conforme se aumenta el orden del polinomio, disminuye el
número de vectores soporte a la vez que aumenta el número de clasificaciones correctas
conseguido; sin embargo para Kernels polinómicos de orden superior a 5 no se observa una
mejora significativa.
Comparando clasificadores basados en Kernels gaussianos con clasificadores basados
en Kernels polinómicos, se observa un mejor comportamiento en los segundos, pues se
consiguen porcentajes de clasificaciones correctas mayores, prácticamente del 100 %, con
menor porcentaje de vectores soporte, entre un 45 % - 50 % para el caso de Kernels
polinómicos, frente a un 74 % - 85 % para Kernels gaussianos, lo que indica que para este
tipo de aplicación la capacidad de generalización de los Kernels polinómicos es superior
a la de los Kernels gaussianos. El mejor comportamiento del canal asociado al hemisferio
derecho, C4’-C4”, coincide con lo expuesto en 6.1.3, 6.2.3 y 6.3.3.

6.5.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas realizadas con cinco voluntarios,
presentados en los apartados anteriores, empleando clasificadores basados en MSV
descritas en la sección 4.5.5, se obtienen las siguientes conclusiones:
1. Es preferible la utilización de Kernels polinómicos a Kernels gaussianos.
2. La arquitectura del clasificador a emplear deberı́a emplear Kernels polinómicos
de orden 4 ó 5 ( 5 con la finalidad de aumentar la confianza en la capacidad de
generalización del mismo, mas no de orden superior, ya que no se aprecia mejora
significativa), utilizando una ventana de preprocesamiento de tipo Kaiser, Tukey o
rectangular.
206 Análisis y discusión de los resultados experimentales.

6.6. Corolario.
A modo de resumen, las principales conclusiones de los apartados anteriores se
condensan en los puntos siguientes:
Es factible la discriminación de las actividades cognitivas propuestas, partiendo de
los registros de señal electroencefalográfica adquiridos cuando el usuario desarrolla
dichas actividades.
En todos los experimentos realizados, el hemisferio derecho muestra mayor capacidad
de discriminación que el izquierdo, confirmando las observaciones de diferencias
funcionales entre los mismos.
La consideración de ventanas de procesamiento de Tukey, derivadas del análisis
del efecto de enmarcado de la señal, permite obtener una mejor capacidad de
discriminación de las actividades cognitivas consideradas.
Las componentes del vector de caracter´ısticas que muestran una mejor capacidad de
discriminación son α2 , β1 y β2 .
El espacio de caracterı́sticas original puede ser transformado, mediante combinación
lineal de las mismas, en un espacio de caracter´ısticas menor, sin que por ello se pierda
la capacidad de discriminación de las actividades cognitivas propuestas.
La realimentación del resultado de la clasificación al usuario da lugar a una ligera
disminución en la capacidad de discriminación, pero sin llegar a comprometer su
utilización en dispositivos ICC en lı́nea.
Las caracterı́sticas de la señal electroencefalográficas, intrı́nsecas a cada una de
las actividades cognitivas propuestas, pueden ser aprendidas e identificadas por
clasificadores que empleen el procedimiento de aprendizaje supervisado.
Los mejores resultados se obtienen con clasificadores basados en Máquinas de Soporte
de Vectores con funciones Kernel polinómicas de orden cuatro o superior, seguidos de
los que se basan en redes neuronales de tipo RBF y PNN. Clasificadores basados en
Máquinas de Soporte de Vectores con Kernels gaussianos muestran peores resultados
que los basados en Kernels polinómicos, mientras que por su parte los clasificadores
basados en redes neuronales de tipo MLP no llegan a aprender de modo efectivo el
conjunto de muestras de entrenamiento.
En la arquitectura de los clasificadores basados en redes neuronales, las versiones que
emplean redes diferentes dedicadas a cada canal encefalográfico, muestran valores de
capacidad de discriminación superiores a las versiones en las que se emplea una única
red neuronal que considere ambos canales al mismo tiempo.
La secuencia de clasificaciones contiene información que mejora la capacidad
de discriminación entre las actividades cognitivas consideradas, mostrándose los
modelos ocultos de Markov como técnica válida para la extracción y utilización
de esta información.
Los parámetros de ajuste del clasificador bietapa presentado, son muy dependientes
del usuario, por lo que es necesario un proceso de presintonización que determine el
valor de los mismos.
Capı́tulo 7

Conclusiones y futuros desarrollos.


7.1. Conclusiones.
En la presente tesis se ha descrito la novedosa tecnolog´ıa de Interfaz Cerebro
Computador, mostrando los principales descubrimientos cient´ıficos y desarrollos
tecnológicos que han permitido su aparición, a la vez que se han indicado las razones
que justifican el interés actual que, las aplicaciones prácticas de esta tecnologı́a, suscita
entre los diversos grupos de investigación a nivel mundial, describiéndose los desarrollos y
lı́neas de investigación más importantes que sobre esta tecnologı́a existen.
También se han mostrado las bases fisiológicas, actualmente conocidas1 , en las que se
fundamenta. Ası́ mismo se han analizado y discutido las diferentes técnicas, empleadas
hoy en dı́a, en la adquisición de actividad cerebral y su aplicabilidad en esta tecnologı́a.
Posteriormente se han mostrado los componentes de que consta un dispositivo ICC.
Posteriormente se han descrito las técnicas de procesamiento de señal aplicadas a la
señal electroencefalográfica, previas al proceso de identificación y clasificacion de señal
EEG, realizando un especial análisis sobre la influencia que el efecto de ventaneado de
la señal tiene sobre la capacidad de discriminación de la señal EEG, adquirida cuando
el usuario realiza las diferentes actividades cognitivas propuestas; estudio que ha sido
presentado en [Mart´ınez 06].
Ası́ mismo se han presentado las diferentes técnicas de clasificación, más comunmente
utilizadas por los diferentes grupos de investigación sobre ICC a nivel mundial.
Entre las contribuciones de esta tesis se encuentran:
Análisis que sobre la capacidad de discriminación tiene el efecto de ventaneado con
diferentes tipos de ventanas de procesamiento.
Desarrollo de un novedoso clasificador en dos etapas basado en la aplicación
secuencial de redes neuronales de tipo RBF y Modelos Ocultos de Markov.
Desarrollo de un demostrador bajo el paradigma de dispositivo endógeno según lo
expuesto en la sección 5.7 empleando un mı́nimo número de electrodos superficiales.
1
Debido a la complejidad del sistema nervioso en general y del cerebro en particular, en Neurologı́a se
mantienen activas diferentes lı́neas de investigación, que tratan de explicar el funcionamiento del cerebro,
cuyos resultados podrı́an dar lugar a la aparición de nuevos mecanismos aplicables en ICC.
208 Conclusiones y futuros desarrollos.

Evaluación de las diferentes técnicas de clasificacion con experimentos realizados


por sujetos reales, a fin de evaluar la aplicación de esta tecnologı́a en el control de
dispositivos externos genéricos, lo que permite concluir que:
• Es factible el empleo de la tecnolog´ıa de Interfaz Cerebro Computador, bajo el
paradigma de sistema endógeno, empleando un número mı́nimo de electrodos
superficiales localizados sobre las zonas encefálicas con mayor poder de
discriminación; estando en lı́nea con lo expuesto en [Alarcon 00], [Gazzaniga 92]
y [Jessell 97], entre otros.
• El empleo de ventanas de procesamiento de tipo Tukey, Kaiser o rectangular de
duración equivalente al tamaño de la FFT de procesamiento empleada, mejora
la capacidad de discriminación; un estudio detallado sobre este punto puede
encontrarse en [Martı́nez 06].
• La banda frecuencial con mayor capacidad de discriminación comprende a
las componentes α y β, coincidiendo con los ritmos μ de des-sincronización
y posterior sincronización asociados a la planificació n de movimiento; lo cual
está en lı́nea con lo expuesto en [Pfurtscheller 03].
• El hemisferio cerebral derecho presenta una mayor capacidad de discriminación.
• Es posible reducir la dimensión del espacio de caracterı́sticas, realizando una
combinación de las mismas, sin que esto de lugar a una pérdida de la capacidad
de discriminación. Un análisis detallado sobre esta conclusión ha sido presentada
en [Mart´ınez 07].
• Los clasificadores basados en redes neuronales de tipo PNN o RBF presentan
un mejor comportamiento que clasificadores basados en redes neuronales
de tipo MLP, tanto desde el punto de vista de clasificaciones correctas
conseguidas, como estabilidad de las mismas. La descripción pormenorizada
de esta conclusión ha sido descrita en [Martı́nez 08]
• Un clasificador basado en un algoritmo bi-etapa RBF-HMM tiende a sobre-
aprender el conjunto de datos de entrenamiento, presentando una muy buena
capacidad de aprendizaje, pero una reducida generalización; por lo que se
recomienda el uso de dicho clasificador cuando exita una elevada cantidad de
información que pueda ser empleada durante el aprendizaje, por ejemplo
registros electroencefalográficos de varias horas de duración. La descripción
detallada tanto del algoritmo de clasificación, como los resultados y conclusiones
extraidos de su aplicación pueden encontrarse en [Martinez 10].
• El clasificador vasado en Máquina de Soporte de Vectores con Kernel polinómico
de orden 4 y ventana de procesamiento de tipo Tukey es el que mejores resultado
de clasificación aporta.
• La realimentación del resultado de la clasificación al usuario ocasiona una
disminución de la capacidad de discriminación, en lı́nea con lo expuesto en
[Pineda 03], la descripción detallada de esta conclusión ha sido expuesta en
[Martinez 09].
7.2 Futuros desarrollos. 209

7.2. Futuros desarrollos.


Con la aplicación de demostración desarrollada según lo expuesto en la sección 5.7
bajo el paradigma de dispositivo endógeno empleando un mı́nimo número de electrodos
superficiales, es posible analizar y evaluar la aplicabilidad de un dispositivo basado en la
tecnologı́a ICC a una persona y anticipar una estimación de los resultados obtenibles.
Las actuales lı́neas de investigación existentes sobre ICC darán respuesta a las carencias
que esta tecnologı́a presenta hoy dı́a para una utilización masiva de la misma, como por
ejemplo el desarrollo e implantacion de un algoritmo de clasificación seguro que permita
una adaptación continua al usuario, que considere el efecto que el cansancio y otros tipos
de factores psicológicos causan sobre la capacidad de producción de los patrones cerebrales
del usuario.
Para que la tecnologı́a ICC pase de la fase de demostración tecnológica a ser una
realidad en la vida diaria, se precisa que el modo de operación del clasificador pueda ser
supervisado por parte del usuario, deciendo éste cuando el dispositivo se encuentra activo,
en estado de reposo, o en fase de aprendizaje y adaptación. Para ello es preciso que se
desarrollen estudios a más largo plazo, que consideren la interacción entre el dispositivo
y el usuario. Estos estudios requerirán la creación de equipos multidisciplinares, donde se
considere el desarrollo de este tipo de tecnologı́a a nivel global, no sólo desde un punto
de vista de ingenierı́a, considerando aspectos neurológicos y psicologicos, como los efectos
que el aprendizaje por parte del usuario en el uso de un determinado tipo de dispositivo
ICC causarán sobre su capacidad de clasificación.
La evaluación de la ergonomı́a en la usabilidad del dispositivo también es de gran
importancia, un dispositivo que sea ergonómico en su empleo es más cómodo para el
usario, a la vez que evita que se produzcan lesiones o molestias en su empleo; as´ı mismo la
consideración de aspectos motivacionales por parte del usuario en el empleo de este
tipo de tecnolog´ıa son fundamentales, ya que esta tecnolog´ıa supone el desarrollo de un
nuevo canal de comunicación, distinto a los utilizados conmunmente, lo que puede dar
lugar a que inicialemente en la fase de aprendizaje se produzcan en el usuario momentos
de frustración ante la respuesta obtenida.
Por último, pero no por ello menos importante, queda el aspecto comercial y económico,
para que la tecnologı́a ICC alcance un nivel de implantación elevado, es preciso que el
precio final de comercialización de este tipo de dispositivos sea admisible por parte del
usuario final, en donde se ha de considerar tanto los costes de investigación y desarrollo
como mantenimiento y reparación. Actualmente esta tecnologı́a se encuentra en la fase de
demostración tecnológica obteniéndose resultados aceptables en escenarios de aplicación
muy especı́ficos.
210 Conclusiones y futuros desarrollos.
Apéndices
Apéndice A

Adquisición de señal.

Las señales biológicas, al igual que la gran mayorı́a de señales presentes en la naturaleza,
son de carácter analógico lo que implica su continuidad en el tiempo y en los valores de su
amplitud; sin embargo los procesadores digitales operan sobre códigos discretos asociados
a determinados instantes de tiempo. La conversión analógico/digital permite convertir un
tipo de señal en otro, conservando la mayor cantidad de información, idealmente la señal
analógica recuperada a partir de la señal digital deberı́a ser una copia fiel de la señal
analógica de partida.
La conversión analógico/digital contempla la realización de tres procesos distintos:
muestreo, cuantificación y codificación; a través de los cuales la información de la señal se
convierte de un tipo a otro.

A.1. Muestreo de señales.


El muestro de señal es un proceso lineal que transforma una señal continua en el tiempo
y de banda limitada, en una serie temporal de valores de amplitud en instantes discretos.
Si los instantes de tiempo en que se adquieren los valores de amplitud están equiespaciados
al muestreo se le denomina muestreo uniforme, siendo éste el más habitual.
Existen diferentes tipos de muestreos de señal:
Muestreo natural. La serie temporal de valores es un tren de impulsos cuya amplitud
queda modulada por el valor de la amplitud de la señal que se muestrea, lo que puede
interpretarse como el producto de señal de entrada por la señal muestreadora.

Sm(nT ) = S(t)m(t) (A.1)

El teorema de muestreo establece la relación que existe entre el periodo de muestreo y


el valor de la componente frecuencial más alta presente en la señal analógica, fM . Se
demuestra que
fM
T < (A.2)
2
214 Adquisición de señal.

Para evitar que componentes frecuenciales superiores a fM /2 se mezclen con


componentes frecuenciales menores a fM /2, efecto de “aliasing”, es preciso asegurar
que la señal que se muestrea sea de banda limitada, por lo que antes de proceder al
muestreo se utilizan filtros de paso bajo, de forma que el valor de amplitud de las
componentes frecuenciales no deseadas presentes en la señal original sean inferiores
a la resolución del conversor A/D o al valor máximo del error de cuantificación.
Cuanto mayor sea la relación entre la frecuencia de muestreo con la frecuencia de
las señales no deseadas, menor podrá ser el orden del filtro empleado.

Muestreo ideal uniforme. Algunas realizaciones prácticas de conversores A/D,


requieren que la señal que se muestrea mantenga su valor durante el instante de
tiempo en que se realiza la conversión, por lo que antes de efectuar la conversión
se utiliza un circuito que mide y retiene el valor de la entrada durante el tiempo que
dura la conversión. El teorema de Shannon afirma que si S(t) es una señal cuya
transformada de Fourier S(f ) no contiene frecuencia superiores a |f | ≥ fM entonces
n=+∞
Σ sen(2πfM (t − nT ))
S(t) = S(nT ) (A.3)
n=−∞
2πfM (t − nT )

donde T = 12fM , siendo fM la denominada frecuencia de Nyquist y 1/T la frecuencia


de muestreo.
A la función
sen(2πfM t
h(t) = (A.4)
2πfM t
se la denomina retención cardinal, coincidiendo con la respuesta impulsional de un
filtro de paso bajo ideal.

Muestreo de señales pasabanda. Este tipo de muestreo se da en aplicaciones


industriales e instrumentación, cuando la señal portadora se modula en amplitud
por la magnitud de interés, cuya frecuencia es mucho menor que la de la portadora.

Muestreo repetitivo secuencial. Cuando a priori se conoce que la señal que se


muestrea es repetitiva, se puede emplear este conocimiento para tomar muestras de
la señal en periodos diferentes. Se precisa de un punto de sincronismo y un
circuito de temporización que genere con respecto a dicho punto la base de tiempos
para la adquisición. En caso de no conocer el periodo de la señal original es preciso
determinarlo. Esta técnica de submuestreo se emplea en osciloscopios digitales de
bajo coste y voltı́metros digitales de precisión.
A.2 Cuantiftcación. 215

A.2. Cuantificación.
Mediante este procedimiento no lineal se representa el valor de amplitud de la señal
analógica mediante una serie finita de niveles de amplitud. Existen dos tipos de
cuantificación.

Cuantificación uniforme. En la figura siguiente se representa el proceso de


cuantificación uniforme. Dependiendo del valor de la entrada, x, la salida, y, toma
una serie de valores discretos, as´ısi (0 x ≤
q/2)≤y = 1, si
→(q/2 x 3q/2) ≤ ≤ →
y = 2, y as´ı sucesivamente.

Figura A.1: Cuantificación uniforme.

A q se le denomina intervalo de cuantificación, siendo la diferencia entre los valores


de entrada mayor y menor para los que la salida mantiene el mismo valor. Si la salida
del cuantificador sólo depende del valor actual de la entrada, y no de valores
anteriores, al cuantificador se le denomina de memoria cero, en contraposición con
los cuantificadores secuenciales que consideran el valor de la entrada en el momento
actual y anteriores.
216 Adquisición de señal.

Dependiendo del número de estados considerados, N , ası́ será la resolución de


cuantificador, la cual se expresa en bits (n), N = 2n.
El margen de entrada, M , viene determinado por la diferencia entre los valores
máximo y mı́nimo aceptados a la entrada. Para los cuantificadores uniformes q es
constantes en todo el margen M , cumpliéndose:
M
q= (A.5)
2n

Como puede observarse la curva en escalera de la cuantificación introduce un error,


ya que la entrada, x(t), no puede reconstruirse a partir de la secuencia de valores ya
cuantificados, y(t). El máximo error cometido en cuantificadores uniformes ideales
es de q/2, teniendo una curva en forma de diente de sierra, con valor medio nulo, ē =
0, y varianza:
∫ ∞ 2
2 e q2
vare = E(e − ē) = de = (A.6)
−∞ q 12

El valor eficaz del ruido es equivalente a la ra´ız cuadrada de la suma del valor medio al
cuadrado y la varianza, obteniéndose
q
R= √ (A.7)
2 3

De dónde se desprende que para reducir el valor del ruido hay que reducir
proporcionalmente el intervalo de cuantificación, q. Reducción que queda limitada
por factores tecnológicos y el ruido asociado a los componentes electrónicos.
La relación señal / ruido (S/R), calculada como el cociente del valor eficaz de una
señal senoidal de amplitud entre 0 y (2n − 1/2)q y el ruido presente será:
(2n − 1/2)2 q2/2 2n
S/R = = 6·2 para n > 4. (A.8)
q2/12
S/R(dB) = 10log6 + 20nlog2 = 7,78 + 6,02n (A.9)
Como puede comprobarse la expresión anterior se obtiene para señales cuyo rango de
amplitud cubre el margen de entrada del cuantificador, como es obvio para señales
menores la relación S/R será menor, motivo por el que es muy importante amplificar
la señal de entrada antes de proceder a la cuantificación

Cuantificación no uniforme. Como se ha indicado en el punto anterior, la relación


S/R disminuye cuando la amplitud de la entrada analógica es menor que el
margen del cuantificador, el error relativo es menor para señales pequeñas que
para señales grandes, en caso de querer tener una relación S/R constante se puede
A.3 Codiftcación. 217

variar el intervalo de cuantificacion proporcionalmente a la amplitud de entrada.


Técnicas como la Modulación de Impulsos Codificados1 hacen uso de este tipo de
cuantificación, permitiendo a su vez reducir el número de bits

A.3. Codificación.
Mediante el proceso de codificación se asocia biunı́vocamente cada uno de los
valores discretos de la salida del codificador a un sı́mbolo dentro de un alfabeto finito,
[Shannon 48]. Si el alfabeto queda compuesto por combinaciones de dos caracteres, y la
posición de cada uno de ellos se corresponde con una potencia entera de dos, se obtienen
los códigos binarios, entre los que se encuentran:

Código binario unipolar. A = An−1 An−2 . . . A1 A0 = An−1 × 2n−1 + An−2 × 2n−2 +


··· + A1 × 21 + A0 × 20
Código binario bipolar. En el que además del valor de la magnitud de la amplitud
es necesario indicar si ésta es positiva o negativa. Entre estos códigos se encuentran:

• Código binario con complemento a uno. Las cantidades negativas se codifican


mediante el complemento a uno del valor absoluto de la magnitud. Existen pues
dos representaciones para el cero.
• Código binario con complemento a dos. Por definición el complemento a dos
de un número binario es aquel otro número que sumado al primero da cero.
Para las magnitudes positivas se añade un cero a la izquierda de la codificación
binaria, mientras que para el cómputo de las cantidades negativas se calcula el
complemento a uno de la magnitud y se añade uno.
• Código binario decalado. Equivalente al código binario en complemento a dos
con la salvedad de cambiar el criterio para la representación de las magnitudes
positivas, añadiendo un uno a la izquierda en lugar de un cero, y un cero para
las negativas.
• Código binario con signo añadido. En este caso las magnitudes positivas quedan
representadas por el código binario unipolar añadiendo un cero a la izquierda,
mientras que para las negativas se añade un uno.

Otros códigos. Existen codificadores que realizan operaciones más exóticas a efectos
de evitar y detectar comportamientos anómalos, como por ejemplo:

• Código Gray. Se trata de un código cı́clico de representación, en el que entre un


sı́mbolo y su inmediato seguidor sólo se permite el cambio de un dı́gito, se evita
ası́ que en la transición secuencial de códigos se produzcan lecturas erróneas.
1
En inglés Pulse Code Modulation, PCM
218 Adquisición de señal.

• Códigos con corrección de errores. Se aplica cuando se realiza transmisión o


almacenamiento de la información digital proporcionada por el codificador,
añadiendo una codificación adicional que facilita la identificación y posible
corrección de errores. Ejemplos de este tipo de códigos son los bits de paridad
o el código Hamming.
Apéndice B

Matriz de confusión.
Para presentar los resultados de clasificación obtenidos con la tras la aplicación de un
clasificador a un conjunto de datos se utilizan las matrices de confusión. Éstas proporcionan
información detallada sobre el rendimiento del clasificador para cada una de las clases
consideradas [Nabney 02].
En la matriz de confusión C, las filas representan la asignación real de las muestras
candidatas a cada una de las clases, mientras que las columnas representan las asignaciones
predichas. De este modo la componente Cij de la matriz de confusión representa al número
de muestras que perteneciendo a la clase i han sido asignadas dentro de la clase j; as´ı pues
el clasificador ideal, aquél que no comete errores, serı́a una matriz diagonal.
Uno de los beneficios de la utilización de las matrices de confusión es comprobrar si el
clasificador confunde dos o más clases entre sı́.
Para obtener resultados representativos sobre la bondad del clasificador, es
recomendable que el número de muestras considerados en cada una de las clases sea
semejante, en caso contrario la tasa de error puede llega a no ser representativa de la
bondad de su rendimiento.
A modo de ejemplo considérense las matrices de confusión mostradas en las tablas
B.1 y B.2. En la primera, del clasificador ideal, se observa que todas las muestras son
asignadas a las clases correctas, y el número de muestras considerado es equivalente en las
tres clases.
Cálculo matemático Imaginación movimento Relax
Cálculo matemático 60 0 0
Imaginación movimento 0 65 0
Relax 0 0 55

Tabla B.1: Matriz de confusión del clasificador ideal.

Mientras que en la matriz de la tabla B.2 se observa que un tercio de las muestras
pertenecientes a Cálculo matemático son clasificadas de forma errónea, con tendencia a
confundirlas con las muestras de la clase Relax. Por su parte todas las muestras de
Imaginación de movimiento son catalogadas de forma correcta. Por último, analizando
la clase Relax se observa que el número de muestras consideradas es del orden de la
220 Matriz de confusión.

quinta parte del considerado en las otras dos clases, y la confusión de cinco de las doce
muestras como pertenecientes a la clase Imaginación de movimiento hace sospechar que
el clasificador en cuestión no pueda discriminar entre ambas clases.
Cálculo matemático Imaginación movimento Relax
Cálculo matemático 40 8 12
Imaginación movimento 0 65 0
Relax 0 5 7

Tabla B.2: Matriz de confusión para un clasificador real.

El rendimiento de este clasificador ser´ıa del 82 %. Predicción


Considerando un clasificador que separara entre dos (−) (+)
clases, { +, −}, las entradas de la matriz de confusión Real (−) a b
tienen el siguiente significado: (+) c d
a es el número de predicciones correctas para la clase de muestras negativas.
b es el número de falsos positivos o muestras negativas clasificadas erróneamente.
c es el número de falsos negativos o muestras positivas clasificadas como positivas.
d es el número de predicciones correctas para la clase de muestras positivas.
Definiéndose la siguiente terminologı́a:
Exactitud (E): porporción de clasificaciones correctas.
a+d
E= (B.1)
a+b+c+d
Tasa de Verdaderos Positivos (TVP): proporción de muestras positivas
correctamente clasificadas.
d
TV P = (B.2)
c+d
Tasa de Falsos Positivos (TFP): proporción de muestras negativas clasificadas
erróneamente.
b
TFP = (B.3)
a+ b
Tasa de Verdaderos Negativos (TVN): proporción de muestras negativas
correctametne clasificadas.
a
TV N = (B.4)
a+ b
Tasa de Falsos Negativos (TFN): proporción de muestras positivas clasificadas
erróneamente.
c
TFV = (B.5)
c+d
Precisión (P): proporción de muestras positivas correctamente clasificadas
considerando todas las predicciones positivas.
d
P= (B.6)
b+d
Bibliografı́a

[Alarcon 00] R. Alarcon & M.J. Blanca. Asimetrı́a hemisférica en la dicotomica


holı́stica-analı́tica en tareas de atención focalizada. Psicothema, vol. 12,
no. 2, pages 15–17, 2000.

[Allen 77] J. B. Allen & Lawrence R. Rabiner. A Unified Approach to Short-Time


Fourier Analysis and Synthesis., November 1977 1977.

[Allison 03] B. Z. Allison & J. A. Pineda. ERPs evoked by different matrix sizes:
implications for a brain computer interface (BCI) system. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
110–113, 2003.

[Ambler 05] Scott W. Ambler. The elements of uml 2.0 style. Cambridge University
Press, 2005.

[Areny 93] Ramon P. Areny. Adquisición y distribución de señales. Marcombo


S.A., Barcelona, 1993.

[Arlow 05] Jim Arlow & Ila Neustadt. Uml 2. Anaya Multimedia, Madrid, 2005.

[Arnao 97] A. C. Arnao. Guia de acceso al ordenador para personas con


discapacidad. Instituto de Migraciones y Servicios Sociales. Ministerio
de Trabajo y Asuntos Sociales, Madrid, 1997.

[Babiloni 00] F. Babiloni, F. Cincotti, L. Lazzarini, J. Millan, J. Mourino, M. Varsta,


J. Heikkonen, L. Bianchi & M. G. Marciani. Linear classification of
low-resolution EEG patterns produced by imagined hand movements.
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 186–
188, 2000.

[Bai 01] Ou Bai, M.Ñakamura & H. Shibasaki. Compensation of hand


movement for patients by assistant force: relationship between human
hand movement and robot arm motion. Neural Systems and
222 BIBLIOGRAFÍA

Rehabilitation Engineering, IEEE Transactions on [see also IEEE


Trans.on Rehabilitation Engineering], vol. 9, no. 3, pages 302–307,
2001.

[Baker 89] L. A. Geddes; L. E. Baker. Principles of applied biomedical


instrumentation. Wiley, New York ; Chichester, 1989. L.A.
Geddes, L.E. Baker; .A Wiley-Interscience publication.”; Includes
bibliographies.

[Barreno 97] Pedro Garc´ıa Barreno. Medicina virtual. en los bordes de lo real.
Debate, Madrid, 1997. 019: M. 1045-1997; Pedro Garc´ıa Barreno.

[Barreno 02] Pedro Garc´ıa Barreno. Horizontes culturales. historia de la ciencia


española. santiago ramon y cajal. .Espasa”, 2002.

[Baum 66] L.E. Baum & Petrie T. Statistical Inference for probabilistic functions
of Finite State Markov Chains, 1966.

[Baum 70] L.E. Baum, Petrie T., Soules G. & Weiss N. A Maximization Technique
Ocurring in the Statistical Analysis of Probabilistic Functions of
Markov Chains, 1970.

[Bayliss 00] J. D. Bayliss & D. H. Ballard. A virtual reality testbed for brain-
computer interface research. Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 188–190, 2000.

[Bayliss 03] J. D. Bayliss. Use of the evoked potential P3 component for control in
a virtual apartment. Neural Systems and Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Rehabilitation
Engineering], vol. 11, no. 2, pages 113–116, 2003.

[Bengio 96] Y. Bengio & P. Frasconi. Input-output HMMs for sequence processing,
1996.

[Bianchi 03] L. Bianchi, F. Babiloni, F. Cincotti, M. Arrivas, P. Bollero & M. G.


Marciani. Developing wearable bio-feedback systems: a general-purpose
platform. Neural Systems and Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Rehabilitation Engineering],
vol. 11, no. 2, pages 1–3, 2003.

[Birbaumer 00] N. Birbaumer, A. Kubler, N. Ghanayim, T. Hinterberger, J. Perel-


mouter, J. Kaiser, I. Iversen, B. Kotchoubey, N.Ñeumann & H. Flor.
The thought translation device (TTD) for completely paralyzed pa-
tients. Rehabilitation Engineering, IEEE Transactions on [see also
BIBLIOGRAFÍA 223

IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages


190–193, 2000.

[Birbaumer 03] N. Birbaumer, T. Hinterberger, A. Kubler & N.Ñeumann. The thought-


translation device (TTD): neurobehavioral mechanisms and clinical
outcome. Neural Systems and Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Rehabilitation Engineering],
vol. 11, no. 2, pages 120–123, 2003.

[Birch 00] G. E. Birch & S. G. Mason. Brain-computer interface research


at the Neil Squire Foundation. Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 193–195, 2000.

[Birch 03] G. E. Birch, S. G. Mason & J. F. Borisoff. Current trends in brain-


computer interface research at the Neil Squire foundation. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
123–126, 2003.

[Bishop 95] Christopher M. Bishop. Neural networks for pattern recognition.


Oxford University Press, Great Britain, 2000 1995.
[Blankertz 04] B. Blankertz, K. R Muller, G. Curio, T. M. Vaughan, G. Schalk,
J. R. Wolpaw, A. Schlogl, C.Ñeuper, G. Pfurtscheller, T. Hinterberger,
M. Schroder & N. Birbaumer. The BCI competition 2003: progress
and perspectives in detection and discrimination of EEG single trials.
Biomedical Engineering, IEEE Transactions on, vol. 51, no. 6, pages
1044–1051, 2004.

[Borisoff 04] J. F. Borisoff, S. G. Mason, A. Bashashati & G. E. Birch. Brain-


computer interface design for asynchronous control applications:
improvements to the LF-ASD asynchronous brain switch. Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 985–992, 2004.

[Bronzino 95a] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press
: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;
Includes bibliographical references and index.

[Bronzino 95b] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press
: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;
Includes bibliographical references and index.

[Burges 98] Christopher J.C. Burges. A Tutorial on Support Vector Machines for
Pattern Recognition., 1998.
224 BIBLIOGRAFÍA

[Cajal 05] Santiago Ramon y Cajal. Histologı́a del sistema nervioso del hombre y
de los vertebrados, 1905.

[Canu 05] Y. Grandvalet; V. Guigue; A. Rakotomamonjy; S. Canu. SVM and


Kernel Methods Matlab Toolbox. Perception Systemes et Information,
INSA de Rouen, Rouen, France, 2005.

[Castro 03] J.L. Alba Castro. Maquinas de Soporte de Vectores, 2003.

[Chang 07] Chih-Chung Chang & Chih-Jen Lin. LIBSVM – A Library for Support
Vector Machines, 2007.

[Chapin 99] J. K. Chapin & K. A. Moxon. Real-time control of a robot arm using
simultaneously recorded neurons in the motor cortex, 1999 1999.

[Chervonenkis 74] V. Vapnik; A. Chervonenkis. Theory of Pattern Recognition. Nakua,


Moscow, 1974.

[Chiappa 06] Silvia Chiappa. ANALYSIS AND CLASSIFICATION OF EEG SIG-


NALS USING PROBABILISTIC MODELS FOR BRAIN COMPU-
TER INTERFACES. PhD thesis, IDIAP Research Institute, 2006.

[Chinchilla 43] Anastasio Chinchilla. Anales históricos de la medicina en general, y


biográfico-bibliográfico de la española en particular. Imprenta de Lopez
y Cia., 1843.

[Cincotti 03] F. Cincotti, D. Mattia, C. Babiloni, F. Carducci, S. Salinari, L. Bianchi,


M. G. Marciani & F. Babiloni. The use of EEG modifications due
to motor imagery for brain-computer interfaces. Neural Systems and
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages 131–133,
2003.

[Colbert 98] Charles Colbert. A measure of perfection: Phrenology and the fine arts
in america. The University of North Carolina Press, 1998.

[Cox 00] Richard V. Cox, Candace A. Kamm, Lawrence R. Rabiner, Juergen


Schroeter & Jay G. Wilpon. Speech and Language Processing for Next-
Millennium Communications Services., August 2000 2000.

[Cristianini 00] Nello Cristianini & John Shawe-Taylor. An introduction to support


vector machines : and other kernel-based learning methods. Cambridge
University Press, Cambridge, 2000. Nello Cristianini and John Shawe-
Taylor.; Includes bibliographical references and index.

[Cristianini 05a] Nello Cristianini. Kernel Methods for General Pattern Analysis, 2005.
BIBLIOGRAFÍA 225

[Cristianini 05b] Nello Cristianini & John Shawe-Taylor. And Introduction to Support
Vector Machines and other kernel-based learning methods. Cambridge
University Press, The Edinburgh Building, Cambridge CB2 2RU, UK,
2005.

[Donchin 00] E. Donchin, K. M. Spencer & R. Wijesinghe. The mental


prosthesis: assessing the speed of a P300-based brain-computer
interface. Rehabilitation Engineering, IEEE Transactions on [see also
IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages
174–179, 2000.

[Duda 01] Richard Oswald Duda, Peter Elliot Hart & David G. Strok. Pattern
classification. John Wiley and sons, New York etc., 2001. Richard O.
Duda, Peter E. Hart, David G. Strok.

[Espinoza 03] J.W. Espinoza. El Genoma Humano y sus implicancias jurúdico


penales dentro de la antropologı́a jurı́dica., 2003.

[Ferre 97] M. Ferre. Diseño de Interfases Avanzados para Robots Teleoperados.


Desarrollo de un Entorno de Teleoperación. PhD thesis, Universidad
Politécnica de Madrid, 1997.

[Fisher 36] R. A. Fisher. THE USE OF MULTIPLE MEASUREMENTS IN


TAXONOMIC PROBLEMS. Annals of Eugenics, vol. 7, pages 179–
188, 1936 1936.

[Florian 98] G. Florian, C. Andrew & G. Pfurtscheller. Do changes in coherence


always reflect changes in functional coupling? Electroencephalography
and Clinical Neurophysiology,, vol. 106, no. 1, pages 87–91, 1 1998.

[Forney 73] G.D. Forney. The Viterbi Algorithm, 1973.

[Freeman 93] James A. Freeman & David M. Skapura. Redes neuronales :


algoritmos, aplicaciones y técnicas de programación. Addison-Wesley
Iberoamericana; D´ıaz de Santos, Reading Massachusetts; Madrid, 1993.
James A. Freeman, David M. Skapura; 19930929.

[Friedman 89] J. H. Friedman. Regularized Discriminant Analysis. Journal of the


American Statistical Association, July 1988 1989.

[Fuente O’Connor 93] José Luis Fuente O’Connor. Tecnologı́as computacionales para
sistemas de ecuaciones, optimización lineal y entera. Editorial Reverte,
España, 1993.
226 BIBLIOGRAFÍA

[Galan 07] F. Galan & R. Millan. Feature Extraction for Multi-class BCI using
Canonical Variates Analysis. Presentacion WISP 2007 2007 IEEE
International Symposium on Intelligent Signal Processing, Octuber
2007.

[Garrett 03] D. Garrett, D. A. Peterson, C. W. Anderson & M. H. Thaut.


Comparison of linear, nonlinear, and feature selection methods for EEG
signal classification. Neural Systems and Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Rehabilitation
Engineering], vol. 11, no. 2, pages 141–144, 2003.

[Gazzaniga 92] Michael Gazzaniga. Nature’s Mind: The biological roats of thinking,
emotions, sexuality, language and Intelligence. Harmonsdsworth,
Penguin Books, 1992.

[Gerstner 04] J. R. Millan; F. Renkens; J. Mourino; W. Gerstner. Noninvasive brain-


actuated control of a mobile robot by human EEG. Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 1026–1033,
2004.

[Guger 99] B. Obermaier; C. Guger & G. Pfurtscheller. HMM used for the offline
classification of EEG data, 1999.

[Guger 05] Christoph Guger. g.tec, 2005.

[Gunn 98] Steve R. Gunn. Support Vector Machines for Classification and
Regression, 1998.

[Gunn 03] Steve R. Gunn. Sparse Kernel Methods, 2003.

[Gunn 05] Steve Gunn. Matlab Support Vector Machine Toolbox, 2005.

[Harrington 97] Anne Harrington. The placebo effect : an interdisciplinary exploration.


Harvard University Press, Cambridge, Mass. ; London, 1997. editor,
Anne Harrington.; Includes bibliographical references and index.

[Herreo 98] Oscar Luengo Herreo. TELEOPERACION BILATERAL SEMIATO-


MATICA EN ACTIVIDADES CON ELEVADAS FUERZAS DE RE-
ACCION CON EL CONTORNO, 1998.

[Hinterberger 04] T. Hinterberger, N. Weiskopf, R. Veit, B. Wilhelm, E. Betta &


N. Birbaumer. An EEG-driven brain-computer interface combined
with functional magnetic resonance imaging (fMRI). Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 971–974, 2004.
BIBLIOGRAFÍA 227

[Holzapfel 98] S. Holzapfel, Strehl U., Kotchoubey B. & Birbaumer N. Behavioral


Psychophysiological Intervention in a Mentally Retarded Epileptic
Patient with Brain Lesion. Applied Psychophysiology and Biofeedback,
vol. 23, pages 189–202(14), September 1998.

[HONDA 09] HONDA. HONDA, 2009.

[Hoogerwerf 94] A. C. Hoogerwerf. A three-dimensional microelectrode array for chronic


neural recording, 1994. ID: 1.

[Instruments 01] National Instruments. The Measurement and Automation, 2001.

[Isaacs 00] R. E. Isaacs. Work toward real-time control of a cortical neural


prothesis, 2000. ID: 1.

[Ivanciuc 07] Ovidiu Ivanciuc. Applications of Support Vector Machines in


Chemistry, 2007.

[J. 75] Baker J. The Dragon System. An overview., February 1975.

[Jacques 94] G. E. Jacques. Application of quality function deployment in


rehabilitation engineering, 1994. ID: 1.

[Jelinek 80] F. Jelinek & R. L. Mercer. Interpolated estimation of Markov source


parameters from sparse data, 1980.

[Jessell 91] E. R. Kandel; J. H. Schwartz; T. M. Jessell. Principles of neural science.


.Elsevier/North Holland”, ”New York Elsevier/North Holland”, 1991.

[Jessell 97] E. R. Kandel; J. H. Schwartz; T. M. Jessell. Neurociencia y conducta.


Prentice Hall, 1997.

[Juang 91] B. H. Juang & Lawrence R. Rabiner. Hidden Markov Models for Speech
Recognition, August 1991 1991.

[Kennedy 97] Philip R. Kennedy & Roy A. E. Bakay. Activity of single action
potentials in monkey motor cortex during long-term task learning.
Brain Research,, vol. 760, no. 1-2, pages 251–254, 6/20 1997.

[Kennedy 00] P. R. Kennedy, R. A. E. Bakay, M. M. Moore, K. Adams &


J. Goldwaithe. Direct control of a computer from the human central
nervous system. Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2,
pages 198–202, 2000.
228 BIBLIOGRAFÍA

[Kipke 03] D. R. Kipke, R. J. Vetter, J. C. Williams & J. F. Hetke. Silicon-


substrate intracortical microelectrode arrays for long-term recording
of neuronal spike activity in cerebral cortex. Neural Systems and
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages 151–155,
2003.

[Kositsky 03] M. Kositsky, A. Karniel, S. Alford, K. M. Fleming & F. A. Mussa-


Ivaldi. Dynamical dimension of a hybrid neurorobotic system. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
155–159, 2003.

[Kostov 00] A. Kostov & M. Polak. Parallel man-machine training in development


of EEG-based cursor control. Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 203–205, 2000.

[Krusienski 00] D. J. Krusienski, E. W. Sellers, D. J. McFarland, T. M. Vaughan &


J. R. Wolpaw. Toward enhanced P300 speller performance. Journal of
Neuroscience Methods,, vol. In Press, Corrected Proof, page 550, 2000.

[Kumlbler 01] Andrea Kumlbler, Nicola Neumann, Jochen Kaiser, Boris Kotchoubey,
Thilo Hinterberger & Niels P. Birbaumer. Brain-computer
communication: Self-regulation of slow cortical potentials for verbal
communication. Archives of Physical Medicine and Rehabilitation,,
vol. 82, no. 11, pages 1533–1539, 11 2001.

[Laitinen 03] L. Laitinen. Neuromagnetic sensorimotor signals in brain computer


interfaces. PhD thesis, Helsinki University of Technology, 2003.

[Larman 03] C. Larman. UML Y PATRONES. Una introduccion al analisis y diseño


orientado a objetos y al proceso unificado. Pearson Educacion, Madrid,
2003.

[Lauer 00] R. T. Lauer, P. H. Peckham, K. L. Kilgore & W. J. Heetderks.


Applications of cortical signals to neuroprosthetic control: a critical
review. Rehabilitation Engineering, IEEE Transactions on [see also
IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages
205–208, 2000.

[Lauritzen 96] S. Lauritzen. Graphical models. Oxford Science Publications, 1996.

[Lauzon; 01] Y. Bengio; V. P. Lauzon; & R. Ducharme. Experiments on the


applications of IOHMMs to model financial return series, 2001.
BIBLIOGRAFÍA 229

[Leeb 05] Robert Leeb. Usefulness of an EEG-based brain-computer interface to


establish communication in ALS. Journal of the Neurological Sciences,,
vol. 238, no. 1, pages 341–458, 2005.

[Levine 00] S. P. Levine, J. E. Huggins, S. L. BeMent, R. K. Kushwaha, L. A.


Schuh, M. M. Rohde, E. A. Passaro, D. A. Ross, K. V. Elisevich &
B. J. Smith. A direct brain interface based on event-related potentials.
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 180–
185, 2000.

[Luengo 98] O. Luengo. Teleoperación Bilateral Semiautónoma en Actividades con


Elevadas Fuerzas de Reacción con el Entorno. PhD thesis, Universidad
Politécnica de Madrid, 1998.

[Mahajan 98] D. Mahajan, D. B. Reynolds, K. S. Rattan, C. A. & Phillips. A Fuzzy


Logic Controller For Leg Extension Exercise in a Spinal Cord Injured
Person, 1998 1998.

[Mardia 79] K.V. Mardia. Multivariate analysis. Academic Press, 1979.

[Martinez 01] A. M. Martinez & A. C. Kak. PCA versus LDA. IEEE Transactions
on Pattern Analysis and Machine Intelligence, vol. 23, no. 2, pages
228–233, February 2001 2001.

[Martinez 09] J.L. Martinez & A. Barrientos. Feedback effect analysis by comparison
of discrimination capability of On-line and Off-line experimental
procedures based on LDA. Proceedings of the BIODEVICES
International Conference on Biomedical Electronics and Devices.,
vol. 1, no. 1, pages 20–25, January 2009.

[Martinez 10] J.L. Martinez & A. Barrientos. Brain Computer Interface. Application
of an adaptive bi-stage classifier based on RBF-HMM. Proceedings of
the BIODEVICES International Conference on Biomedical Electronics
and Devices., vol. 1, no. 1, page Próxima aparición, January 2010.

[Mart´ınez 06] J.L. Mart´ınez & A. Barrientos. The windowing Effect in Cerebral
Pattern Classification. An Application to BCI Technology. IASTED
Biomedical Engineering BioMED 2006, pages 1186–1191, February
2006.

[Mart´ınez 07] J.L. Mart´ınez & A. Barrientos. Linear Discriminant Analysis on Brain
Computer Interface. IEEE. Internacional Symposium on Intelligent
Signal Processing. Conference Proceedings Book, pages 859–864,
November 2007.
230 BIBLIOGRAFÍA

[Mart´ınez 08] J.L. Mart´ınez & A. Barrientos. Brain Computer Interface. Comparison
of neural networks classifiers. Proceedings of the BIODEVICES
International Conference on Biomedical Electronics and Devices.,
vol. 1, no. 1, pages 3–10, January 2008.

[Maynard 99] E. M. Maynard, N. G. Hatsopoulos, C. L. Ojakangas, B. D. Acuna,


J.Ñ. Sanes, R. A. Normann & J. P. Donoghue. Neuronal Interactions
Improve Cortical Population Coding of Movement Direction. Journal
of Neuroscience, vol. 19, no. 18, pages 8083–8093, September 15 1999.

[McFarland 97] D. J. McFarland & Jonathan R. Wolpaw. Design and operation of


an EEG-based brain-computer interface with digital signal processing
technlogy, 1997 1997.

[McLachlan 97] McLachlan & T. Krishnan. The em algorithm and extensions. John
Wiley and Sons, 1997.

[McLachlan 04] Geoffrey J. McLachlan. Discriminant analysis and statistical pattern


recognition. John Wiley and sons, Hoboken New Jersey, 2004. Geoffry
J. McLachlan.

[Middendorf 00] M. Middendorf, G. McMillan, G. Calhoun & K. S. Jones. Brain-


computer interfaces based on the steady-state visual-evoked response.
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 211–
214, 2000.

[Millan 03] J.R. Millan & J. Mourino. Asynchronous BCI and local neural
classifiers: an overview of the adaptive brain interface project. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
159–161, 2003.

[Millan 04] J.R. Millan, F. Renkens, J. Mourino & W. Gerstner. Brain-actuated


interaction. Artificial Intelligence,, vol. 159, no. 1-2, pages 241–259, 11
2004.

[Miner 98] Laurie A. Miner, Dennis J. McFarland & Jonathan R. Wolpaw.


Answering questions with an electroencephalogram-based brain-
computer interface, ,. Archives of Physical Medicine and
Rehabilitation,, vol. 79, no. 9, pages 1029–1033, 9 1998.

[Montaner 91] Montaner. Diccionario Enciclopédico Hispano-Americano., 1891.

[Montoya 02] R. S. Montoya. Ordenador y discapacidad. CEPE, Madrid, 2002.


BIBLIOGRAFÍA 231

[Moreno 06] J.C. Moreno. Exoesquelos Robóticos para Valoración y Compensación


Funcional de Marcha Patológica. PhD thesis, Universidad Politécnica
de Madrid, 2006.

[Muller 03a] B. Obermaier; G. R. Muller & G.Pfurtscheller. Virtual Keyboard


controlled by spontaneous EEG activity, 2003.

[Muller 03b] K. R Muller, C. W. Anderson & G. E. Birch. Linear and


nonlinear methods for brain-computer interfaces. Neural Systems
and Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages 165–169,
2003.

[Nabney 02] Ian Nabney. Netlab : algorithms for pattern recognition. Springer,
London, 2002. Ian T. Nabney.; Includes bibliographical references (p.
[407]-412) and indexes.; NETLAB toolbox is available via the Internet.

[NASA 08] NASA. Air Force and NASA Research on pilots has revealed the
secrects of peak mental performance, 2008.

[Neuper 01] B. Obermaier; C. Guger; C. Neuper & G. Pfurtscheller. Hidden Markov


Models for online classification of single trial EEG data, 2001.

[Nicolau 08] N.; Nicolau, J. Georgiou & M.Polycarpou. Autoregressive features


for thought to speech converter. Proceedings of the BIODEVICES
International Conference on Biomedical Electronics and Devices.,
vol. 1, no. 1, pages 11–16, January 2008.

[Obermaier 01a] B. Obermaier. Dessign and implementation of an EEG based virtual


keyboard using hidden Markov models, 2001.

[Obermaier 01b] Bernhard Obermaier, Christa Neuper, Christoph Guger & Gert
Pfurtscheller. Information Transfer Rate in a Five-Classes Brain-
Computer Interface. IEEE Transactions on Neural Systems and
Rehabilitation Engineering, vol. 9, no. 3, pages 283–288, September
2001. Importante.

[Oppenheim 96] A. Oppenheim. Signals and systems. Prentice-Hall Signal Processing


Series, Cambridge, 1996.

[Peña Sánchez 86] Daniel Peña Sánchez. Estadı́stica : modelos y métodos, volume 109-
110. Alianza, Madrid, 1986. Daniel Peña Sánchez de Rivera; 2 v. 23
cm; 1. Fundamentos – 2. Modelos lineales y series temporales.

[Penny 99] W. Penny & S. Roberts. Experiments with an eegbased computer


interface, 1999.
232 BIBLIOGRAFÍA

[Penny 00] W. D. Penny, S. J. Roberts, E. A. Curran & M. J. Stokes. EEG-


based communication: a pattern recognition approach. Rehabilitation
Engineering, IEEE Transactions on [see also IEEE Trans.on Neural
Systems and Rehabilitation], vol. 8, no. 2, pages 214–215, 2000.

[Perelmouter 99] J. Perelmouter. Language support program for thought-translation-


devices, 1999 1999.

[Perelmouter 00] J. Perelmouter & N. Birbaumer. A binary spelling interface with


random errors. Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2,
pages 227–232, 2000.

[Peñı́n 98] L.F. Peñı́n. Control Bilateral de Robots Teleoperados. Contribución en


Reflexión de Fuerzas. PhD thesis, Universidad Politécnica de Madrid,
1998.

[Pfurtscheller 00] G. Pfurtscheller, C.Ñeuper, C. Guger, W. Harkam, H. Ramoser,


A. Schlogl, B. Obermaier & M. Pregenzer. Current trends in Graz
brain-computer interface (BCI) research. Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 216–219, 2000.

[Pfurtscheller 03] G. Pfurtscheller, C.Ñeuper, G. R. Muller, B. Obermaier, G. Krausz,


A. Schlogl, R. Scherer, B. Graimann, C. Keinrath, D. Skliris, M. Wortz,
G. Supp & C. Schrank. Graz-BCI: state of the art and clinical
applications. Neural Systems and Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Rehabilitation Engineering],
vol. 11, no. 2, pages 1–4, 2003.

[Pierce 80] John Robinson Pierce. An introduction to information theory :


symbols, signals and noise. Dover Publications, New York, 1961 1980.
John R. Pierce.; Previously published as: Symbols, signals, and noise.
1961.; Includes bibliographical references and index.

[Pilone 05] Dan Pilone & Neil Pitman. Uml 2.0 in a nutshell. O’Reilly, 2005.

[Pineda 00] J. A. Pineda, B. Z. Allison & A. Vankov. The effects of self-


movement, observation, and imagination on /spl mu/ rhythms and
readiness potentials (RP’s): toward a brain-computer interface (BCI).
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 219–
222, 2000.
BIBLIOGRAFÍA 233

[Pineda 03] J. A. Pineda & et al. Learning to Control Brain Rhythms: Making a
Brain-Computer Interface Possible. IEEE TRANS. ON REH. ENG.,
vol. 11, no. 2, pages 181–184, June 2003.

[Pintado 77] Prudencio Gomez Pintado. Caminos abiertos por santiago ramon y
cajal. ”Libreria y Casa Editorial Hernando, S.A.”, 1977.

[Proakis 97] John G. Proakis & Dimitri G. Manolakis. Tratamiento digital de


señales : [principios, algoritmos y aplicaciones]. Prentice-Hall, Madrid,
1997.

[Rabiner 89] Lawrence R. Rabiner. A Tutorial on Hidden Markov Models and


Selected Applications in Speech Recognition, February 1989.

[Ratey 03] John J. Ratey. El cerebro: Manual de instrucciones. DeBolsillo,


Barcelona Constitució 19, 2003.

[Reilly 99] R. B. Reilly. Adaptive noncontact gesture-based system for


augmentative communication, 1999.

[Rezek 00] A. Flexer; P. Sykacek; I. Rezek & G. Dorffner. Using hidden Markov
models to build an automatic, continuous and probabilistic sleep stager,
2000.

[Rich 94] Elaine Rich & Kevin Knight. Inteligencia artificial. McGraw-
Hill, Madrid, 1994. Elaine Rich, Kevin Knight; Agotado (3-11-05);
19950223.

[Ripley 96] Brian D. Ripley. Pattern recognition and neural networks. Cambridge
University Press, United Kingdom, 2000 1996.

[Roberts 89] N. Birbaumer; Larry E. Roberts. Self-Report During Feedback


Regulation of Slow Cortical Potentials, July 1989 1989.

[Robinson 93] C. Robinson. What is rehabilitation engineering? IEEE Transactions


on Rehabilitation Engineering, vol. 1, no. 1, March 1993.

[Robinson 00a] C. Robinson. Commentary on Brain-Computer Interfacing and its


impact on rehabilitation science and clinical applicability. IEEE
Transactions on Rehabilitation Engineering, vol. 8, pages 161–163,
June 2000.

[Robinson 00b] Charles J. Robinson. A Commentary on Brain-Computer Interfacing


and Its Impact on Rehabilitation Science and Clinical Applicability,
June 2000 2000.
234 BIBLIOGRAFÍA

[Rockstroh 89] Brigitte Rockstroh. Slow brain potentials and behavior. Urban
and Schwarzenberg, Baltimore, 1989. Brigitte Rockstroh ... [et al.].;
Bibliography: p. 229-250.
[Rocon 06] Eduardo Rocon. Reducción activa de temblor patológico de miembro
superior mediante exoesqueletos robóticos. PhD thesis, Universidad
Politécnica de Madrid, 2006.
[Rousche 98] Patrick J. Rousche & Richard A. Normann. Chronic recording
capability of the Utah Intracortical Electrode Array in cat sensory
cortex. Journal of Neuroscience Methods,, vol. 82, no. 1, pages 1–15,
7/1 1998.
[Rubio 00] José Luis Bardasano Rubio & José Ignacio Elorrieta Pérez de Diego.
Bioelectromagnetismo. ciencia y salud. McGraw-Hill, Madrid etc.,
2000. 019: M. 10344-2000; José Luis Bardasano Rubio, José Ignacio
Elorrieta Pérez de Diego.
[Rumbaugh. 99] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.
Addison Wesley Iberoamericana, Madrid, 1999.
[Rumbaugh. 00a] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.
manual de referencia. Pearson Educacion, Madrid, 2000.
[Rumbaugh 00b] Jacobson; Booch; Rumbaugh. El proceso unificado de desarrollo de
software. Pearson Educacion, Madrid, 2000.
[Rupp 06] R. Rupp, G. MÃ41 ller-Putz, R. Scherer, G. Pfurtscheller & H. J.
Gerner. Moving thoughts. A brain-computer interface for control of
grasp neuroprostheses in tetraplegic patients. Journal of Biomechanics,,
vol. 39, no. Supplement 1, pages S371–548, 2006.
[Sarcinelli 09] Andre Ferreira; Teodiano Freire; Mario Sarcinelli & J. L. MartÃn
Sanchez. Evaluation of PSD components and AAR parameters as
input features for a SVM classifier applied to a robotic wheelchair.
Proceedings of the BIODEVICES International Conference on
Biomedical Electronics and Devices., vol. 1, no. 1, pages 7–12, January
2009.
[Schalk 04] G. Schalk. BCI2000: a general-purpose brain-computer interface (BCI)
system, 2004. ID: 1.
[Scherer 04] R. Scherer, G. R. Muller, C.Ñeuper, B. Graimann & G. Pfurtsche-
ller. An asynchronously controlled EEG-based virtual keyboard: impro-
vement of the spelling rate. Biomedical Engineering, IEEE Transactions
on, vol. 51, no. 6, pages 979–984, 2004.
BIBLIOGRAFÍA 235

[Schmidt 88] E. Schmidt, J. Mcintosh & M. Bak. Long-term implants of Parylene-


C coated microelectrodes. Medical and Biological Engineering and
Computing, vol. 26, no. 1, pages 96–101, 01/29 1988. M3:
10.1007/BF02441836.
[S.E.; 83] Levinson S.E.; & Rabiner L.R. An introduction to the Application of
the Theory of Probabilistic Functions of a Markov Process to Automatic
Speech Recognition, April 1983.
[Segovia 38] A.M. Segovia. Frenonologı́a. Semanario Pintoresco, vol. III, no. 11,
pages 770–774, November 1838.
[Sellers 06] EricW Sellers & Emanuel Donchin. A P300-based brain-computer
interface: Initial tests by ALS patients. Clinical Neurophysiology,,
vol. 117, no. 3, pages 538–548, 3 2006.
[Shannon 48] C. E. Shannon. A Mathematical Theory of Communication, July,
October, 1948 1948.
[Shannon 75] Claude E. Shannon & Warren Weaver. The mathematical theory of
communication. University of Illinois Press, Urbana, 1975. by Claude
E. Shannon, and Warren Weaver.
[Sheikh 03] Hesham Sheikh, Dennis J. McFarland, William A. Sarnacki
& Jonathan R. Wolpaw. Electroencephalographic(EEG)-based
communication: EEG control versus system performance in humans.
Neuroscience Letters,, vol. 345, no. 2, pages 89–92, 7/17 2003.
[Siegfried 97] Othmer Siegfried, F. Othmer Susan, & A. Kaiser David. EEG
Biofeedback: A Generalized Approach to Neuroregulation, 1997.
[Sutter 92] Erich E. Sutter. The brain response interface: communication through
visually-induced electrical brain responses. Journal of Microcomputer
Applications,, vol. 15, no. 1, pages 31–45, 1 1992.
[Sykacek 03] P. Sykacek, S. Roberts, M. Stokes, E. Curran, M. Gibbs &
L. Pickup. Probabilistic methods in BCI research. Neural Systems
and Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages 192–194,
2003.
[Taylor 03] D. M. Taylor, S. I. H. Tillery & A. B. Schwartz. Information
conveyed through brain-control: cursor versus robot. Neural Systems
and Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages 195–199,
2003.
236 BIBLIOGRAFÍA

[Tomé 07] A.M. Tomé & A. R. Teixeira. Single-channel electroencephalogram


analysis using non-linear subspace techniques. IEEE. Internacional
Symposium on Intelligent Signal Processing. Conference Proceedings
Book, pages 871–876, November 2007.
[Vapnik 63] V. Vapnik & A. Lerner. Pattern Recognition Using Generalized Portrait
Method., 1963.
[Vapnik 92] B.E. Boser; I.M. Guyon; V.Ñ. Vapnik. A training algorithm for optimal
margin classifiers., 1992.
[Vapnik 95] Corinna Cortes; V.Ñ. Vapnik. Support-Vector Networks, 1995.
[Velázquez 97] J.M. Velázquez. Curso elemental de Psicologı́a, October 1997.
[Vidal 73] Jacques J. Vidal. Toward direct brain-computer communication, 1973.
[Vidal 77] J. J. Vidal. Real-time detection of brain events in EEG, 1977. ID: 1.
[Wang 04] Yijun Wang, Zhiguang Zhang, Yong Li, Xiaorong Gao, Shangkai Gao
& Fusheng Yang. BCI competition 2003-data set IV:An algorithm
based on CSSD and FDA for classifying single-trial EEG. Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 1081–1086,
2004.
[Wang 08] S. Aamodt; S. Wang. Entra en tu cerebro. Ediciones B, Barcelona,
2008.
[Webster 78] John G. Webster & John W. Clark. Medical instrumentation :
application and design. Houghton Mifflin, Boston, 1978. John G.
Webster, editor ; contributing authors, John W. Clark ... [et al.].;
Includes bibliographies and index.
[Webster 92] John G. Webster & John G. Webster. Solutions manual [for] : Medical
instrumentation : application and design. Houghton Mifflin, Boston,
1992. John G. Webster, editor ; contributing authors, John W. Clark
... [et al.].
[Webster 95] John G. Webster & John W. Clark. Medical instrumentation :
application and design. Wiley, New York ; Chichester, 1992 1995. John
G. Webster, editor ; contributing authors, John W. Clark, Jr ...... [et al.];
Includes bibliographical references.
[Webster 98] John G. Webster & John W. Clark. Medical instrumentation.
application and design. Wiley, New York ; Chichester, 1998. John
G. Webster, editor ; contributing authors: John W. Clark, Jr ........ [et
al.].; Includes bibliographical references and index.
BIBLIOGRAFÍA 237

[Webster 04] John G. Webster. Bioinstrumentation. John Wiley & Sons, Hoboken,
N.J., 2004. John G. Webster, editor.; Includes bibliographical
references and index.

[Williams 99] Justin C. Williams, Robert L. Rennaker & Daryl R. Kipke. Long-term
neural recording characteristics of wire microelectrode arrays implanted
in cerebral cortex. Brain Research Protocols,, vol. 4, no. 3, pages 303–
313, 12 1999.

[Wolpaw 00a] J. R. Wolpaw, N. Birbaumer, W. J. Heetderks, D. J. McFarland,


P. H. Peckham, G. Schalk, E. Donchin, L. A. Quatrano, C. J.
Robinson & T. M. Vaughan. Brain-computer interface technology: a
review of the first international meeting. Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 164–173, 2000.

[Wolpaw 00b] J. R. Wolpaw, D. J. McFarland & T. M. Vaughan. Brain-


computer interface research at the Wadsworth Center. Rehabilitation
Engineering, IEEE Transactions on [see also IEEE Trans.on Neural
Systems and Rehabilitation], vol. 8, no. 2, pages 222–226, 2000.

[Wolpaw 02] Jonathan R. Wolpaw, Niels Birbaumer, Dennis J. McFarland, Gert


Pfurtscheller & Theresa M. Vaughan. Brain-computer interfaces for
communication and control, March 2002. Articulo muy bueno.

[Wolpaw 03] J. R. Wolpaw, D. J. McFarland, T. M. Vaughan & G. Schalk.


The Wadsworth Center brain-computer interface (BCI) research and
development program. Neural Systems and Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Rehabilitation
Engineering], vol. 11, no. 2, pages 1–4, 2003.

[Wolpaw 07] Jonathan R. Wolpaw. BRAIN-COMPUTER INTERFACES AS NEW


BRAIN OUTPUT PATHWAYS. THE JOURNAL OF PHYSIOLOGY,
Jan 25, 2007 2007.

[Zhong 02] S. Zhong & J. Ghosh. HMM’s and coupled HMM’s for multi-channel
EEG classification, 2002.

También podría gustarte