Jose Luis Martinez Perez

UNIVERSIDAD POLITÉCNICA DE MADRID
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES
COMUNICACIÓN CON COMPUTADOR

MEDIANTE SEÑALES CEREBRALES.
APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.
Tesis Doctoral
José Luis Martı́nez Pérez.

Ingeniero Industrial por la ETSII de Madrid
2009
DEPARTAMENTO DE AUTOMÁTICA, INGENIERÍA ELECTRÓ NICA
E INFORMÁTICA INDUSTRIAL
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES
COMUNICACIÓN CON COMPUTADOR

MEDIANTE SEÑALES CEREBRALES.
APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.
Tesis Doctoral
Autor: José Luis Martı́nez Pérez.

Ingeniero Industrial por la ETSII de Madrid
Director: Dr. Antonio Barrientos Cruz.

Doctor Ingeniero Industrial.
2009
T´ıtulo:
COMUNICACIÓN CON COMPUTADOR MEDIANTE SEÑALES
CEREBRALES. APLICACIÓN A LA TECNOLOGÍA DE LA
REHABILITACIÓN.
Autor:
José Luis Martı́nez Pérez.
Tribunal:
Presidente : Ramón Galán
Vocales :
XXXXXXX
Secretario : XXXXXXX
Suplentes :
Acuerdan otorgar la calificación de:
Madrid, XX de YY de 2008
A mi padre y madre: Luis y Eladia.
Resumen
Avances recientes en hardware para ordenadores personales y procesamiento de señal

ha hecho posible el uso de señales EEG u ondas cerebrales para comunicación entre
personas y computadores. Pacientes que sufren de s´ındromes bloqueantes disponen ahora
de una nueva forma de comunicación con el resto del mundo, pero incluso con las más
modernas técnicas, estos sistemas aún tienen tasas de comunicación del orden de 2-3
actividades / minuto. En suma, los dispositivos existentes no son diseñados con la idea de
flexibilidad en mente, dando lugar a sistemas lentos que son dif´ıciles de mejorar.
Este proyecto explora la efectividad de las técnicas de análisis en tiempo y en
frecuencia para la clasificación de diferentes actividades mentales haciendo uso de
electroencefalografı́a (EEG). Señales EEG de de dos canales provenientes de varios
voluntarios han sido estudiadas durante la realización de tres tareas mentales (lı́nea
base, imaginación de movimiento, actividad matemática). La distinción entre ellas en
clasificación On-line es el principal objetivo del proyecto.
Diferentes métodos basados en representaciones temporales y frecuenciales han sido
considerados para la clasificación entre las tareas mencionadas. Los resultados indican
la utilización de este método para ventanas de un tercio de segundo, distinguir las
caracter´ısiticas de los datos, con porcentajes de acierto aceptables.
ix
Índice general
Lista de Figuras. XV
Lista de Tablas. XXI
1. Introducción. 1
1.1. La tecnolog´ıa de Interfaz Cerebro Computador. . . . . . . . . . . . . . . . . 1
1.1.1. Clasificación de dispositivos ICC. . . . . . . . . . . . . . . . . . . . . 3
1.1.2. Componentes de un dispositivo ICC. . . . . . . . . . . . . . . . . . . 5
1.2. Aplicación de la tecnologı́a ICC. . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1. Ciencia de la rehabilitación. . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2. Teleoperación de robots industriales. . . . . . . . . . . . . . . . . . . 11
1.2.3. Sector militar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.4. Sector del ocio y entretenimiento. . . . . . . . . . . . . . . . . . . . . 11
1.3. Motivaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Objetivos de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Aportaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Estructura de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Estado de la técnica. 15
2.1. Fundamentos fisiológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1. Fisiolog´ıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2. La neurona. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3. El Sistema Nervioso. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.4. El Cerebro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2. Técnicas para la adquisición de actividad cerebral. . . . . . . . . . . . . . . 27
2.2.1. Electroencefalografı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2. Magnetoencefalografı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.3. Imagen cerebral mediante rayos X. . . . . . . . . . . . . . . . . . . . 41
2.2.4. Imagen cerebral mediante imagen nuclear. . . . . . . . . . . . . . . . 42
2.2.5. Imagen cerebral mediante tomograf´ıa computerizada. . . . . . . . . . 43
2.2.6. Imagen cerebral: MRI. . . . . . . . . . . . . . . . . . . . . . . . . . . 44
XII ÍNDICE GENERAL
2.2.7. Imagen cerebral: SPECT ................................................................................................45

2.2.8. Imagen cerebral: Tomografı́a por Emisión de Positrones (PET). ........... 45
2.3. Referencias históricas sobre la tecnologı́a ICC ....................................................... 46
2.4. Estado actual de la tecnolog´ıa ..............................................................................................................................51
3. Adquisición y procesamiento de señal EEG. 57

3.1. Acondicionamiento de la señal electroencefalográfica ............................................ 59
3.2. Muestreo, cuantificación y codificación de la señal EEG ...................................... 60
3.3. Normalización y ventaneado ..................................................................................... 60
3.4. Transformación de la señal del espacio temporal al espacio frecuencial. ............ 64
3.5. Obtención del vector de caracterı́sticas ................................................................... 65
3.6. Detección de artefactos ............................................................................................. 65
4. Tipologı́a de clasiftcadores. 67
4.1. Métodos estadı́sticos : Comparación de dos poblaciones ...................................... 68
4.1.1. Introducción ................................................................................................... 68
4.1.2. Descripción del test de contraste de la igualdad de dos poblaciones ...... 71
4.1.3. Procedimiento operacional ............................................................................................74
4.2. Métodos estadı́sticos: Análisis por discriminantes lineales .................................... 77
4.2.1. Introducción ................................................................................................... 77
4.2.2. Referencia histórica ....................................................................................... 78
4.2.3. Discriminación lineal clásica ........................................................................ 78
4.2.4. Discriminante lineal de Fisher .....................................................................................80
4.2.5. Procedimiento operacional ............................................................................................82
4.3. Clasificadores basados en redes neuronales ......................................................................... 83
4.3.1. Clasificador Perceptrón Multicapa MLP .................................................... 85
4.3.2. Clasificador basado en red neuronal de tipo RBF ............................................ 94
4.3.3. Clasificador basado en red neuronal de tipo PNN .......................................... 102
4.4. Clasificador bietapa basado en Modelo Oculto de Markov y RBF ......................... 104
4.4.1. Descripción Modelo Oculto de Markov .................................................... 104
4.4.2. Solución a los problemas canónicos ........................................................... 107
4.4.3. Densidades de observación continuas en MOM ....................................... 114
4.4.4. Tipos de Modelos Ocultos de Markov .......................................................................115
4.4.5. Consideraciones prácticas en la implementación de Modelos Ocultos
de Markov ..................................................................................................................................122
4.4.6. Descripción del algoritmo de clasificación bietapa .................................. 125
4.5. Clasificador basado en Máquina de Soporte de Vectores .................................... 129
4.5.1. Introducción a las Máquinas de Soporte de Vectores ............................. 129
4.5.2. Descripción del clasificador lineal óptimo ................................................ 130
4.5.3. Descripción del problema de optimización lineal .................................... 131
4.5.4. Margen blando.................................................................................................................. 133
ÍNDICE GENERAL XIII
4.5.5. Descripción del clasificador no lineal ........................................................ 134

4.5.6. Comparación entre Máquinas de soporte de Vectores y Redes
Neuronales ......................................................................................................................... 136
4.5.7. Implementaciones........................................................................................................... 138
5. Procedimientos experimentales y aplicación de demostración. 139

5.1. Protocolo preparación del usuario ......................................................................... 139
5.2. Descripción del equipo de adquisición y procesamiento ...................................... 140
5.3. Descripción de las actividades cognitivas .............................................................. 141
5.4. Descripción del protocolo para el procedimiento Off-line ................................... 142
5.5. Descripción del protocolo para el procedimiento On-line ................................... 144
5.6. Procedimientos experimentales de clasificación ................................................... 145
5.6.1. Contraste estad´ıstico de poblaciones ..................................................................... 146
5.6.2. Análisis Discriminante Lineal .................................................................... 147
5.6.3. Clasificadores basados en redes neuronales ....................................................... 148
5.6.4. Clasificador bietapa RBF-MOM ............................................................................... 149
5.6.5. Clasificador basado en Máquinas de Soporte de Vectores ...................... 150
5.7. Descripción de arquitectura dispositivo ICC ........................................................ 151
5.7.1. Identificación de actores ............................................................................. 151
5.7.2. Descripción de casos de uso ....................................................................... 151
5.7.3. Estructura de clases de análisis ................................................................. 155
5.7.4. Realización de los Casos de Uso ................................................................ 158
6. Análisis y discusión de los resultados experimentales. 161

6.1. Resultados del método estadı́stico de comparación de poblaciones ................... 161
6.1.1. Presentación de resultados ......................................................................... 162
6.1.2. Análisis ......................................................................................................... 162
6.1.3. Discusión ...................................................................................................... 165
6.1.4. Conclusiones...................................................................................................................... 166
6.2. Resultados obtenidos aplicando la técnica LDA .................................................. 167
6.2.2. Análisis ......................................................................................................... 174
6.2.3. Discusión ...................................................................................................... 174
6.2.4. Conclusiones...................................................................................................................... 175
6.3. Resultados obtenidos con clasificadores basados en redes neuronales ...................176
6.3.2. Análisis ......................................................................................................... 185
6.3.3. Discusión ...................................................................................................... 185
6.3.4. Conclusiones...................................................................................................................... 186
6.4. Resultados obtenidos con clasificadores bietapa basados en redes neuronales
y Modelos Ocultos de Markov........................................................................................................ 187
XII
6.4.1. Presentación de resultados ......................................................................... ÍNDICE GENERAL
187
6.4.2. Análisis ......................................................................................................... 189
6.4.3. Discusión ...................................................................................................... 189
6.4.4. Conclusiones ...................................................................................................................... 189
6.5. Resultados obtenidos con clasificadores basados en Máquinas de Soporte de
Vectores ................................................................................................................................................................190
6.5.2. Análisis 204
6.5.3. Discusión 204
6.5.4. Conclusiones ...................................................................................................................... 205
6.6. Corolario ............................................................................................................................................. 206
7. Conclusiones y futuros desarrollos. 207

7.1. Conclusiones ..................................................................................................................................... 207
7.2. Futuros desarrollos ........................................................................................................................ 209
A. Adquisición de señal. 213

A.1. Muestreo de señales ................................................................................................. 213
A.2. Cuantificación ........................................................................................................... 215
A.3. Codificación .............................................................................................................. 217
B. Matriz de confusión. 219

Lista de Figuras
1.1. Representación del sistema ICC ................................................................................. 2

1.2. Clasificación de dispositivos ICC ............................................................................... 4
1.3. Componentes de un sistema ICC................................................................................................. 5
2.1. Diagrama frenológico ................................................................................................. 16

2.2. Neuronas. Ramón y Cajal ......................................................................................... 17
2.3. Neuronas ............................................................................................................................................... 18
2.4. Topologı́a de la célula neuronal ................................................................................ 19
2.5. Tipos de neuronas ............................................................................................................................ 20
2.6. Tipos de sinapsis. (a - Axoaxiónica. b - Axodendrı́tica . c - Axosomática.) . 21
2.7. Sistema Nervioso ....................................................................................................................... 22
2.8. Encéfalo ....................................................................................................................... 22
2.9. Cabeza .................................................................................................................................................... 23
2.10. Tronco encefálico ........................................................................................................ 24
2.11. Nervios craneales .............................................................................................................................. 25
2.12. Distribución de las funciones de la corteza cerebral .............................................. 27
2.13. Técnicas de registro monopolar y diferencial ......................................................... 29
2.14. Sistema electroencefalográfico 10 - 20 ..................................................................... 30
2.15. Electroencefalograma normal...................................................................................................... 31
2.16. Localización somatosensorial .................................................................................... 33
2.17. Localización de potenciales auditivos evocados ...................................................... 34
2.18. Componentes de los potenciales auditivos evocados ........................................................35
2.19. Potenciales sensoriales evocados ............................................................................................... 36
2.20. Componentes de los potenciales visuales evocados ..........................................................36
2.21. Intensidad de campos bio-magnéticos ..................................................................... 38
2.22. Magnetocardiograma ....................................................................................................................... 39
2.23. Magnetoencefalograma con campos magnéticos auditivos inducidos .................. 39
2.24. Magnetoencefalograma con campos magnéticos sensitivos inducidos ................. 40
2.25. Rayos X .......................................................................................................................................... 41
2.26. Camara Gamma................................................................................................................................. 42
2.27. Tomograf´ıa computerizada ........................................................................................................... 43
2.28. Tomograf´ıa computerizada ........................................................................................................... 43
XVI LISTA DE FIGURAS
2.29. En MRI, la bobina de radio frecuencia excita las secciones en el eje Y . Un

receptor de RF mide la secciones en el eje X ............................................ 44
2.30. MRI tejidos blandos ........................................................................................................................ 44
2.31. Tomografı́a por Emisión de Positrones .................................................................... 45
2.32. Velocidad de transferencia de información en bits/min, variando el número
de posibles elecciones N= {2, 4, 8, 16 ó 32 }.............................................................. 52
2.33. Evolución temporal del desarrollo de la tecnologı́a ICC ....................................... 56
3.1. Colocación de los electrodos ..................................................................................... 58

3.2. Esquema de conexionado eléctrico ........................................................................... 58
3.3. Registro de señal tı́pico ............................................................................................. 59
3.4. Procedimiento de ventaneado de la señal ............................................................... 61
3.5. Ventanas de preprocesamiento Rectangular y Triangular................................................ 62
3.6. Ventanas de preprocesamiento: Blackman, Hamming y Hanning ............................. 63
3.7. Ventanas de preprocesamiento: Kaiser y Tukey............................................................................. 63
3.8. Efecto de derrame frecuencial .................................................................................................... 63
4.1. Proceso contraste de hipótesis .................................................................................. 68

4.2. Procedimiento operacional........................................................................................................... 76
4.3. Arquitectura de una red neuronal tipo perceptrón multicapa .............................. 85
4.4. Representación perceptrón ........................................................................................ 86
4.5. Funciones de activación ............................................................................................. 87
4.6. Arquitectura general de una red MLP ................................................................................... 88
4.7. Arquitectura de una red neuronal 2tipo RBF ....................................................................... 94
4.8. Función de activación, φ(x ) = e − 2 σ2 ..........................................................................................................................................................96
x
4.9. Comparación clasificación MLP vs RBF .............................................................. 100

4.10. Arquitectura de una red neuronal tipo PNN .................................................................... 102
4.11. Representación Modelo Oculto de Markov ........................................................... 104
4.12. Algoritmo “adelante-atrás”. Procedimiento hacia delante .................................. 109
4.13. Algoritmo “adelante-atrás”. Procedimiento hacia atrás ..................................... 109
4.14. Representación de la obtención de εt (i, j) ............................................................ 112
4.15. Esquema del modelo ergódico ................................................................................ 115
4.16. Esquema del modelo izquierda-derecha..........................................................................................116
4.17. Esquema del modelo rutas paralelas ..................................................................................................... 116
4.18. Esquema del modelo entrada-salida ...........................................................................................117
4.19. Algoritmo de clasificación bietapa ......................................................................... 126
4.20. Arquitectura de la red neuronal RBF................................................................................... 127
4.21. Entrenamiento de la red neuronal RBF............................................................................... 128
4.22. Entrenamiento de los MOM’s ................................................................................................... 128
4.23. Funcionamiento MSV ................................................................................................................... 129
4.24. Selección del hiperplano óptimo ............................................................................. 131
LISTA DE FIGURAS XVII
4.25. Separación lineal: margen blando .......................................................................... 134

4.26. Separación no lineal ................................................................................................. 135
5.1. Localización de los electrodos ................................................................................. 140

5.2. Componentes del sistema ......................................................................................................... 141
5.3. Flujograma procedimiento “Off-line” ................................................................................ 142
5.4. Flujograma procedimiento “On-line” ................................................................................ 144
5.5. Procedimiento de procesamiento registros EEG............................................................ 145
5.6. Procedimiento estadı́stico de comparación de poblaciones ................................. 146
5.7. Procedimiento de aplicación de la técnica LDA ................................................... 147
5.8. Procedimiento de aplicación de clasificadores basados en redes neuronales ..... 148
5.9. Procedimiento de aplicación del clasificador bietapa RBF-MOM ..................... 149
5.10. Procedimiento de aplicación del clasificador basado en MSV ............................ 150
5.11. Casos de uso de la aplicación ................................................................................. 151
5.12. Interfaz de la aplicación demostrador .................................................................... 152
5.13. Interfaz de la aplicación demostrador .................................................................... 157
5.14. Diagrama de secuencia del caso de uso Puesta en marcha del sistema ................ 158
5.15. Diagrama de secuencia del caso de uso “Deletrear palabra” ............................................159
5.16. Diagrama de secuencia del caso de uso Finalización de la aplicación. ............. 160
6.1. Resultados de la comparación de actividades cognitivas en el canal 1 ............. 163

6.2. Resultados de la comparación de actividades cognitivas en el canal 2 ............. 164
6.3. Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X1 ........................................................................................................ 168
6.4. Off-line. Cálculo matemático vs Relax. Proyec. sobre X1 ................................................ 168
6.5. Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 ............................... 169
6.6. On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X1 ........................................................................................................ 169
6.7. On-line. Cálculo matemático vs Relax. Proyec. sobre X1 ................................................ 170
6.8. On-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 ............................... 170
6.9. Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X2 ........................................................................................................ 171
6.10. Off-line. Cálculo matemático vs Relax. Proyec. sobre X2 ................................................ 171
6.11. Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 ............................... 172
6.12. On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre
X2 ........................................................................................................ 172
6.13. On-line. Cálculo matemático vs Relax. Proyec. sobre X2 ................................................ 173
6.14. On-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 ............................... 173
6.15. Sujeto A. Canal 1. Clasificaciones correctas ............................................................... 177
6.16. Sujeto A. Canal 2. Clasificaciones correctas ............................................................... 177
6.17. Sujeto A. Canal 1 y 2. Clasificaciones correctas ....................................................... 178
6.18. Sujeto B. Canal 1. Clasificaciones correctas ............................................................... 178
XVIII LISTA DE FIGURAS
6.19. Sujeto B. Canal 2. Clasificaciones correctas ................................................................. 179

6.20. Sujeto B. Canal 1 y 2. Clasificaciones correctas .............................................................. 179
6.21. Sujeto C. Canal 1. Clasificaciones correctas.................................................................. 180
6.22. Sujeto C. Canal 2. Clasificaciones correctas.................................................................. 180
6.23. Sujeto C. Canal 1 y 2. Clasificaciones correctas .......................................................... 181
6.24. Sujeto D. Canal 1. Clasificaciones correctas ................................................................. 181
6.25. Sujeto D. Canal 2. Clasificaciones correctas ................................................................. 182
6.26. Sujeto D. Canal 1 y 2. Clasificaciones correctas .............................................................. 182
6.27. Sujeto E. Canal 1. Clasificaciones correctas.................................................................. 183
6.28. Sujeto E. Canal 2. Clasificaciones correctas.................................................................. 183
6.29. Sujeto E. Canal 1 y 2. Clasificaciones correctas .............................................................. 184
6.30. Porcentaje de clasificaciones correctas. Canal 1. Kernel gaussiano........................192
6.31. Porcentaje de clasificaciones correctas. Canal 2. Kernel gaussiano ........................192
6.32. Porcentaje de clasificaciones correctas. Canal 1. Kernel polinómico. ................ 193
6.33. Porcentaje de clasificaciones correctas. Canal 2. Kernel polinómico. ................ 193
6.34. Porcentaje de vectores soporte. Canal 1. Kernel gaussiano ....................................... 194
6.35. Porcentaje de vectores soporte. Canal 2. Kernel gaussiano ....................................... 194
6.36. Porcentaje de vectores soporte. Canal 1. Kernel polinómico ............................. 195
6.37. Porcentaje de vectores soporte. Canal 2. Kernel polinómico ............................. 195
6.38. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano
P=1 ................................................................................................................................................ 196
P=1 ................................................................................................................................................ 196
P=2 ................................................................................................................................................ 197
P=2 ................................................................................................................................................ 197
P=3 ................................................................................................................................................ 198
P=3 ................................................................................................................................................ 198
P=5 ................................................................................................................................................ 199
P=5 ................................................................................................................................................ 199
P=10 ...................................................................................................................................................... 200
P=10 ...................................................................................................................................................... 200
6.48. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico
P=2 ................................................................................................................................................ 201
LISTA DE FIGURAS XIX

P=2 ................................................................................................................................................ 201
P=3 ................................................................................................................................................ 202
P=3 ................................................................................................................................................ 202
P=4 ................................................................................................................................................ 203
P=4 ................................................................................................................................................ 203
A.1. Cuantificación uniforme .......................................................................................... 215

XX LISTA DE FIGURAS
Lista de Tablas
2.1. Terminolog´ıa de formas de onda para EEG.......................................................................... 32

2.2. Componentes potenciales sensoriales evocados ............................................................... 35
3.1. Tipos de ventanas de preprocesamiento considerados.................................................. 62

3.2. Determinación del vector de caracterı́sticas ........................................................... 65
4.1. Vector de caracter´ısticas......................................................................................................................................75

4.2. Funciones Kernel ............................................................................................................................137
4.3. Comparación entre SVM y Redes Neuronales ...................................................... 137
6.1. Resultados voluntario AL01..................................................................................................... 188

6.2. Resultados voluntario RO01 .......................................................................................................... 188
6.3. Resultados voluntario JA01 ...................................................................................................... 188
6.4. Resultados voluntario DA01 .......................................................................................................... 188
6.5. Resultados voluntario RA01 .................................................................................................... 188
6.6. Resultados voluntario RA02 .................................................................................................... 188
6.7. Familia de funciones Kernel y parámetros caracterı́sticos .................................. 190
6.8. Resultados Kernel gaussiano (P:1) ....................................................................................... 196
6.12. Resultados Kernel gaussiano (P:10) .................................................................................... 200
6.13. Resultados Kernel polinómico (P:2) ...................................................................... 201
B.1. Matriz de confusión del clasificador ideal ............................................................. 219

B.2. Matriz de confusión para un clasificador real ....................................................... 220
XXII LISTA DE TABLAS
Capı́tulo 1
Introducción.
1.1. La tecnologı́a de Interfaz Cerebro Computador.

Desde el momento en que un ser humano nace, la interacción con el entorno que le rodea
se produce a través de dos vı́as, una sensorial destinada a la percepción de dicho entorno,
y otra motora, con la que se modifica dicho entorno a través de movimientos, [Ratey 03].
Mediante un proceso de aprendizaje, [Webster 04], [Wang 08], iniciado incluso antes de
nacer, en el vientre materno se determinan los canales y bucles de señales electroquı́micas
que permitirán tanto la adquisición de información del entorno exterior, como el control
de los músculos con los que modificar dicho entorno, [Baker 89], [Jessell 91].
Siendo pues la percepción de información y el movimiento, los mecanismos de
interacción con el entorno fı́sico que nos rodea, no es de extrañar que la práctica totalidad
de los actuales dispositivos de interfaz entre personas y máquinas necesiten algún tipo de
control muscular voluntario, aunque éste sea mı́nimo como por ejemplo es el caso de los
dispositivos de comunicación aumentada [Reilly 99], [Montoya 02].
Esta necesidad de movimiento impide que personas que hayan sufrido algún tipo
de accidente traumático, que afecte a su capacidad de movimiento, o con trastornos
neuromotores que se manifiesten en episodios de bloqueo o parálisis muscular, puedan
hacer uso de dichos mecanismos de comunicación, sin embargo la mayorı́a de personas con
este tipo de problemas mantienen intactas su sensación corporal, vista y oı́do, ası́ como
sus capacidades cognitivas [Arnao 97].
Por ello desde que en 1920, el Dr. Hans Berger demostrará la existencia de variaciones
de potenciales eléctricos en el cerebro asociadas a diferentes estados [Bronzino 95a],
[Webster 04], [Baker 89], la comunidad cient´ıfica ha buscado el modo de aplicar dicho
descubrimiento para obtener una vı́a de comunicacion más directa entre el cerebro
humano y dispositivos mecánicos externos, [Wolpaw 00b], [Wolpaw 03], [Pfurtscheller 00],
[Perelmouter 99], [McFarland 97], [Penny 99], [Birch 00], dando lugar al surgimiento de
la tecnologı́a de Interfaz Cerebro Computador, ICC1 , definida como “una nueva vı́a
de comunicación entre personas y computadores, radicalmente diferente a las empleadas
en la actualidad, que utiliza canales de comunicación independientes de los canales
de salida habituales del cerebro: sistema nervioso periférico y músculos” [Wolpaw 00a],
1
En terminologı́a sajona esta tecnologı́a se conoce bajo las siglas BCI:“Brain Computer Interface”
2 Introducción.
[Wolpaw 02]. Lo cual la hace especialmente valiosa en áreas como rehabilitación

[Jacques 94], tratamiento de enfermedades nerviosas [Siegfried 97], realidad virtual o sector
militar, [NASA 08].
Como se puede comprobar en esta tesis, la tecnolog´ıa ICC involucra aspectos complejos,
como el control voluntario de la señal electroencefalográfica tanto de neuronas individuales
como de centros neuronales en cualquiera de sus diferentes modalidades: potenciales
evocados, actividad neuronal espontánea, desincronización y sincronización de ritmos
cerebrales; ası́ mismo implica la detección, medición, interpretación y clasificación de dicha
actividad neuronal por medio de sistemas basados en microprocesadores, para as´ı controlar
diferentes tipos de dispositivos como por ejemplo: prótesis neuronales, [Donchin 00],
[Isaacs 00], prótesis robotizadas, [Chapin 99], [Mahajan 98], sillas de ruedas eléctricas u
ordenadores personales, [Perelmouter 99], [Millan 03], sistemas de comunicación verbal,
[Kumlbler 01].
Desde el punto de vista de interacción entre el ser humano y el dispositivo mecánico
externo, hay que considerar que en el bucle de control interactúan dos componentes
adaptativos con capacidad de aprendizaje, por un lado la persona y por otro el propio
dispositivo de interfaz. Por lo que es preciso analizar el efecto que sobre la capacidad de
utilización del sistema tienen tanto el efecto de realimentación de información al usuario,
como los cambios de estado de ánimo de éste, [Holzapfel 98], [Sheikh 03].
Diferentes técnicas de adquisición y registro de actividad cerebral son empleadas en
ICC, [Wolpaw 03], [Barreno 97], [Rubio 00], como por ejemplo: la magnetoencefalografı́a
(MEG), la Tomografı́a por Emisión de Positrones (PET), o la imagen de resonancia
magnética funcional (fMRI); existiendo en la actualidad grupos de investigación
trabajando sobre ellas. Sin embargo las técnicas anteriores presentan bien el inconveniente
de tener constantes de tiempo muy altas, al quedar su funcionamiento ligado al flujo
sanguı́neo, caso de PET, fMRI e imagen óptica; o bien requerir un equipamiento muy
costoso, [Laitinen 03]: MEG, PET, fMRI.En la actualidad la electroencefalografı́a es
la técnica que por precio y tiempo de reacció n consigue mejores resultados [Birch 03],
[Birch 00], [Borisoff 04], [Pfurtscheller 00].
Figura 1.1: Representación del sistema ICC

1.1 La tecnologı́a de Interfaz Cerebro Computador. 3
1.1.1. Clasificación de dispositivos ICC.

Investigadores en ICC han adoptado diferentes aproximaciones, en muchos casos
novedosas y únicas, para la detección de cambios voluntarios en la actividad cerebral
del sujeto, a partir del análisis de variaciones en los diferentes tipos de señales
electroencefalográficas, entre los que se encuentran la desincronización y posterior
sincronización de ritmos cerebrales, potenciales evocados o actividad cortical de neuronas
individuales.
La actividad electroencefalográfica incluye una gran variedad de patrones o ritmos
diferentes que son identificados por su frecuencia, localización, morfologı́a y asociación
con varios aspectos del funcionamiento cerebral [Jessell 91], [Baker 89], [Webster 04].
Se ha demostrado que las personas, y ciertos hom´ınidos [Maynard 99], [Kennedy 97],
pueden aprender a controlar la amplitud de varios de estos ritmos cerebrales, [Birbaumer
03], [Birbaumer 00], [Lauer 00], [Sheikh 03]. Ritmos μ y generación de diferentes
tipos de potenciales son producidos en la zona senso-motora del cortex cerebral, bien
durante movimientos voluntarios, o bien cuando se imagina o prepara un movimiento,
[Penny 00]. Técnicas avanzadas de procesamiento de señal permiten la detección en lı́nea
de este fenómeno, dando lugar a que con su aprendizaje razonablemente rápido, se
pueda controlar el movimiento de un cursor sobre la pantalla de un computador. La
combinación de diferentes ritmos EEG puede ser empleada para controlar el movimiento
bidimensional de un cursor, [Wolpaw 00b]. Por otro lado, la estimulación sensorial y
potenciales relacionados con la actividad motora asociada a movimientos reales o figurados,
da lugar a una compleja y rica actividad electroencefalográfica que involucra a una gran
cantidad de potenciales evocados que pueden ser usados en dispositivos de comunicación
y control basados en la tecnolog´ıa ICC, dando lugar a diferentes clases dentro de las que
catalogar tanto a los dispositivos ICC como a las lı́neas de investigación de las que parten.
Desde un punto de vista fisiológico los dispositivos ICC se pueden clasificar en exógenos
o endógenos, véase figura 1.2, en el caso de los sistemas exógenos al usuario del sistema se le
suministran est´ımulos externos y se analiza la respuesta cerebral a los mismos. Un ejemplo
donde esta técnica ha sido empleada con éxito es con potenciales visuales evocados, P300, y
su empleo en sistemas para deletrear palabras, [Donchin 00]. Personas que sufren bloqueos
en su capacidad de respuesta o inicio de actividad, pueden utilizar potenciales evocados
lentos2 para por ejemplo deletrear palabras o en labores de control, siendo necesario un
proceso de aprendizaje condicionado.
Los dispositivos endógenos por el contrario, basan su funcionamiento en detectar y
reconocer determinados patrones de ondas cerebrales ligados a la voluntad del usuario, sin
que sea necesario proporcionar estı́mulos externos; un ejemplo en el que esta técnica ha sido
utilizada con éxito es con la detección de la desincronización y posterior sincronización
de ritmos β o μ que se producen cuando el usuario imagina o planifica movimientos,
[Scherer 04], [Wolpaw 03].
2
Los potenciales evocados lentos son la suma de potenciales de activación ultralentos en las dendritas
de las neuronas corticales, surgen de diferentes capas del cortex cerebral.
4 Introducción.
Otro tipo de clasificación con base fisiológica, se realiza atendiendo a la utilización de

determinadas estructuras cerebrales. Se catalogan como dispositivos ICC independientes
los que, como en el caso anterior, aprenden patrones de actividad con independencia de la
causa que los origine, y dispositivos dependientes los que detectan la activación de
determinadas regiones del cerebro asociadas a salida de información del mismo, y as´ı
detectar o inferir la voluntad del usuario. Un ejemplo de este tipo de dispositivos ICC
dependientes, serı́an los que determinan la dirección de la mirada del usuario partiendo
del análisis de potenciales visuales evocados, [Sutter 92]. En ambos casos es preciso que el
usuario realice un proceso de aprendizaje y adaptación al sistema, siendo por lo general
más laborioso para el caso de dispositivos endógenos, [Wolpaw 07].
Un último tipo clasificación viene dado por el tipo de electrodos empleados, existen
en este sentido dos grandes clases: electrodos superficiales que se colocan sobre el
cuero cabelludo, y los implantables, [Hoogerwerf 94], [Isaacs 00], [Rousche 98]: epidurales,
subdurales, intracorticales. Los electrodos implantables, usados con éxito en técnicas de
estimulación electrofuncional [Mahajan 98], presentan una mejor relación señal ruido,
ası́ como una mayor tasa en la velocidad de transferencia de información y una mejor
resolución espacial, ya que pueden detectar la activación o desactivación de grupos
especı́ficos de neuronas. Sin embargo presentan el inconveniente de requerir operación
quirúrgica para su colocación, y que con el tiempo la señal poco a poco va disminuyendo,
debido al efecto de rechazo por parte del sistema inmunológico a elementos extraños, lo
cual da lugar a que la relación señal ruido vaya deteriorándose [Kipke 03], [Schmidt 88],
[Williams 99]. Se ha demostrado que tanto animales, como pacientes humanos, con
electrodos implantados han sido capaces de controlar trenes de activación de dos o más
neuronas de la zona motora del cortex, controlando un dispositivo de comunicación,
[Robinson 00b]. Los electrodos superficiales presentan el inconveniente de una menor
calidad de la señal registrada, por lo que para detectar variaciones de potencial eléctrico es
necesario que el número de neuronas implicadas sea varios órdenes de magnitud superior
que para el caso de electrodos implantables, siendo por tanto mayor la extensión de la
región del cerebro involucrada; sin embargo presentan la ventaja de no requerir operación
quirúrgica en su utilización.
Figura 1.2: Clasificación de dispositivos ICC.

1.1.2. Componentes de un dispositivo ICC.

Con independencia de la técnica de adquisicion de señal encefalográfica utilizada, y sea
cual sea la tipologı́a del dispositivo en cuestión, todos los sistemas pueden enmarcarse en
un diagrama de bloques semejante al que aparece en la figura 1.3, [Schalk 04], [Wolpaw 07],
en cuyos bloques se considera:
Figura 1.3: Componentes de un sistema ICC.

6 Introducción.
1. Adquisición de señal encefalográfica. En este bloque se contempla el proceso a través

del cual se procede a realizar la adquisición de señal cerebral. Comprende los procesos
de amplificación de señal, filtrado analógico, muestreo y cuantificación.
En caso de utilizar un sistema electroencefalográfico como sistema de adquisición,
para poder llegar a una aplicación práctica, la señal adquirida, del orden de
microvoltios, ha de ser filtrada de otras fuentes de perturbación como ruido ambiente,
actividad muscular y perturbaciones por movimiento, e incluso deben ir más allá,
puesto que deben permitir su empleo en ambientes ruidosos, aún en el caso en
que las órdenes de mando sean dadas de forma poco frecuente, por lo que se
requerirán algoritmos de detección robustos, en donde por ejemplo el efecto de
ventaneado sea considerado, [Wolpaw 02]. Debido a que es la señal captada la que
porta los mensajes del usuario, el objetivo de su análisis es la maximización de
la relación señal frente al ruido, por lo que es preciso considerar las fuentes de
ruido más importantes, [McFarland 97], éstas pueden ser tanto extraneuronales:
movimientos de los ojos, EMG, ruido eléctrico; como neuronales: cualquier otro tipo
de señales diferentes a las utilizadas para la comunicación. La detección del ruido
y clasificación presentan mayor dificultad cuando la señal de ruido es similar en
frecuencia, tiempo o amplitud a la señal deseada. Por ejemplo, analizando potenciales
evocados lentos, se comprueba que su espectro de frecuencia se sobrepone con el
espectro de movimiento de los ojos, igual ocurre cuando se analizan ritmos β y se
producen movimientos musculares. Es preciso por tanto, tener suficiente información
como para permitir discriminar entre señal y ruido. La actividad muscular puede
enmascarar la caracter´ıstica de control EEG utilizada, incluso puede aparecer ruido
no muscular por actividad refleja en aquellos usuarios con falta total de control
muscular voluntario. En este caso, el ruido por causas no neuronales provoca una
degradación en el rendimiento del dispositivo ICC, ya que disminuye la relación señal
ruido. Es as´ı mismo importante distinguir entre diferentes caracter´ısticas neuronales.
El ritmo α visual es una fuente de ruido, cuando se considera el ritmo μ como
caracterı́stica de control. Métodos de filtrado temporal y espacial pueden ayudar en
la distinción, señales de diferentes fuentes podrı́an tener espectros frecuenciales y
distribuciones espaciales parecidas, [Florian 98]. Si el ruido, tanto neuronal como no
neuronal, puede ser identificado en lı́nea durante el transcurso del funcionamiento,
su impacto podrı́a ser reducido o incluso eliminado. Por ejemplo un dispositivo
ICC controlado por potenciales corticales lentos, cuya entrada se vea contaminada
por movimientos oculares puede ser bien filtrada y restaurada, o bien rechazada,
[Birbaumer 00]. Esta aproximación puede dar lugar a que el usuario aprenda a
reducir la producción de dicho ruido.
2. Preprocesamiento. Este bloque comprende las operaciones que se realizan sobre la

señal digitalizada, previas a la obtención de los parámetros que definen el segmento
temporal de señal analizado, por ejemplo: filtrado digital, conversión de dominio
temporal a dominio frecuencial, análisis de fase, etc.
En cuanto a las técnicas empleadas para procesar la señal existen numerosas opciones
disponibles para el procesamiento de señal ICC. La decisión del criterio a aplicar
vendrá dado por la comparación de medidas de velocidad y precisión en experimentos
en l´ınea.
Métodos de procesamiento de señal son importantes en el diseño de sistemas ICC,
pero no resuelven todos los problemas. Pueden mejorar las relación señal ruido, pero
no pueden tratar directamente con los cambios de la señal, por lo que el desarrollo de
la tecnologı́a ICC depende del manejo apropiado de la interacción adaptativa entre
el usuario y el sistema, ası́ como en la selección del método de procesamiento de
señal adecuado.
3. Extracción de caracterı́sticas. Para cada segmento temporal de señal analizado se

obtienen un conjunto de parámetros que reúnen la información más relevante del
mismo y que permiten caracterizarle, [Galan 07]. La estimación de parámetros
en modelos autorregresivos es un método útil para describir la actividad de
EEG, mostrándose valioso en aplicaciones de la tecnologı́a ICC, [Pfurtscheller 00],
[Penny 00]. Los modelos AR por lo general asumen procesos gaussianos, [Birch 00].
Los residuos del modelo deben ser considerados y analizados debido a su gran
influencia en la estimación de los parámetros del modelo. La estimación de máxima
probabilidad generalizada (GM) se muestra valiosa en aquellos casos en los que
existe una contaminación aditiva de muestras fuera de la banda de consideración.
Este método se basa en el filtro de Kalman modificado. Ambos métodos producen
resultados similares a la estimación AR tı́pica, cuando los datos observados se
distribuyen según gaussianas. Algoritmos Bayesianos pueden analizar la certidumbre
en la interpretación de la voluntad del usuario por parte del sistema, [Penny 00]. Es
posible parar la comunicación cuando el valor de la certidumbre es inferior a un valor
cr´ıtico, reduciendo errores en el rendimiento del sistema ICC.
4. Aprendizaje y clasificación. En este bloque se consideran los mecanismos a través

de los cuales, durante la fase de entrenamiento, se aprenden determinados patrones
cerebrales. Con posterioridad, en la fase de funcionamiento “On-line”, los segmentos
de señal cerebral son catalogados como pertenecientes a determinados patrones
cerebrales.
Es sin duda el componente cr´ıtico de todo sistema de Interfaz Cerebro Computador,
pues convierte la entrada electrofisiológica del usuario en una señal de mando que
permite controlar dispositivos externos. De su tasa de acierto depende la efectividad
del sistema, [Obermaier 01b], la cual a su vez depende de la interacción entre los
controladores adaptativos anteriormente mencionados: el usuario que codifica las
órdenes al sistema ICC, y dicho sistema que reconoce las órdenes que hay en la
entrada y las traduce en órdenes de control del dispositivo. En la actualidad se
están obteniendo velocidades de transferencia de información entre 5-25 bits/min,
[Penny 99].
8 Introducción.
Dispositivos de ICC diferentes utilizan diferentes algoritmos de traducción,

[Birbaumer 00], [Penny 00], [Muller 03b], basados en técnicas lineales, [Garrett 03],
en técnicas bayesianas, [Penny 00], en redes neuronales, [Wang 04] y en Modelos
Ocultos de Markov; sin embargo hasta la fecha no se tiene constancia de que haya
sido desarrollado un algoritmo de clasificación que aune redes neuronales y modelos
ocultos de Markov, tal y como se hace en esta tesis.
Por algoritmos de traducción se entienden una serie de cálculos que transforman las
caracterı́sticas de la entrada derivadas del procesamiento de señal en comandos de
control del dispositivo. Los algoritmos de traduccion adquieren la señal, extraen
las caracter´ısticas que refleja el estado actual del usuario. bien del EEG o de
la actividad neuronal: individual o colectiva, y la transforman en comandos que
dependen del dispositivo al que se aplican. Dispositivos de ICC diferentes utilizan
diferentes algoritmos de traducción, [Birbaumer 00], [Penny 00]. Cada algoritmo se
puede clasificar en términos de tres caracterı́sticas clave: función de transferencia,
capacidad de adaptación y salida. La función de transferencia puede ser lineal, por
ejemplo análisis de discriminantes lineales, ecuaciones lineales; o no lineal: redes
neuronales. El algoritmo puede ser o no adaptativo. Algoritmos adaptativos pueden
utilizar sencillas reglas hechas a mano o utilizar algoritmos más sofisticados de
aprendizaje por computador. La salida del algoritmo puede ser discreta: selección
de letras o iconos, o continua: movimiento del cursor. La gran diversidad de los
algoritmos de traducción entre los grupos de investigación se debe en parte a la
diversidad de su aplicación en la práctica. Sin embargo en todos los casos el objetivo
es maximizar el rendimiento y utilidad para la aplicación elegida.
Cada algoritmo se puede clasificar en términos de tres caracterı́sticas clave: función
de transferencia, capacidad de adaptación y salida. La función de transferencia
puede ser lineal, por ejemplo análisis de discriminantes lineales, ecuaciones lineales;
o no lineal: redes neuronales. El algoritmo puede ser o no adaptativo. Algoritmos
adaptativos pueden utilizar sencillas reglas hechas a mano o utilizar algoritmos más
sofisticados de aprendizaje por computador. La salida del algoritmo puede ser
discreta: selección de letras o iconos, o continua: movimiento del cursor. La gran
diversidad de los algoritmos de traducción entre los grupos de investigación se debe
en parte a la diversidad de su aplicación en la práctica. Sin embargo en todos los
casos el objetivo es maximizar el rendimiento y utilidad para la aplicacion elegida.
5. Asociación de dichas clases a órdenes de control de dispositivos externos. Este bloque
es el encargado de realizar la traducción de patrones cerebrales a comandos de control
de dispositivos externos.
Además de los bloques anteriores, en dispositivos ICC “On-line”, ha de existir un
bloque que permita supervisar el funcionamiento del dispositivo por parte del usuario,
como por ejemplo su activación / desactivación, o fase de funcionamiento en la que se
encuentra: adquisición de muestras iniciales, entrenamiento, funcionamiento on-line,
adaptación.
1.2 Aplicación de la tecnologı́a ICC. 9
1.2. Aplicación de la tecnologı́a ICC.

Como ya se ha indicado, los dispositivos ICC se basan en registrar y analizar la
actividad cerebral, bien mediante el uso de técnicas electroencefalográficas, o bien mediante
otras técnicas de detección.
En la actualidad esta tecnolog´ıa se encuentra en fase de desarrollo, por lo que existen
demostradores tecnológicos propuestos por los diversos grupos de investigación, por
medio de los cuales es posible controlar el movimiento de un cursor en la pantalla de un
ordenador personal al objeto de poder seleccionar bien un icono o una letra entre un
grupo de candidatos, dando lugar a aplicaciones de teclados de conceptos o deletreadores
de palabras, [Wolpaw 07], [Wolpaw 02]. Sin embargo, aún no se ha llegado a realizar una
comercialización masiva de ningún dispositivo de interfaz humana basado en esta
tecnologı́a, razones para ello son tanto el coste relativamente elevado de diseño y
fabricación de dicho dispositivo, como la elevada dependencia actual del usuario para su
buen funcionamiento, sin olvidar que la tasa de transferencia de información obtenida,
que aún siendo útil en casos de personas con problemas de comunicación, no es todavı́a
lo suficientemente elevada como para poder ser alternativa a los dispositivos de interfaz
tradicionales. La discusión del diseño y desarrollo de dispositivos de interfaz basados
en tecnolog´ıa ICC inevitablemente se centra en las posibles aplicaciones, su eficiencia,
seguridad y coste de programas especı́ficos para aplicaciones particulares. Una vez que de
forma general se de respuesta a preguntas iniciales como: ¿Con qué eficacia se controla el
movimiento de un cursor? o ¿Cuál es la velocidad con la que podemos seleccionar una letra
entre veintiséis?, se podrán considerar los fines a los que se puede destinar esta tecnologı́a
en la vida real, [Miner 98], [Sheikh 03], [Vidal 73], [McFarland 97].
Entre las diferentes tipologı́as de dispositivos ICC los primeros en desarrollarse han
sido los de tipo exógeno, basados en el control de la amplitud de una determinada banda
de frecuencia en el registro del EEG en una zona cortical especı́fica, por ejemplo ritmos
μ o β en la zona sensomotora del cortex, [Kostov 00], [Penny 00], o potenciales evocados
ante estı́mulos especı́ficos, ej. amplitud de los potenciales P300 producidos en respuesta a
intermitencia de destello en matrices de letras, [Donchin 00].
Sin embargo desde el punto de vista del usuario son preferibles los dispositivos ICC
endógenos, pues al no precisar de un entorno estructurado, es mayor la libertad de que
se dispone tanto en cuanto a la elección del momento en que se genera el patrón cerebral
o idea asociada a un comando de dispositivo, como en cuanto a la selección de dichos
patrones. Una aplicación basada en un dispositivo ICC endógeno permitirı́a al usuario
mover el cursor a cualquier punto de un plano, mientras que un sistema exógeno limitarı́a
la elección a las opciones mostradas en un monitor.
Por otro lado los desarrolladores deben evitar la tendencia de preajustar o preasignar
los parámetros de las herramientas y su aplicación, como si de un ejercicio de optimización
se tratase. Cada dispositivo ICC debe optimizarse para cada usuario o grupo de usuarios.
Al mismo tiempo, el proceso de optimización debe ser lo más objetivo y estándar posible.
10 Introducción.
Los objetivos deben ser claramente definidos, as´ıcomo las necesidades hacia las que va
destinado, deseos y motivadores primarios, aplicaciones y utilización por parte del usuario,
para todo lo cual será preciso el análisis comportamental del conjunto, incluido el usuario.
El desarrollo de ICC no sólo debe incorporar principios técnicos y electrofisiológicos, sino
que también es preciso bases de aprendizaje bien definidas, [Florian 98], [Harrington 97].
Usuarios con una enfermedad progresiva, como por ejemplo Esclerosis Lateral
Amiotrófica, ELA, podrı́an utilizar dispositivos ICC que particularizaran sus
caracterı́sticas de entrada al usuario y su salida controlará un interfaz convencional
de comunicación aumentada, [Reilly 99], [Isaacs 00]. De tal modo que según avance la
enfermedad, el usuario podrı́a realizar una transición suave, del uso del interfaz de
comunicación aumentada estándar al dispositivo ICC, [Jacques 94].
El desarrollo reciente y la aplicación comercial de “Freehand Functional Electrical
Stimulation system (FES)” en “Case Western Reserve University”, Cleveland OH.,
demuestra las condiciones necesarias para el éxito, [Lauer 00]. Estas condiciones incluyen:
estabilización de todos los aspectos de diseño y documentación, una población de usuarios
bien definida, protocolos de entrenamiento normalizados, demostración de la viabilidad de
aplicaciones especı́ficas, medida de caracterı́sticas de salida bien definidas que documenten
adecuadamente el uso y eficiencia, asistencia regular en varios centros y la identificación
de centros de fabricación y estrategia de comercialización. Todo lo cual requiere la
colaboración de los usuarios y el convencimiento por parte de los mismos de que la
tecnologı́a empleada es útil y segura. Es también precisa la cooperación de profesionales
de centros de salud, los cuales deben convencerse de que la relación beneficio / riesgo es
favorable, que la tecnologı́a es segura y útil, y que es igual o superior a las alternativas
actualmente disponibles. Por último es preciso convencer a las compañı́as de seguros, que
a largo plazo la inversión realizada en este tipo de tecnologı́a será recuperada con creces.
Pacientes que estén paralizados, o con daño traumático que afecte a la médula
espinal, o prótesis en extremidades superiores, se podrı́an beneficiar de la aplicacion
de la tecnolog´ıa ICC, siempre y cuando sea segura y efectiva. Para ser justificable, un
sistema implantado debe ofrecer una sustancial ventaja funcional sobre la tecnolog´ıa de
comunicación aumentada convencional o métodos ICC no invasivos.
Las áreas de aplicación en las que se propone la utilización de esta tecnologı́a son:
1.2.1. Ciencia de la rehabilitación.

El enfoque actual de las investigaciones en ICC se orienta principalmente hacia la
ciencia de la rehabilitación, entendiendo por tal “el desarrollo de conocimiento corporal,
recogido de una rigurosa investigación clı́nica, permitiendo describir como la incapacidad
modifica funciones fisiológicas y anatómicas especı́ficas, y detalla los principios básicos por
los que funciones residuales o capacidades pueden ser medidas y utilizadas para recuperar
funciones en individuos con incapacidad”, [Robinson 93].
Las aplicaciones hacia las que se destinan los dispositivos ICC son neuroprótesis
1.2 Aplicación de la tecnologı́a ICC. 11
que permitan ha personas paralizadas comunicarse bien con el entorno que les
rodea, [Birbaumer 03], [Robinson 00a], [Birbaumer 00], o bien con un entorno simulado,
[Bayliss 03], o mejorar su capacidad de movimiento ayudándose con dispositivos robóticos,
por ejemplo el control de movimiento de prótesis mecánicas de miembros perdidos, [Bai 01],
[Birch 00], [Kositsky 03]. Del mismo modo se han desarrollado prototipos para el control
de sillas de ruedas motorizadas, [Birch 00], [Millan 03], [Millan 04], [Gerstner 04].
Además de su empleo en casos de parálisis asociados con accidentes traumáticos,
Esclerosis Lateral Amiotrófica, [Leeb 05], u otras enfermedades neurodegenerativas, la
tecnolog´ıa ICC ha sido propuesta como posible v´ıa de comunicacion afasia y otros
desórdenes de comunicación, como autismo, haciendo que la persona autista interaccione
con entornos virtuales 3D, cuya complejidad aumenta progresivamente aproximándose a
la real según criterio del rehabilitador, [Birbaumer 00]. Mediante la prevención de las
zonas de lenguaje comprometidas de la zona del cortex temporal-frontal, y por medio del
mecanismo de plasticidad cerebral, [Ratey 03], [Bronzino 95b], [Jessell 91], se podrı́an
concebir mecanismos de comunicación, siendo una alternativa efectiva para pacientes que
no puedan controlar el alfabeto, o un sistema de representación pictórica.
Como bancos de demostración se han desarrollado prototipos que permiten el control
unidimensional y bidimensional de un cursor en la pantalla de un computador, empleando
los resultados obtenidos en aplicaciones para deletrear palabras y teclados de conceptos,
[Donchin 00], [Allison 03], [Bayliss 00], [Bianchi 03].
1.2.2. Teleoperación de robots industriales.
En el campo de la teleoperación de dispositivos se han hecho demostradores
tecnológicos que evalúan la aplicabilidad de la tecnologı́a ICC en la teleoperación de robots
industriales, [Chapin 99], [Taylor 03], [HONDA 09].
1.2.3. Sector militar.
El sector militar fue el que a través de las investigaciones en biónica del Dr. J.J.Vidal,
en la década de los 70, dio lugar al nacimiento de esta tecnologı́a, [Vidal 77].
En la actualidad la tecnologı́a ICC, basando en el efecto de realimentación neuronal3 ,
se emplea en el entrenamiento avanzado de pilotos de combate para potenciar la
concentración en misiones que requieren un alto nivel de alerta, ası́ como la gestión y
evaluación de riesgos en el menor tiempo posible, [NASA 08].
1.2.4. Sector del ocio y entretenimiento.
En este área, compañı́as como IBVA (http://www.ibva.com), proponen el empleo de
dispositivos basados en tecnologı́a ICC como medio para el desarrollo de actividades lúdico-
creativas, como la composición de música a través del tratamiento de los ritmos cerebrales.
Ası́ mismo es de esperar que mediante la utilización de técnicas basadas en
Neurofeedback, se desarrollen dispositivos de uso personal, que permitan ser aplicados
junto con técnicas de relajación al objeto de combatir los altos niveles de estrés presentes
en la sociedad actual.
3
En inglés a esta técnica se la denomina “Neurofeedback”
12 Introducción.
1.3. Motivaciones de la tesis.

La presente tesis se enmarca dentro de la lı́nea que sobre bioingenierı́a y tele-robótica se
viene realizando por el Grupo de Robótica y Cibernética de la Universidad Politécnica de
Madrid, dando lugar a tesis como: [Ferre 97], [Peñı́n 98], [Luengo 98], en el área de Interfaz
Hombre Máquina y teleoperación de dispositivos roboticos; o [Rocon 06], [Moreno 06], en
el área de bioengenierı́a en la aplicación de exoesqueletos robóticos.
De manera particular esta tesis focaliza su centro de interés en el área de investigación
y desarrollo de interfaces avanzados entre seres humanos y máquinas, siendo sus resultados
aplicables en campos como la teleoperación de dispositivos externos, robótica asistencial
e ingenierı́a de rehabilitación.
1.3.1. Objetivos de la tesis.

Con esta tesis se pretende analizar la aplicabilidad actual de la tecnolog´ıa de Interfaz
Cerebro Computador, bajo el paradigma de sistema endógeno, empleando un número
mı́nimo de electrodos superficiales localizados sobre aquellas zonas encefálicas con mayor
poder de discriminación, orientando su uso hacia aplicaciones de teleoperacion y
rehabilitación, para lo cual se consideran los siguientes objetivos:
Descripción detallada de las bases fisiológicas en las que se basa la tecnologı́a ICC
en sus diferentes versiones.
Exposición, análisis y evaluación, de las diferentes técnicas de adquisición de

actividad cerebral.
Comparación de la capacidad de discriminación de la señal electroencefalográfica

registrada cuando el usuario realiza los diferentes tipos de actividades cognitivas
propuestas.
Explicación, aplicación y evaluación de los algoritmos de clasificación empleados.
Evaluación de esta tecnologı́a en control de dispositivos externos genéricos.
Influencia de la realimentación de información al usuario sobre la capacidad de

discriminación.
Desarrollo de un demostrador que permita evaluar la aplicabilidad de la tecnolog´ıa

de Interfaz Cerebro Computador.
Evaluar la viabilidad de su utilización ambulante.

1.3 Motivaciones de la tesis. 13
1.3.2. Aportaciones de la tesis.

De la consecución de los objetivos anteriores se derivan las principales aportaciones de la
presente tesis:
Desarrollo de un demostrador, que siguiendo el paradigma de sistema endógeno,
emplea sólo dos canales electroencefalográficos, localizados respectivamente sobre
las zonas encefalográficas de ambos hemisferios cerebrales con mayor capacidad de
discriminación: C3 y C4.
Realización de baterı́as de experimentos, tanto fuera de lı́nea (“Off-line”) como en

l´ınea (“On-line”), con usuarios reales, con cuyos resultados se puede analizar:
• La capacidad de discriminación de las muestras de los registros electroencefa-

lográficos, adquiridos mientras los usuarios realizaban las actividades cognitivas
propuestas.
• Análisis que el efecto de ventaneado de la señal electroencefalográfica tiene
sobre su capacidad de discriminación, para lo cual se han empleado los siete
tipos de ventanas más conocidos en procesamiento de señal [Proakis 97],
[Oppenheim 96]: rectangular, triangular, Blackman, Hamming, Hanning, Kaiser
y Tukey; identificándose las que dan lugar a una mejor separabilidad.
• Identificación de aquellas caracterı́sticas, basadas en componentes frecuenciales,
con mayor capacidad de discriminación.
• Obtención, mediante la aplicación de la técnica de Análisis de Discriminantes
Lineales,4 , de la matriz de transformación que permite una reducción del espacio
de caracter´ısticas entrada a un posterior clasificador. Analizando as´ı mismo, el
efecto que dicha transformación causa en la capacidad de discriminación.
• Aplicación a los clasificadores, que empleando la metodologı́a de aprendizaje
supervisado, más comúnmente empleados en el área de Inteligencia Artificial,
como son:
◦ Clasificadores basados en redes neuronales de los tipos: Perceptrón
Multicapa (MLP), Funciones de Base Radial (RBF), Redes Neuronales
Probabil´ısticas (PNN), [Bishop 95], [Duda 01], [Ripley 96].
◦ Máquinas de Soporte de Vectores (SVM), [Cristianini 00], [Nabney 02].
• Análisis que la realimentación de información al usuario, acerca de del
resultado de clasificación obtenido, tiene sobre la capacidad de discriminación
de actividades cognitivas.
As´ı mismo, considerando los desarrollos que en la tecnolog´ıa de Reconocimiento
Natural del Habla se han llevado a cabo utilizando Modelos Ocultos de Markov, se ha
desarrollado un novedos algoritmo de clasificación bietapa que emplea
secuencialmente redes neuronales de tipo RBF y Modelos Ocultos de Markov.
La ingente cantidad de datos obtenidos ha sido procesada y mostrada gráficamente de
forma resumida en las figuras del capı́tulo 6.
4
En inglés se define como: “Linear Discriminant Analysis (LDA)”.
14 Introducción.
1.4. Estructura de la tesis.

La presente tesis se encuentra estructurada en siete capı́tulos y dos apéndices.
En el primer capı́tulo, como ya se habrá podido leer, se realiza una definición de la
tecnolog´ıa de Interfaz Cerebro Computador, a la vez que se describen sus componentes
fundamentales. Ası́ mismo se analizan los principales campos de aplicación de esta
tecnolog´ıa.
En el capı́tulo segundo se realiza una exposición sobre las bases fisiológicas en las que se
basa la tecnolog´ıa de Interfaz Cerebro Computador, presentando las diferentes alternativas
técnicas para el registro de la actividad cerebral. A continuación se presenta un estado de la
técnica haciendo una revisión histórica de los desarrollos llevados a cabo por los diferentes
grupos de investigación a nivel mundial, concluyendo con las tendencias actuales. Por
último se realiza una breve descripción de las técnicas empleadas en la tecnologı́a ICC.
En el capı́tulo tercero se describen las técnicas de preprocesamiento de señal empleadas.
Al igual que ocurre con la tecnologı́a en visión artificial, antes de proceder a la clasificacion
de una imagen, ésta se somete a diferentes procesos como son: preprocesamiento, filtrado,
extracción de caracterı́sticas, y por último clasificación; la correcta adecuación de la señal
electroencefalográfica es determinante en la obtencion de los conjuntos de caracterı́sticas
que representan de forma fiel al segmento de señal temporal considerado. En este capı́tulo
se presenta la técnica de ventaneado temporal de la señal, describiendo los diferentes de
ventanas de procesamiento empleados, cuya influencia sobre la capacidad de discriminación
y clasificación de la señal EEG, será posteriormente analizada.
En el capı́tulo cuarto se describen los diferentes algoritmos de clasificación considerados
en los experimentos llevados a cabo en el desarrollo de esta tesis, basado en la utilización de
redes neuronales: MLP, RBF y PNN; Máquinas de Soporte de Vectores, y en el algoritmo
de clasificación bietapa RBF-MOM. En ellos se hace uso tanto de técnicas estadı́sticas
para la determinación de la capacidad de discriminación, como de la técnica de Análisis
de Discriminantes Lineales para la reducción del espacio de caracterı́sticas original, a través
de la obtención de la matriz de transformación.
En el capı́tulo quinto se describe la adaptación de los algoritmos anteriores al contexto
particular de la tecnologı́a ICC. Además se describe a nivel de análisis la aplicación
de demostración, presentando los principales casos de uso, diagramas de secuencia y
diagramas de estructura de clases de análisis.
En el capı́tulo sexto se realiza la presentación, análisis, discusión y extracción de
conclusiones, de los resultados obtenidos tras el procesado del gran volumen de datos
experimentales conseguidos de la aplicación práctica de los conceptos expuestos en los
cap´ıtulos anteriores.
Por último, en el capı́tulo séptimo se exponen las conclusiones alcanzadas, valoración
de los objetivos iniciales, ası́ como futuras lı́neas de investigación y desarrollo a las que da
lugar esta tesis.
En el apéndice A se presenta consideraciones sobre el proceso de adquisición de señal,
mientras que el apéndice B describe el concepto de matriz de confusión empleado en
clasificación.
Capı́tulo 2
Estado de la técnica.
En este capı́tulo se comienza dando unas nociones básicas de la fisiologı́a del sistema
nervioso, necesarias para comprender los principios biológicos en los que se fundamenta
la tecnolog´ıa de Interfaz Cerebro Computador, que si bien pueden ser innecesarias para
investigadores familiarizados con ciencias biológicas, pueden no serlo tanto para
investigadores del área de las ingenierı́as, menos familiarizados con las bases fisiológicas
del sistema nervioso.
Posteriormente se hace una revisión de las técnicas empleadas para la adquisición
de señal de la actividad cerebral, entre las que se encuentran la electroencefalografı́a,
magnetoencefalografı́a y diversas técnicas aplicadas en imagen médica como: imagen
cerebral por rayos X, imagen nuclear, tomograf´ıa computerizada, imagen de resonancia
magnética, tomografı́a computerizada por emisión individual de fotones (SPECT),
tomografı́a por emisión de positrones (PET); a la vez que se analiza su aplicabilidad a
la tecnolog´ıa de Interfaz Cerebro Computador.
Seguidamente se analizan las referencias históricas sobre el desarrollo de la tecnologı́a
ICC, para finalmente presentar el estado actual en el que se encuentra esta tecnolog´ıa.
2.1. Fundamentos fisiológicos.

Debido a que las bases fisiológicas del sistema nervioso desempeñan un papel
fundamental en la tecnologı́a ICC, en esta sección se hace una exposición de conceptos
fisiológicos que aparecen a lo largo de la presente tesis. Los conceptos que se describen a
continuación son:
Fisiologı́a. Define brevemente el campo de investigación de esta ciencia, a la vez
que cita las diferentes investigaciones que sobre el Sistema Nervioso se han venido
llevando a cabo a lo largo del tiempo.
La Neurona. Describe desde un punto de vista biológico este tipo de célula,
presentando las caracter´ısticas que la hacen única para ser la base del sistema
nervioso.
El Sistema Nervioso. La agrupación y especialización de las neuronas dan lugar a
la formación de las diferentes estructuras que forman el sistema nervioso. En este
subapartado se presentan estas estructuras, ası́ como las particularidades que más
relevancia tienen en la tecnolog´ıa ICC.
16 Estado de la técnica.
2.1.1. Fisiologı́a.
La fisiolog´ıa es la ciencia que tiene por objeto el estudio de las funciones de los seres
orgánicos. Su aplicación al sistema nervioso es clave para comprender las diferentes
variantes que existen sobre ICC.
El estudio de la fisiolog´ıa del sistema nervioso humano no es reciente, existen referencias
en las que sacerdotes del antiguo Egipto pretendı́an reconocer a través de la inspección
visual de la cabeza los instintos, sentimientos y hasta la capacidad intelectual de la persona
en cuestión. La civilización griega adquirió y mejoró dichos conocimientos, dando lugar al
nacimiento de ciencias como la Psicologı́a, o a representaciones artı́sticas de dioses o héroes,
en donde la configuración de la cabeza estaba en armonı́a con los atributos y facultades
que se querı́an presentar al pueblo llano en sus formas más palpables. Los escritos más
antiguos acerca del particular son los de Platón o Aristóteles [Velázquez 97].
En el siglo IX de nuestra era, el fı́sico y médico Avicena investigó sobre la localización de
las facultades cerebrales [Chinchilla 43]. Investigaciones que fueron retomadas por Alberto
el Grande cuatrocientos años después, en el siglo XIII, quien dibujó una cabeza en la
que representó el sitio en que radicaban las diferentes facultades humanas [Espinoza 03],
colocó el sentido común en la frente o en el primer ventrı́culo, el juicio en el segundo, la
memoria y la fuerza motriz en el tercer ventr´ıculo.
Trabajos similares fueron realizados en Italia por Pedro de Montagna, quien en 1491
publica su obra adornada con una lámina que representaba el sitio del sentido común y la
imaginación dentro de la cabeza [Montaner 91].
Figura 2.1: Diagrama frenológico.

Poco después, en 1562, Luis Dolei define el primer sistema de Frenologı́a, definiendo tal
ciencia como: “Doctrina psicológica según la cual las facultades psı́quicas están localizadas
en zonas precisas del cerebro y en correspondencia con relieves del cráneo”. El examen de
estos permitirı́a reconocer el carácter y aptitudes de la persona. Sin embargo es Gail quien
en 1781 popularizó este sistema [Colbert 98], [Segovia 38], perfeccionado posteriormente
junto con Spurzheim en 1804, con investigaciones acerca de la anatom´ıa y fisiolog´ıa del
sistema nervioso, y en particular del cerebro.
2.1 Fundamentos ftsiológicos. 17
Posteriormente Descartes, Gardón, Willis, Boerhaave, Kant, Bonet, Vizq-d’Ayzr,

publicaron trabajos que contribuyeron poderosamente a consolidar el método frenologico.
Aunque como ya se ha indicado los estudios relativos a la mente y sus capacidades, y por
extensión del sistema nervioso, no es una disciplina nueva, el relativo escaso conocimiento
que sobre el mismo existe no se debe tanto a la falta de investigaciones o curiosidad
cientı́fica, sino más bien debido a la gran complejidad de dicho sistema; complejidad
que trabajos cientı́ficos como las investigaciones llevadas a cabo por el premio Nobel
Santiago Ramón y Cajal1 en 1905, sobre el sistema nervioso, han contribuido a esclarecer,
[Barreno 02], [Pintado 77].
Se estima que en el cerebro humano existen
aproximadamente unos 100 billones de neuronas
[Jessell 91], cada neurona puede llegar a alcanzar
alrededor de 2.000 conexiones o más con otras
neuronas, y puede recibir del orden de 20.000
entradas. Teor´ıas que describen los procesos asociados
a la memoria y al aprendizaje tratan de explicar, a
través de la Neuroplasticidad, los mecanismos
subyacentes para el establecimiento de dichas
conexiones [Bronzino 95b].
Desde que en 1929 Hans Berger demostrara la
inherente naturaleza eléctrica del cerebro, dando
comienzo al nacimiento de la Electroencefalografı́a
como técnica de registro [Bronzino 95b], [Baker 89],
[Webster 78], se ha venido investigando el modo de Figura 2.2: Neuronas. Ramón y
utilizar esta información para aumentar la base de Cajal.
conocimiento, diagnóstico de enfermedades, e incluso plantear nuevas vı́as de
comunicación. Con la evolución de las técnicas radiológicas y la revolución que han
supuesto las nuevas tecnologı́as de imagen médica, en la forma de adquirir conocimiento
[Barreno 97] con las que es posible ver en vivo dentro del cuerpo humano el funcionamiento
de determinados órganos, se ha aumentado de igual forma las tecnologı́as que pueden
ser empleadas a la hora de estudiar el funcionamiento del cerebro, y dado el caso,
proponer nuevos sistemas de interfaz entre seres humanos y dispositivos mecánicos externos
basados en ellas. Entre las tecnolog´ıas propuestas para este fin actualmente se cuenta con:
Electroencefalografı́a, Maganetoencefalografı́a, Tomografı́a por Emisión de Positrones
(PET), o la imagen de resonancia magnética funcional (fMRI).
La segunda mitad del siglo XX, y en especial la década de los 90, conocida como
la década del cerebro, se ha dedicado a la investigación y estudio del cerebro humano,
inspirando nuevos desarrollos en el campo de la Inteligencia Artificial, como es el caso del
resurgimiento de las Redes Neuronales [Rich 94].
1
Ramón y Cajal se hizo valedor en 1906 del premio Nobel de Fisiologı́a y Medicina por sus trabajos
sobre el sistema nervioso “Histologı́a del sistema nervioso del hombre y los vertebrados (1905)” [Cajal 05],
en los que se descubren los mecanismos que gobiernan la morfologı́a y los procesos conectivos de las células
nerviosas.
2.1.2. La neurona.
La unidad fundamental del
sistema nervioso de los vertebrados
y del hombre es la neurona, veanse
las figuras 2.2 y 2.3, su capacidad de
transferir información de una
parte del organismo a otra en forma
de impulsos electroquı́micos la
distingue del resto de las células;
desde un punto de vista abstracto es
probablemente la célula del cuerpo
más variable atendiendo tanto a su
forma como a su tamaño.
Toda neurona está compuesta
por tres partes básicas: Figura 2.3: Neuronas.
Cuerpo de la célula. También denominado soma. Es la parte más gruesa, contiene

todos los componentes necesarios de la célula, como el núcleo (contiene ADN),
retı́culo endoplasmático y ribosomas (para sintetizar proteı́nas), y la mitocondria
(para la transformación de energı́a). Si el núcleo muere, la neurona muere.
Axón. Proyección alargada en forma de cable, se encarga de transportar el mensaje

electroquı́mico a lo largo de toda la longitud de la célula. Dependiendo del tipo de
neurona, los axones pueden estar recubiertos por fina capa de mielina, a modo de
aislante. La mielina queda constituida principalmente por l´ıpidos o grasas, facilitando
la rápida transmisión del impulso nervioso a lo largo del axón. Neuronas mielinizadas
se encuentran principalmente en los nervios periféricos, tanto sensores como motores,
mientras que neuronas no mielinizadas se encuentran en el cerebro y la médula
espinal, constituyendo lo que se denomina sustancia gris.
Dendritas o terminaciones nerviosas. Estas pequeñas prolongaciones arborescentes

de la célula son las encargadas de realizar las conexiones con otras neuronas,
permitiendo la comunicación entre las mismas o la percepción del entorno exterior.
Las dendritas pueden existir tanto en uno como en ambos extremos de la neurona.
Existen dos tipos de dendritas: apicales y basales.
La longitud de las neuronas es muy variable, puede ir desde unos pocos milı́metros hasta
algunos decı́metros, como en el caso de neuronas cerebrales y táctiles respectivamente. De
igual modo la forma también es muy variable dependiendo de la actividad que lleven a cabo,
las neuronas motoras que controlan la contracción muscular tienen el cuerpo de la célula
en un extremo, un axón largo en el medio y dendritas en el otro extremo; mientras que
las neuronas sensoras tienen dendritas en ambos extremos, conectados por largos axones
con el cuerpo en el medio. Las neuronas también varı́an con respecto a sus funciones:
Neuronas sensoras o aferentes. Transportan señales desde zonas externas del cuerpo
(periferia) hacia el sistema nervioso central.
Figura 2.4: Topologı́a de la célula neuronal.

Neuronas motoras o eferentes. Transportan señales desde el sistema nervioso central
hacia las zonas externas del cuerpo: músculos, piel, glándulas.
Receptores. Son las encargadas de adquirir información del exterior, existen
diferentes tipos en función de la naturaleza del estı́mulo que provoca su activación:
térmico, lumı́nico, presión, presencia de compuesto quı́micos; transformando dicha
información en mensajes electroquı́micos que son transmitidos por las neuronas
sensoras.
Interneuronas. Conectan varias neuronas con el cerebro y la médula espinal.
El punto de contacto entre dos neuronas se denomina sinapsis, es de especial

importancia en la transmisión de información del sistema nervioso, ya que la información
de una neurona pasa a otra a través de los mismos. Este pequeño espacio que separa ambas
neuronas consta de:
Terminación pre-sináptica, la cual contiene neurotransmisores, mitrocondria y
orgánulos celulares.
Terminación post-sináptica, formado por los lugares de recepción de los
neurotransmisores.
Hendidura sináptica, espacio submicroscópico entre ambas terminaciones.
Figura 2.5: Tipos de neuronas.

Mientras que en el interior de la neurona la transmisión de información a lo largo
del axón se realiza en forma de impulso eléctrico, entre neuronas es un proceso quı́mico,
llevado a cabo en la sinapsis, el que transmite la información de una neurona a otra, o
bien a una célula muscular.
Transmisión eléctrica. Se dice que una neurona está polarizada cuando tiene una carga
eléctrica negativa en el interior de la membrana celular respecto al exterior. Este efecto de
polarización se debe a la libre circulación de iones K + a través de la membrana celular,
a la vez que moléculas grandes con carga negativa son retenidas dentro de la célula. Los
iones N a+ se mantienen en el exterior de la célula mediante un proceso activo. Aunque en
principio todas las células del cuerpo presentan esta diferencia de potencial, las neuronas se
distinguen en que al aplicar una corriente estimuladora, se provoca que los iones potasio
penetren dentro de la célula despolarizándola, tras un pequeño intervalo de tiempo las
propiedades de la membrana cambian haciendo que la célula sea permeable al N a+ , que
entra en ella con rapidez y origina una carga neta positiva en el interior de la neurona. A
este efecto se le denomina potencial de acción. Una vez alcanzado éste potencial en una
zona de la neurona, éste se propaga a lo largo del axón mediante un intercambio de iones en
puntos especı́ficos denominados nódulos de Ranvier. La amplitud del potencial de acción
es autolimitada, debido a que una concentración elevada de N a+ en el interior origina la
expulsión de la célula en primer lugar de iones K + y después de N a+ , restableciendo la
carga negativa en el interior de la membrana celular, repolarizando la célula. El proceso
completo dura menos de una milésima de segundo. Después de un breve lapso, llamado
Figura 2.6: Tipos de sinapsis. (a - Axoaxiónica. b - Axodendrı́tica . c - Axosomática.)

periodo refractario, la neurona se encuentra en condiciones de repetir este proceso.
Transmisión quı́mica. Cuando el potencial de acción alcanza el extremo del
axón, éste estimula en la célula unas pequeñas vesı́culas presinápticas que contienen
neurotransmisores, los cuales son liberados en la hendidura sináptica. El neurotransmisor
se une a receptores especializados sobre la superficie de la neurona adyacente, provocando
su despolarización y la propagación de su propio potencial de acción. La duración de
un estı́mulo procedente de un neurotransmisor está limitada por su degradación en la
hendidura sináptica y su recaptación por la neurona que lo habı́a elaborado.
Los potenciales de acción son producidos en las uniones sinápticas, pudiéndose éstas
localizar a lo largo del axón (sinapsis axoaxiónica), en el cuerpo de la neurona (sinapsis
axosomática), o en las dendritas (sinapsis axodendrı́tica), reflejando la comunicacion entre
neuronas. Cuando un neurotransmisor se enlaza en un receptor de la terminación post-
sináptica, se produce un cambio en la excitabilidad de la célula haciendo más o menos
probable que se desencadene un potencial de acción. Si el número de eventos excitatorios
post-sinápticos es lo suficientemente grande, se provocará un potencial de acción en la
célula y el mensaje se transmitirá.
Es en este principio de producción de potenciales post-sinápticos, por la actividad
conjunta y sincronizada de un gran número de neuronas, en los que se basa el registro
electroencefalográfico.
No todos los tipos de actividad neuronal tienen el mismo tipo de impacto sobre los
registros electroencefalográficos. Factores como la profundidad, orientación y la simetrı́a
intr´ınseca de las conexiones en el cortex, presentan una marcada influencia sobre dichos
registros. Las células de mayor importancia en el neocortex son las de tipo piramidal. Es
conocido que sus neurotransmisores son potentes transmisores excitatorios. Las células
piramidales reciben muchas entradas de células tipo estrella, que también son de tipo
excitatorio. Las células piramidales, a diferencia de otro tipo de neuronas, permiten que
los axones produzcan potenciales de acción, que transmiten información de una neurona
a otra, mientras que en las dendritas se pueden producir potenciales lentos, tanto de tipo
excitatorio como inhibitorio, que se suman al del axón. En el caso de las neuronas
piramidales, las dendritas apicales, con forma de eje alargado entre la región basal y la
apical, pueden provocar potenciales de acción, que a su vez actúan para amplificar los
potenciales de acción producidos por las salidas de los sistemas sensorial, motor o
autónomo. Por esta razón se considera que, las neuronas piramidales son las causantes de la
porción más significativa de la señal electroencefalográfica.
2.1.3. El Sistema Nervioso.

El Sistema Nervioso es el encargado de la recepción de estı́mulos, la transmisión de
impulsos nerviosos y la activación de los músculos. Está formado por neuronas que se
agrupan para formar estructuras de orden superior como el encéfalo, médula espinal,
nervios o cadenas ganglionares.
Figura 2.7: Sistema Nervioso. Figura 2.8: Encéfalo.

3
Desde un punto de vista anatómico, ver figura 2.7, en los vertebrados el sistema ner-
vioso queda compuesto por el Sistema Nervioso Central, el Sistema Nervioso Periférico y
el Sistema Nervioso Vegetativo o Autónomo [Ratey 03]. El primero queda compuesto por
el encéfalo y la médula espinal, mientras que el segundo queda compuesto por nervios cra-
neales y espinales. El Sistema Nervioso Central está inmerso en lı́quido cefalorraquı́deo,
envuelto dentro de una triple estructura de tejido fino a modo de bolsas, denominadas
meninges: Pia Madre (la más externa), Duramadre (la intermedia) y Aracnoides (la más
interna); que previenen el contacto directo del encéfalo y médula espinal con las estructu-
ras óseas de protección, como es el caso del cráneo y la espina dorsal, respectivamente.
El encéfalo a su vez está formado por: cerebro, cerebelo y tronco encefálico.
El cerebro es la parte más voluminosa, ocupa casi la totalidad de la caja craneal;

su parte superior se corresponde con la bóveda craneal, y su parte inferior con el
compartimento anterior y medio de la base del cráneo y cerebelo. Tiene forma ovoide,
con la extremidad posterior más ancha. Su peso en el hombre es de aproximadamente
1Kgr.
El cerebelo es la parte inferior y posterior del encéfalo, alojado en la fosa cerebral

posterior junto al tronco del encéfalo.
El tronco del encéfalo está compuesto por el mesencéfalo, la protuberancia anular

y el bulbo raquı́deo. Es el encargado de conectar el cerebro con la médula espinal,
véase la figura 2.10.
La médula espinal es la prolongación del encéfalo, extendiéndose por la columna

vertebral; la misma la sustancia gris que forma el cerebro se encuentra en el interior y
la blanca en el exterior.
Figura 2.9: Cabeza.

Los nervios del Sistema Nervioso

Periférico emergen del sistema nervioso
central y recorren todo el cuerpo,
conteniendo axones de v´ıas neurales con
distintas funciones y ganglios periféricos,
que se encuentran en el trayecto de
los nervios y que contienen cuerpos
neuronales, los únicos fuera del sistema
nervioso central. Queda compuesto por 12
pares de nervios craneales y 31 pares de
nervios espinales.
Figura 2.10: Tronco encefálico.
Nervios craneales. Los 12 pares de nervios craneales se proyectan directamente desde

el cerebro. Todos estos pares de nervios transmiten información sensorial procedente
del cuello y la cabeza hacia el sistema nervioso central y reciben órdenes motoras
para el control de la musculatura esquelética de los mismos, controlando las funciones
motoras de la cabeza, los ojos, la cara, lengua, laringe y los músculos que permiten
la masticación y la deglución, véase la figura 2.11.
El décimo par, el nervio vago, se relaciona con funciones viscerales como el ritmo
cardiaco, la vasoconstricción y la contracción de los músculos lisos que se encuentran
en las paredes de la tráquea, del estómago y del intestino. La visión, la audición, el
sentido del equilibrio y el gusto están mediados por los pares de nervios craneales II,
VIII y VII, respectivamente.
Nervios espinales. Los nervios espinales salen desde las vértebras y se distribuyen
por las regiones del tronco y las extremidades. Se encargan de enviar información
sensorial (tacto, dolor y temperatura) del tronco y las extremidades, as´ı como de la
posición y el estado de la musculatura y las articulaciones del tronco y las
extremidades hacia el sistema nervioso central; desde el mismo reciben órdenes
motoras para el control de la musculatura esquelética que se conducen por la médula
espinal.
Los 31 pares de nervios están interconectados, formando dos plexos: el braquial, que se
dirige a las extremidades superiores, y el lumbar que alcanza las inferiores.
Los nervios craneales se extienden desde la cabeza y el cuello hasta el cerebro pasando
a través de las aberturas del cráneo; los nervios espinales o medulares están asociados
con la médula espinal y atraviesan las aberturas de la columna vertebral. Ambos tipos de
nervios se componen de un gran número de axones que transportan los impulsos hacia el
Figura 2.11: Nervios craneales.
sistema nervioso central y llevan los mensajes de éste hacia el exterior. Las primeras vı́as
se llaman aferentes y las últimas eferentes. En función de la parte del cuerpo que alcanzan,
a los impulsos nerviosos aferentes se les denomina sensitivos y a los eferentes, somáticos o
motores viscerales. La mayor´ıa de los nervios son mixtos, es decir, estan constituidos por
elementos motores y sensitivos.
El Sistema Nervioso Negetativo está compuesto por grupos de fibras de neuronas
motoras que llevan los impulsos nerviosos a los órganos que se encuentran en las cavidades
del cuerpo, como el corazón, pulmones, estómago, intestinos, páncreas, hı́gado, etc.,
permitiendo su regulación. El Sistema Nervioso Vegetativo se divide en dos secciones con
una función más o menos antagónica y con unos puntos de origen diferentes al Sistema
Nervioso Central. Las fibras del Sistema Nervioso Vegetativo Simpático se originan en la
región media de la médula espinal, unen la cadena ganglionar simpática y penetran en
los nervios espinales, desde donde se distribuyen de forma amplia por todo el cuerpo. Las
fibras del Sistema Nervioso Vegetativo Parasimpático se originan por encima y por debajo
de las simpáticas, tanto en el cerebro como en la parte inferior de la médula espinal. Estas
dos secciones controlan las funciones de los sistemas respiratorio, circulatorio, digestivo y
urogenital.
2.1.4. El Cerebro.
El cerebro humano, comparado con el de los demás seres vivos, tiene un volumen y
estructura tan diferenciados, que dan idea de la preeminente importancia que posee el
cerebro para el total funcionamiento del organismo; incluso los mismos procesos psı́quicos
no pueden desarrollarse enteramente sin su integridad.
El cerebro está dividido en dos hemisferios, separados por un surco medio profundo, la
cisura interhemisférica, dichos hemisferios están comunicados entre sı́ mediante el Cuerpo
Calloso, que se extiende desde el fondo de la cisura interhemisférica hasta la base cerebral.
La superficie se denomina corteza cerebral, está formada por replegamientos
denominados circunvoluciones; su parte inferior presenta en su tercio posterior una forma
arriñonada, separada del tercio anterior por la cisura de Silvio, que junto con la cisura de
Rolando y la occipital dividen cada hemisferio en los diferentes lóbulos: frontal, parietal,
temporal y occipital, véase la figura 2.12.
Subyacente a la misma se encuentra por arriba el cuerpo calloso y el quiasma óptico,
espacio perforado anterior, hipófisis, tubérculos mamilares y espacio perforado posterior
en la base. En el interior del cerebro se encuentran una serie de cavidades, los ventr´ıculos
cerebrales, que se comunican entre sı́ y están llenos de lı́quido cefalorraquı́deo.
En una sección del cerebro es posible ver la sustancia gris y la sustancia blanca. La
primera se caracteriza por una gran densidad de células nerviosas y comprende a la corteza
cerebral y a diversos núcleos: tálamo óptico, hipotálamo, núcleo caudado, núcleo lenticular,
y a la amı́gdala. La sustancia blanca tiene, en su mayor parte, una estructura más sencilla:
fibras nerviosas sostenidas por un armazón de neuroglia; algunas de estas fibras conectan
neuronas situadas en porciones similares de ambos hemisferios, otras unen distintas zonas
de un mismo hemisferio, finalmente algunas se dirigen desde la corteza cerebral a centros
del cerebro dispuestos en niveles inferiores y en otras porciones del sistema nervioso
central. Aunque nada se ha demostrado sobre el modo en como se conectan en la corteza
los procesos neurológicos con los psı́quicos, sı́ se ha observado que la lesión de ciertas
áreas de la corteza cerebral provoca la alteración de funciones, lo que ha permitido que
muchas funciones motoras y sensoriales hayan sido asociadas a zonas especı́ficas de la
corteza cerebral, ver figura 2.12. Por lo general, estas áreas aparecen en ambos hemisferios
cerebrales y están al servicio del lado opuesto del cuerpo.
Las áreas de asociación no están bien definidas y se localizan sobre todo en la parte
frontal de la corteza. Están involucradas en funciones del pensamiento y emocionales, y
relacionan los estı́mulos recibidos desde los diferentes sentidos. Las áreas del lenguaje son
una excepción: tanto el área de Wernicke, que está relacionada con la comprensión del
lenguaje hablado, como el área de Broca, que gobierna la producción del habla, han sido
localizadas de forma precisa en la corteza.
El cerebro es un órgano extraordinariamente vascularizado, como corresponde a sus
necesidades metabólicas, de modo que cualquier accidente vascular (trombosis, embolia,
hemorragia) reviste gran importancia por las lesiones y consecutivos trastornos funcionales
que origina.
2.2 Técnicas para la adquisición de actividad cerebral. 27
Figura 2.12: Distribución de las funciones de la corteza cerebral.
2.2. Técnicas para la adquisición de actividad cerebral.

En esta sección se describen la diferentes técnicas que actualmente existen en la
investigación sobre actividad cerebral. Especial atención se presta a la electroencefalografı́a
como técnica de adquisición inicial, que asentó las bases de conocimiento para posteriores
estudios neurológicos, ası́ mismo se cita la magnetoencefalografı́a y otras técnicas de
imagen cerebral, las cuales son de menor aplicabilidad en la tecnolog´ıa ICC debido bien
a que su coste es prohibitivo, o bien a que las constantes de tiempo de los principios
fisiológicos en que se basan presentan valores de latencia muy elevados, constantes que
generalmente están asociadas al flujo sanguı́neo, haciéndolas impracticables para su
utilización en dispositivos de interfaz entre personas y máquinas.
2.2.1. Electroencefalografı́a.
La electroencefalografı́a es la parte de la medicina que trata de la obtención e
interpretación de registros gráficos obtenidos por medio de electroencefalógrafos, estos
dispositivos registran las corrientes eléctricas producidas por la actividad del encéfalo
[Baker 89].
Para el registro de la actividad eléctrica del cerebro se pueden utilizar tres tipos
de electrodos: superficiales, corticales e intracorticales. Cuando se emplean electrodos
superficiales el registro se denomina electroencefalograma (EEG), mientras que si los
electrodos se disponen sobre la superficie expuesta del cerebro al registro se denomina
electrocorticograma (ECoG), por último, si se utilizan electrodos intracorticales se
emplea el termino registro profundo para denominar a esta técnica, [Webster 04]. Con
independencia del tipo de electrodo, las variaciones de potencial registradas representan
la actividad de neuronas en las que se están produciendo los correspondientes potenciales
de acción y fluctuaciones de membrana.
2.2.1.1. Referencias históricas.

En 1875 en el Reino Unido, Richard Caton publicó en el British Medical Association
Journal el primer documento describiendo la actividad eléctrica espontánea del cortex
cerebral en experimentos llevados a cabo con conejos y monos. Caton utilizó galvanómetros
Thomson, utilizados en telegraf´ıa [Webster 95].
Sin embargo no es hasta 1924, cuando el psiquiatra Hans Berger de la Universidad de
Jena (Austria), realiza los primeros registros de actividad eléctrica del cortex cerebral,
para ello utilizó un galvanómetro de cuerda conectado a electrodos superficiales, con el que
podı́a medir los irregulares y relativamente pequeños potenciales eléctricos (50 a 100μV )
provenientes del cerebro [Webster 04].
El art´ıculo de Berger pasa desapercibido hasta que Adrian y Matthews, en 1934 en Gran
Bretaña, ası́ como Jasper y Carmichael en 1935 en Estados Unidos, revisan y confirman
los resultados de Berger.
Entre 1924 y 1938 Berger estableció las bases para la aplicación de la
electroencegalografı́a, siendo el primero en utilizar el término “electroencefalograma” para
describir las variaciones de potencial eléctrico en el cerebro de los humanos. Ası́ mismo
descubrió que las ondas registradas no eran completamente aleatorias, sino que por el
contrario mostraban cierta periodicidad y regularidad; Berger observó que durante el
sueño se presentaba un patrón de ondas sincronizadas de baja frecuencia (< 3Hz) y
gran amplitud, mientras que en estado de vigilia el patrón cambiaba a uno desincronizado
de baja amplitud y mayor frecuencia; esto le permitió sugerir que la actividad cerebral
cambiaba de un modo consistente y reconocible, cuando el estado del sujeto cambiaba,
como por ejemplo del estado de relajación al de alerta. Del mismo modo, después de notar
un marcado incremento en la amplitud de las ondas cerebrales registradas durante ataques
convulsivos, Berger también dedujo que las ondas cerebrales se veı́an afectadas en gran
medida por condicionantes patológicos [Webster 04].
Una vez asentado y aceptado el concepto de “ondas cerebrales humanas”, el estudio de
la actividad electroencefalográfica quedo firmemente asentado. Una de las primeras
contribuciones fue la identificación de determinados ritmos en el EEG; ası́ a la oscilación
de aproximadamente 10 a 12 Hz registrada en los lóbulos occipitales del cortex cerebral se le
denominó “ritmo alfa”. Este ritmos desaparece cuando el sujeto se concentra, se muestra
alerta o focaliza su atención en objetos de su campo visual. No es hasta 1949 cuando
Moruzzi y Magoun establecen las bases fisiológicas de dichas observaciones, demostrando
la existencia de caminos ampliamente distribuidos a través del núcleo reticular central
del tallo cerebral, que son capaces de ejercer una influencia de activación sobre el cortex
cerebral. A este sistema de activación reticular se la ha llamado selector de respuesta
cerebral, debido a que alerta al cortex para focalizarse en ciertas piezas de información
entrante, mientras que otras son descartadas [Webster 95].
2.2.1.2. Sistemas de referencia de posicionamiento de los electrodos.

Los electrodos superficiales se emplean junto con técnicas de registro monopolares y
diferenciales. La figura 2.13 muestra ambas técnicas con la conexión de un sistema de
cuatro canales a un sujeto [Webster 98], [Webster 95], [Webster 92].
En registros monopola-
res uno de los terminales
activos del amplificador se
conecta al electrodo de re-
ferencia, conectado al lóbu-
lo de la oreja. En los re-
gistros diferenciales, los ter-
minales de los amplificado-
res se conectan entre pare-
jas de electrodos en un or-
den determinado. En ambos
tipos, la mitad de los canales
son conectados al hemisferio
derecho y la otra mitad al
hemisferio izquierdo, de este
modo la actividad eléctrica
de áreas homólogas del cere-
bro pueden ser comparadas
a simple vista. Figura 2.13: Técnicas de registro monopolar y diferencial.
En electroencefalografı́a clı́nica, 21 electrodos son aplicados a la cabeza del sujeto,
dando lugar al denominado sistema electroencefalográfico 10-20, tal y como se muestra en
la figura 2.14, este sistema fue descrito por Jasper en 1958, quien supervisó la reunión de
la Federación Internacional de Sociedades de EEG, la cual desarrollo esta localización de
electrodos como estándar [Webster 04].
El sistema 10-20 emplea marcas craneales como puntos de referencia para la localización
de los electrodos. En conjunto, para examinar la actividad cerebral, se emplean 19
electrodos superficiales distribuidos por la cabeza y 2 electrodos de referencia en los lóbulos
de las orejas. Para posicionar los electrodos primero se mide a lo largo de la l´ınea media la
Figura 2.14: Sistema electroencefalográfico 10 - 20.
distancia entre la unión naso-frontal y la protuberancia occipital, a continuación a lo largo

de esta l´ınea se marcan 5 puntos. El primer punto determina el polo frontal (Fp), el cual
está al 10 % de la distancia anterior y justo sobre la unión naso-frontal. Ningún electrodo
se aplica sobre este punto de referencia, el cual se utiliza para medidas posteriores. Los
puntos de los electrodos frontal (Fz), central (Cz), parietal (Pz ) y occipital (Oz ) sobre la
lı́nea media están separados por el 20 % de la distancia entre la unión naso-frontal y
la protuberancia occipital medida desde el polo frontal (Fp ). Mediante esta técnica el
electrodo central (Cz ) se localiza en la mitad de la distancia anterior. Un método similar
de medida se emplea para posicionar dos filas de electrodos sobre los lados derecho e
izquierdo de la cabeza. Los puntos coronales son marcados midiendo la distancia entre la
depresiones justo en frente de cada oreja. La depresión se localiza fácilmente antes del
tragus y en la raı́z de la estructura ósea zigomática o pómulo, al 10 % de esta distancia
medida hacia arriba desde las depresiones se localizan los electrodos temporales (T4, T3)
a cada lado de la cabeza. La posición de los electrodos centrales (C4 , C3 ) se localizan
al 20 % de la distancia sobre los puntos temporales. La fila horizontal de posiciones de
electrodos más baja se determina midiendo desde el polo frontal (Fp ) a la protuberancia
occipital, este procedimiento localiza los electrodos Fp2,F8, T4,T6 y O2 para el lado derecho
y Fp1,F7,T3 y O1 para el lado izquierdo. Los electrodos restantes (F4,C4 y P4 en el lado
derecho y F3, C3, P3 en el izquierdo) son posicionados a lo largo de l´ıneas equidistantes
entre la l´ınea temporal y la l´ınea media a lo largo de las l´ıneas coronarias frontal y parietal
respectivamente. Con el sistema 10-20 un número par de electrodos se disponen en el lado
derecho e impar en el izquierdo. Los electrodos de la l´ınea media son designados mediante
una Z (Fz , Cz , Pz ). Existen huecos intencionados en el sistema de notación por subı́ndices

a fin de permitir el uso de otra localización de electrodos, la cual puede ser añadida con
el mismo sistema de referencia [Webster 78].
Inicialmente para el registro encefalográfico se utilizaban plumillas que registraban
la actividad encefalográfica sobre papel continuo, que se desplazaba a una velocidad
de registro estándar de 3cm/s y una sensibilidad de grabación 7μV/mm [Bronzino 95b]
[Baker 89]. En la actualidad con objeto de incrementar la resolución espacial se utilizan
sistemas de referencia que emplean 64 y 128 electrodos.
2.2.1.3. Actividad electroencefalográftca normal.

Con electrodos superficiales aplicados a un ser humano adulto sano en estado de
relajación, se puede registrar una fluctuación de la actividad eléctrica constante con una
frecuencia dominante alrededor de 10 Hz y una amplitud en el rango de 20 a 200 μV . A
esta actividad se la denomina ritmo alfa, variando su frecuencia entre 8 y 13 Hz, siendo más
relevante en las áreas occipital y parietal. El ritmo alfa aumenta su frecuencia con la edad,
alcanza su forma adulta entre los 15 y los 20 años de edad.
Se muestra más promi-
nente cuando los ojos se en-
cuentran cerrados y en esta-
do de relajación. Se ha ob-
servado que entre diferen-
tes especies los patrones del
ritmo alfa var´ıan. El segui-
miento visual de un obje-
to, o la realización de acti-
vidades mentales como ta-
reas aritméticas, disminu-
yen o anulan el ritmo alfa
[Jessell 91]. Aunque el ritmo
alfa es el más prominente en
la actividad eléctrica, otro
tipo de frecuencias también
se encuentran presentes en
sujetos humanos sanos, por
ejemplo el ritmo beta pre-
senta actividad con un Figura 2.15: Electroencefalograma normal.
rango de frecuencias entre 18 y 30 Hz, y una menor amplitud. Es más frecuente en la
parte frontal del cerebro. Dependiendo del estado cerebral del sujeto, otros rangos de
frecuencias más elevadas y amplitudes han sido detectados. Con la finalidad de mejorar la
descripción de las formas de onda y sus frecuencias, la comunidad cientı́fica a desarrollado
la terminolog´ıa recogida en la tabla 2.1 [Jessell 91].
Forma de onda Frecuencia (Hz) Consideraciones.

Ritmo Alfa. 8 - 13 Zona parietal y occipital. Asociado a
estado de vigilia con sujeto relajado
Mas prominente con los ojos cerrados.
Ritmo Beta. 18 - 30 Zona frontal y parietal.
Se muestra mejor con Alfa bloqueado.
Delta. 1 - 3.5 Asociado a sueño normal. Presente
en niños menores de un año. En adul-
tos se asocia con cerebros enfermos.
Teta. 4-7 Zona parietal y temporal.
Prominente en niños de 2 a 5 años.
Sigma. 12 - 14 Se muestra durante el sueño.
“Sleep spindle” Modulación de onda senoidal parecida
a un eje de revolución.
Lambda. Transitorio. Evocación visual. Onda occipital de
pequeña amplitud, resultado del reco-
nocimiento de una nueva imagen retinal.
Onda y pulso. 3̃ Pico abrupto en una onda, seguido de
una onda más redondeada asociada con
crisis de ausencia epiléptica.
V Transitorio. Pulso de 150 a 250 milisegundos
registrado sobre la coronilla.
Complejo K Transitorio. Onda vértice seguida algunas veces de
un pulso. Registrada durante el sueño
y en respuesta a est´ımulos auditivos.
Ritmo Mu 8 - 12 Dominante en la zona central.
Semeja media sinusoide.
Tabla 2.1: Terminologı́a de formas de onda para EEG.
El electroencefalograma de cualquier persona se ve profundamente afectado por su
estado cerebral. La figura 2.15 muestra los cambios que ocurren durante el sueño.
Cuando el sujeto va a dormir, las componentes de alta frecuencia asociadas al estado de
alerta o excitación, ası́ como el ritmo alfa que predomina en estado de relajación, son
reemplazadas por una secuencia de cambios cı́clicos caracterı́sticos. La desviación de estos
cambios normales, a menudo indica la presencia de alguna patolog´ıa cerebral [Webster 78]
[Baker 89] [Bronzino 95b].
2.2.1.4. Potenciales sensoriales evocados

Un estı́mulo efectivo entregado a un órgano sensorial desencadena una respuesta
detectable en la corteza cerebral. Aunque todos los órganos sensitivos periféricos envı́an
su información a la corteza cerebral, es fácil detectar la respuesta a estı́mulos auditivos,
visuales o somatosensoriales, a través de la disposición de electrodos sobre las zonas
corticales adecuadas, la figura 2.16 ilustra las áreas del sistema somatosensorial [Baker 89].
En realidad el potencial sensorial evocado informa acerca de la integridad del
órgano sensorial y el camino neurológico al cortex cerebral. Partes separadas del camino
Figura 2.16: Localización somatosensorial.

neurológico pueden ser estudiadas a través de la aplicación de corrientes de estimulación
eléctrica a nervios periféricos y médula espinal.
La figura 2.16 es una vista lateral del cerebro mostrando las dos cisuras más
prominentes: la cisura de Rolando y la de Silvio. Anterior a la cisura de Rolando se
encuentra el giro pre-central, el cual contiene las áreas motoras primarias; detrás se
encuentra el giro post-central que contiene las áreas somatosensoriales; información
sensorial de toda la superficie del cuerpo se encuentra dispuesta a lo largo de esta tira
sensorial. Penfield y Rasmussen, en 1950 [Baker 89], determinaron la distribución
topográfica de las sensaciones a lo largo del giro post-central en humanos y la representaron
como un homúnculo. Las partes del cuerpo del homúnculo son dibujadas para representar
el tamaño del área sensora cortical correspondiente.
La detección óptima de las respuestas somatosensoriales evocadas precisan que los
electrodos sean colocados en las áreas corticales contralaterales adecuadas. Por ejemplo,
los potenciales evocados debidos a estimulación de la pierna derecha son detectados
con electrodos dispuestos sobre el lóbulo izquierdo, del mismo modo, los causados por
estimulación facial del lado derecho se muestran en la superficie lateral izquierda del
cerebro hacia el lóbulo temporal. La respuesta a estı́mulos visuales aparecen en la parte
posterior del cortex (polo occipital). Potenciales evocados a est´ımulos auditivos se detectan
sobre la parte superior del lóbulo temporal. La mayor parte de las sensaciones son
representadas bilateralmente [Baker 89], [Ratey 03].
Para la detección de los potenciales evocados Dawson entre 1951 y 1954, [Baker 89],
[Webster 78], introdujo la técnica de promediado de señal, ya que aun disponiendo los
electrodos sobre las zonas adecuadas del cráneo los registros que se obtienen no son claros
debido a la actividad de base del cerebro, esta técnica asume que el potencial evocado
se encuentra temporalmente asociado al est´ımulo, mientras que la actividad de fondo del
cerebro se trata como una señal aleatoria, el tiempo de retardo entre la aparición del
potencial evocado y la generación del estı́mulo da lugar al criterio de denominación, as´ı
por ejemplo los potenciales evocados P300 son aquellos que se detectan transcurridos
unos 300mseg desde que se provoca el est´ımulo hasta que se detecta el potencial.
En la actualidad con los convertidores analógico/digital y los micropocesadores esta
técnica es fácilmente realizable. El primer paso consiste en realizar un filtro paso banda
de la señal electroencefalográfica, de modo que sólo es considerado el rango de frecuencias
adecuado, valores t´ıpicos de los filtros paso banda son de 0.25 - 25 Hz. Posteriormente la
señal EEG se muestrea convirtiéndola en digital, frecuencias de muestreo tı́picas son
100 Hz o superiores. La resolución de amplitud depende del número de bits seleccionados,
valores comunes son 8, 12 y 16 bits. Los potenciales evocados promediados son procesados
por la alineación de muestras temporales después del estı́mulo y sumadas sus amplitudes
algebraicamente. El potencial evocado surge de la actividad de fondo en proporción al
número de grabaciones estı́mulo - respuesta analizadas. Se demuestra que si la respuesta
evocada es √ la señal (S) y el EEG de fondo tiene un ruido (R), la relación señal ruido
(S/R) es (n)(S/R), donde n es el número de secuencias estı́mulo - respuesta analizadas.
Valores t´ıpicos son n = 100 o superiores.
Potenciales auditivos evocados.

Los potenciales auditivos evocados son
la respuesta polifásica a un estı́mulo auditi-
vo, pueden ser registrados en diferentes zo-
nas del cráneo, fig.2.17.
Debido a su naturaleza polifásica se ha
adoptado una nomenclatura estándar para
su estudio, fig.2.18. Según las investigacio-
nes de Picton [Baker 89], las ondas positi-
vas I-VII se producen 10 mseg. después del
est´ımulo. Las ondas primera y segunda re-
presentan la activación del nervio coclear
y el núcleo auditivo. Las ondas posteriores
identifican la activación del núcleo auditi-
vo del tallo cerebral. La onda V es la más
sencilla de discriminar, la latencias de pico
var´ıa entre los 5,5 mseg. para est´ımulos de
70 dB, hasta aproximadamente 9 mseg. pa- Figura 2.17: Localización de potenciales auditivos
ra est´ımulos cercanos al umbral auditivo. evocados.
En el intervalo entre 10 y 50 mseg

después del estı́mulo es posible registrar una
serie de potenciales a lo largo de amplias
zonas de la superficie del cráneo, aunque
son dif´ıciles de discriminar de los potenciales
musculares reflejos, representan potenciales
talámicos y corticales tempranos.
Los potenciales de mayor duración son
P 1 (50mseg), N 1 (100mseg), P2 (170mseg)
y N 2 (250mseg), componentes del poten-
cial coronario, se encuentra ampliamente
distribuido sobre la zona fronto-central, re-
gistrándose con mayor amplitud en Cz y Fz .
Potenciales somatosensoriales evocados.

Los potenciales sensoriales evocados son las
respuestas corticales a est´ımulos presenta-
dos sobre la superficie del cuerpo. Tanto es-
timuladores táctiles como electrodos super-
ficiales son utilizados para estimular eléctri-
camente los haces de los nervios sensores. Figura 2.18: Componentes de los potenciales
Conforme a las investigaciones de Picton, auditivos evocados.
[Baker 89], los potenciales sensoriales evocados se componen de las componentes descritas
en la tabla 2.2
Componente. Tiempo de retardo. Comentario.

0 15 mseg Onda de pico positiva temprana
asociada a la activación de alguna
estructura subcortical profunda.
1 19 mseg Mejor capacidad de registro en la
zona somatosensorial primaria.
2 26 mseg Polaridad contraria a cada lado del
surco central.
4 Su origen es aún desconocido se
5 considera que la activación de áreas
6 sensoriales secundarias pueden ser
las causantes de estos potenciales.
7 Equivalentes en morfolog´ıa y distri-
8 bución a las componentes N 1 y N 2
de los potenciales auditivos evocados.
Tabla 2.2: Componentes potenciales sensoriales evocados.

Figura 2.20: Componentes de los potenciales

visuales evocados.
Figura 2.19: Potenciales sensoriales evocados.
Potenciales visuales evocados.

Los potenciales visuales evocados son la respuesta a est´ımulos visuales en forma de
destellos de luz o imágenes. Su registro se realiza con más facilidad sobre la zona occipital
aunque otras áreas también pueden ser utilizadas, si bien las formas de onda varı́an.
Conforme a las investigaciones de Picton [Baker 89], los potenciales sensoriales
evocados quedan compuestos por las componentes mostradas en la figura 2.20, en donde
las componentes I y III representa la actividad en el tracto genicular, mientras que la
componente II representa la activación de la corteza visual primaria.
La variabilidad de los tiempos de latencia dependen en gran media del sujeto, siendo
más acusada en las últimas componentes, rangos de latencia tı́picos van de los 60 a los 200
milisegundos.
2.2.2. Magnetoencefalografı́a.
La magnetoencefalografı́a es la parte de la medicina que trata de la obtención e
interpretación de registros gráficos obtenidos por magnetoencefalógrafos, estos dispositivos
registran los campos magnéticos provocados por las corrientes eléctricas producidas por
la actividad del encéfalo.
La magnetoencefalografı́a se basa en la detección de los campos magnéticos, que se
originan cuando se produce el movimiento de iones a través de las membranas celulares,
durante la activación (despolarización) y recuperación (repolarización) de las neuronas.
Ya que la naturaleza del principio en el que se basa la magnetoencefalografı́a es el
mismo que la electroencefalografı́a, ambas reflejan el mismo tipo de evento, aunque cada
una suministra información en modo diferente. En el caso de la magnetoencefalografı́a
apenas se produce atenuación del campo magnético al atravesar la señal el tejido vivo,
mientras que en el caso de la electroencefalografı́a el voltaje medido es altamente atenuado.
Por otro lado la magnetoencefalografı́a permite la determinación de la localización y
la dirección de la fuente bioeléctrica activa, ya que el campo magnético es direccional, sin
que sea preciso el contacto directo entre el cuerpo y el dispositivo sensor, es decir, es un
método sin electrodos.
Sin embargo la intensidad del campo magnético producido por las neuronas es muy
pequeño, ver figura 2.21, por lo que es necesario disponer de salas con aislamiento
magnético y emplear la técnica de promediado de la señal adquirida para obtener unas
adecuadas relaciones señal ruido [Baker 89].
2.2.2.1. Referencias históricas.

Antes de 1970, el registro de los campos magnéticos producidos por la activación
y recuperación de las neuronas en particular, y tejido vivo en general, se realizaba
con bobinas con un gran número de espiras, a partir de 1970 se empieza a utilizar el
dispositivo superconductor de interferencia cuántica, “SQUID: superconducting quantum
interference device”, que tiene la capacidad de detectar campos magnéticos muy sensibles,
dicho dispositivo junto con la técnica de promediado de señal permite la obtención de
magnetoencefalogramas muy claros [Baker 89].
Magnetogramas del nervio ciático de ranas aislados fueron registrados por Seipel y
Morrow en 1950, utilizando una bobina con 3.000 espiras, con dimensiones 2mm x 3mm
x 6mm [Baker 89].
En 1963 Stratbucker registró los cambios de campo magnético asociados al latido del
corazón de un cerdo de Guinea, utilizando una bobina en forma toroidal con 17.640 espiras.
La aplicación a humanos se realizó en 1965 por Baule y McFee, quienes introdujeron la
técnica de bobinas paralelas, cada bobina contenı́a 1∗ 106 espiras bobinadas sobre un núcleo
de ferrita, ver figura 2.22, ambas bobinas se conectaban en serie, proporcionando un voltaje
de pico de unos 30μV , proporcional a la tasa de variación del campo magnético. Safonov
en 1967 utilizó la misma técnica en una sala aislada magnéticamente con paredes de
Figura 2.21: Intensidad de campos bio-magnéticos.
planchas de hierro de 1.5 pulgadas de grosor. Cohen en 1967 obtuvo magnetocardiogramas

bastante aceptables con bobinas de 5 cm de longitud, 8 cm de diámetro, de 200.000
espiras, bobinadas sobre un núcleo de ferrita recubiertas por cilindros de latón a modo
de aislamiento electrostático, dentro de una sala de 2,2 m x 2,24 m x 2,24 m, aislada
magnéticamente por planchas de molypermalloy en la parte externa y aluminio de 5mm
en la parte interna. El detector era montado en modo seguro en frente del tórax del sujeto.
Magnetoencefalogramas
promediados de campos
magnéticos auditivos evo-
cados han sido reportados
por el grupo de Dr. Hari
en 1980, junto con los po-
tenciales auditivos evocados
[Baker 89]. La figura 2.23
ilustra los potenciales audi-
tivos evocados registrados
por un electrodo en Pz, y los
campos magnéticos evocados
en las localizaciones P3 y F7,
sobre el lado izquierdo de la
cabeza.
Figura 2.22: Magnetocardiograma.
Figura 2.23: Magnetoencefalograma con campos magnéticos auditivos inducidos.

El est´ımulo consist´ıa en un
pulso de frecuencia 1KHz de
0,8seg de duración presenta-
do simultáneamente en ambos
o´ıdos. El tiempo entre pulsos
era de 4seg. El magnetoence-
falograma muestra tres com-
ponentes a 100 y 180 mseg
y la componente continua del
campo. La polaridad para di-
chas componentes fue estudia-
da en varios emplazamientos
sobre el hemisferio derecho a
lo largo de la cisura de Silvio,
las cruces representan campos
entrantes, los c´ırculos cerra-
dos campos salientes. Se de-
muestra que aunque el área
auditiva se extiende sobre el
lóbulo temporal, existen res-
puestas corticales que se re-
parten a todo lo largo del ce-
rebro, tal y como demuestran
los potenciales auditivos evo-
cados. Del mismo modo el Dr.
Okada en 1981, realizó mag-
netoencefalogramas de la res-
puesta sensora evocada sobre
el hemisferio cerebral izquier-
do debida a la estimulación Figura 2.24: Magnetoencefalograma con campos magnéticos
del nervio medio derecho sensitivos inducidos.
utilizando pulsos de 1milisegundo de duración con una frecuencia de repetición de 1.9Hz.
La figura 2.24 muestra las respuestas obtenidas en diferentes posiciones sobre el cráneo a
lo largo de la cisura de Rolando, el registro comienza en la sien y se desplaza 1 cm hacia
abajo. La localización cortical mostrada por los campos magnéticos sensoriales evocados es
similar a la obtenida con los potenciales sensoriales evocados. A pesar de su utilización por
más de dos décadas, el futuro de la magnetoencefalografı́a aún no se puede predecir, como
herramienta de investigación es extremadamente útil por su capacidad de localizar fuentes
bioeléctricas, pero el coste asociado para su implantación es su principal desventaja en la
medicina cl´ınica.
2.2.3. Imagen cerebral mediante rayos X.

Los rayos X son ondas electromagnéticas de longitud de onda muy corta, λ = 100nm,
producidas cuando los electrones en rápido movimiento colisionan con sustancias a su
paso. Son similares a los rayos de luz, con la excepción de que su longitud de onda es
una diez milésima de la longitud de onda de la luz visible, debido a lo cual son capaces
de penetrar sustancias muy densas, e impresionar pelı́culas fotográficas creando imágenes
con diferentes tipos de niveles de gris, denominadas radiografı́as, está caracterı́stica la hace
útil en diagnóstico ya que diferencias en la densidad entre las diferentes estructuras del
cuerpo producen imágenes que varı́an en su intensidad de luz sobre la pelı́cula de rayos
X, de modo similar al negativo de una fotograf´ıa. Estructuras densas como el hueso del
cráneo aparecen blancas, mientras que aquellas áreas rellenas de aire o lı́quido, aparecen
negras. En neurologı́a su aplicación principal es el diagnóstico de enfermedades del cerebro
mediante el análisis de radiografı́as.
La figura 2.25 muestra la estructura
de un sistema de rayos X. Los electrones Tubo de
Rayos X
emitidos por un filamento incandescente
son acelerados hacia el ánodo de tungsteno Filtro de
a +100 KV, emitiendo rayos X. Un filtro Aluminio
de aluminio detiene los rayos X de baja
energ´ıa, ya que no atravesar´ıan el cuerpo Colimador
para formar la imagen. Como los rayos
X son emitidos en todas direcciones, para Cuerpo
evitar daños al sujeto y al operador, son
apantallados a través de un colimador,
de modo que sólo los que queden libres Radiacion
son los que dan lugar a la formación primaria
de la imagen. Para evitar que radiación Radiacion
secundaria pueda dañar la pelı́cula se secundaria
emplean unas rejillas en forma de persiana
Rejilla
veneciana. Con objeto de aumentar el
contraste se emplean pantallas de fósforo Pantalla
que emiten gran cantidad de fotones por Pelicula
cada rayo X incidente. As´ımismo, para
reducir la dosis de radiación se puede Figura 2.25: Rayos X
emplear un intensificador de imagen. Los rayos X golpean una pantalla de fósforo en
un tubo al vacı́o, produciendo gran cantidad de fotones que estimulan un foto-cátodo
aumentando la emisión de electrones, estos son acelerados hasta incidir sobre una pantalla
de fósforo a +25 kV, consiguiéndose ası́ una buena calidad de imagen con baja dosis de
rayos X [Webster 78][Baker 89].
Aunque a través de los rayos X es posible la detección de las estructuras internas del
encéfalo, no es detectable el funcionamiento del cerebro, por lo que no es aplicable en la
tecnolog´ıa ICC.
2.2.4. Imagen cerebral mediante imagen nuclear.

Los sistema de imagen nuclear se basan en la detección de radiación producida por
radio-isótopos2 cuando estos se descomponen para alcanzar la estabilidad. En general
los rayos gamma son utilizados para obtener imágenes de órganos dando una indicación
de su funcionamiento. Equipos computerizados de detección de radiación, en especial
los detectores de destellos, detectan los rayos gamma emitiendo un destello luminoso.
El dispositivo de imagen suministra ası́ una imagen del órgano considerado, dando
información de su tamaño, forma, posicion y actividad funcional. Esta técnica se emplea
para la visualización de órganos y regiones internas que no se pueden ver utilizando rayos
X. El espacio ocupado por lesiones y tumores, se muestran particularmente bien.
Para su aplicación al paciente se le suministra un radio-fármaco por vı́a oral o
intravenosa, con un intervalo de tiempo suficiente que permita a la substancia radiactiva
seguir su camino metabólico especı́fico dentro del cuerpo y concentrarse en el tejido
especı́fico a ser estudiado. Un dispositivo de imagen registra la posición y concentración
de la radiación emitida por el radio-isótopo. En casi todos los casos, esta técnica expone
al sujeto a menos radiación que la que recibirı́a llevando a cabo un procedimiento de
diagnóstico similar con rayos X. La medicina nuclear mejora a la anatómica, empleando
una búsqueda con medicina nuclear, metástasis óseas se pueden diagnosticar con un
periodo de anticipación de seis a doce meses antes que con las técnicas radiográficas
normales; en scanners cerebrales se utiliza para el diagnóstico de anormalidades patológicas
como tumores, aneurismas cerebro-vasculares y hematomas.
La figura 2.26 muestra una cámara gamma tipo empleada en medicina nuclear.
Los rayos gamma se produ-
cen en el órgano en todas direccio-
nes, los tubos del colimador ase-
guran que sólo la radiación des-
de las zonas de interés alcancen
el detector NaI. La luz es detec-
tada por más de un tubo foto-
multiplicador, sin embargo sólo los
incrementos relativos son utiliza-
dos para mejorar la resolución es-
pacial. Un analizador electrónico
de amplitud de pulso selecciona
aquellos tubos que tiene la energ´ıa
de rayo gamma adecuada.
La resolución espacial de la
imagen obtenida es alrededor del Figura 2.26: Camara Gamma
1 % de las dimensiones de la imagen [Webster 78][Baker 89].

Aunque esta técnica, a diferencia de los rayos X, puede mostrar el funcionamiento del
cerebro, no es aplicable en la tecnolog´ıa ICC debido a la necesidad de administrar un radio
fármaco al usuario y a las constantes de tiempo involucradas en el proceso.
2
Un radio-isótopo es un átomo con un núcleo inestable. Con objeto de alcanzar la estabilidad el radio-
isótopo emite uno o más tipos de radiación, el ejemplo más común es las partı́culas alfa, beta y la radiación
electromagnética gamma.
2.2.5. Imagen cerebral mediante tomografı́a computerizada.
La figura 2.27 muestra un sistema

de tomograf´ıa computerizada de rayos X.
Mide la atenuación de rayos X paralelos
contenidos en un mismo plano. El proceso
se repite para otros planos cambiando el
ángulo. La información es procesada por
un computador que genera una imagen
bidimensional de la rebanada del cuerpo
en estudio. Repitiendo el proceso con
rebanadas consecutivas se crea una imagen
tridimensional. La figura 2.28 muestra el
proceso de reconstrucción digital de la
imagen mediante retro-proyección, en la
que la atenuación a lo largo de cada
Figura 2.27: Tomografı́a computerizada.
plano es uniformemente asignada; por lo
tanto si existe una alta atenuación en
un pixel o elemento de la imagen, la
asignación desde los ángulos considerados
aumenta más que en los pixeles de su
alrededor. Métodos iterativos aplicados a
la imagen miden la atenuación resultante
y proyectan la nueva información. Como
substancia de calibración se utiliza el
agua, ya que presenta un valor cero en la
tomografı́a. Métodos analı́ticos emplean
análisis espacial de Fourier o técnicas
de convolución. La tomografı́a
computerizada puede generar imágenes
de secciones cruzadas de estructuras
anatómicas, sin superponer tejidos de una Figura 2.28: Tomografı́a computerizada.
en otra.
Sistemas mejorados de tomografı́a computerizada utilizan múltiples medidas
simultáneas y tubos de rayos X que rotan cada 2 segundos. La tomografı́a computerizada
suministra imágenes de tejidos blandos dentro del cerebro que no es posible conseguir
con radiograf´ıas convencionales, ya que los rayos X quedan bloqueados por la densidad del
cráneo. El paciente se coloca dentro del centro de un toroide, rodeado por scanners
tomográficos. La tomografı́a es empleada en el diagnóstico de tumores cerebrales
como neoplasmas, infartos cerebrales, desplazamiento o crecimiento ventricular, atrofias
corticales (decrecimiento del tamaño del cerebro), aneurismas cerebrales, hemorragias y
hematomas intracraneales y malformaciones arteriovenosas. Sin embargo también tiene
limitaciones, la resolución espacial y de contraste limitan a la tomografı́a en su habilidad
para distinguir tejido normal del patógeno, por ejemplo si un tumor dentro del cuerpo
tiene una atenuación semejante a la del agua, no será detectado [Webster 78][Baker 89].
2.2.6. Imagen cerebral: MRI.

La imagen de resonancia magnética, MRI: Magnetic Resonance Imaging, suministra
imágenes bidimensionales que son secciones de la concentración de isótopos H 1 en objetos
tridimensionales. El sujeto es colocado a lo largo del eje Z dentro de un potente campo
magnético de aproximadamente 2T . El spin de los electrones de H 1 precesan a las
frecuencias de Larmor de 42,57M Hz/T . El campo magnético es perturbado para producir
un pequeño gradiente magnético a lo largo del eje Y . En la figura 2.29 se muestra que sólo
hay una sección para cada frecuencia particular de Larmour. Bobinas de radio frecuencia
dispuestas alrededor pulsan a dicha frecuencia, provocando la excitación de las partı́culas
de la sección. Tras una rápida perturbacion del campo magnético, a lo lardo del eje X, un
receptor de radio frecuencia mide la relajación a lo largo de la lı́nea del eje Z ortogonal
a ambos campos. El campo magnético a lo largo del eje Z puede ser modificado para
producir nuevas lı́neas adicionales de adquisición. El sistema es similar a la tomografı́a
computerizada y la señal es procesada en modo similar [Webster 78][Baker 89].
Los puntos fuertes de MRI incluyen:
sensibilidad al flujo sangu´ıneo, ajuste z
electrónico del plano de la imagen Seccion

(en contraposición a otras técnicas que Seccion
en el eje x
utilizan ajuste f´ısico, como la tomograf´ıa en el eje y

computerizada), no emplea radiación
ionizante, sólo magnetismo y ondas de
radio; y alta resolución en tejidos blandos. Linea
Los puntos flacos de MRI son: seleccionada
contraindicación en caso de implantes de
dispositivos médicos y placas metálicas
en pacientes, tiempo de adquisición de y x
la imagen prolongado y coste elevado;

factores que junto con las constantes de
tiempo involucradas al flujo sangu´ıneo Figura 2.29: En MRI, la bobina de radio frecuencia
hacen muy complicado su empleo en la excita las secciones en el eje Y . Un receptor de RF
tecnolog´ıa ICC. mide la secciones en el eje X.
Figura 2.30: MRI tejidos blandos

2.2.7. Imagen cerebral: SPECT.

En la tomografı́a computerizada por emisión individual de fotones3 , un sistema
similar al de la cámara gamma rota alrededor del sujeto. Los rayos gamma provenientes
del sujeto son recogidos en modo similar al utilizado en la tomograf´ıa computerizada,
aunque en este caso varias secciones son obtenidas al mismo tiempo, mostrando la
actividad que se produce en el interior de la zona de interés. Mediante SPECT es posible
observar anomalı́as no observables con los sistemas convencionales de rayos X o cámara
gamma [Webster 78][Baker 89]. El elevado coste de equipamiento y la necesidad de la
administración de un radio-fármaco son los principales inconvenientes para la aplicación
de esta técnica en la tecnologı́a ICC.
2.2.8. Imagen cerebral: Tomografı́a por Emisión de Positrones (PET).

Algunos isótopos producen positrones que reaccionan con los electrones emitiendo dos
fotones a 511 keV en direcciones opuestas. La figura 2.31.a muestra los dos detectores
dispuestos en lados opuestos del sujeto. Los detectores determinan si ambos destellos
son coincidentes y tienen niveles de energ´ıa cercanos a 511 keV. Parejas adicionales de
detectores, fig.2.31b y c permiten una rápida operación. La reconstrucción de la imagen
es similar a la empleada en la tomograf´ıa computerizada.
La principal ventaja del PET es que la mayorı́a de los radio-isótopos utilizados 15 O,
13N , 11 C y 18 F , pueden ser compuestos como metabolitos. Por ejemplo, CO puede ser
hecho con 11 C. Si una porción del cerebro se encuentra activada, el incremento del flujo
de sangre transporta el isótopo hasta ella, apareciendo en la imagen. Funcionamientos
anormales, tumores, ataques y otro tipo de anomal´ıas pueden ser mapeados de este modo.
Por ejemplo, medidas del metabolismo de FDG (glucosa-fluordeoxyglucosa) se emplea
para determinar el crecimiento de tumores. La detección de tumores tempranos es posible
antes de que se produzcan cambios estructurales detectables mediante MRI o CT, ya que
pequeñas cantidades de FDG pueden ser visualizadas [Webster 78], [Baker 89].
Figura 2.31: Tomografı́a por Emisión de Positrones
3
SPECT: Single-photon emission computed tomography.
2.3. Referencias históricas sobre la tecnologı́a ICC.

Con el descubrimiento de la naturaleza electroquı́mica del sistema nervioso en general
y del cerebro en particular, y la descripción de la electroencefalografı́a por parte del Dr.
Hans Berger en 1929, [Bronzino 95a], comienzan las primeras especulaciones acerca del
empleo de esta técnica como vı́a de comunicacion y control, a fı́n de permitir al cerebro
actuar sobre el entorno sin la utilización del sistema nervioso periférico o los músculos4 .
Las investigaciones llevadas a cabo en la tecnolog´ıa ICC han sido divididas en dos
grandes grupos, denominándose experimentos fuera de lı́nea a aquellos en los que se
produce una primera etapa de adquisición de la información para proceder a continuación a
su posterior análisis; y experimentos en lı́nea a aquellos que procesan, lo más rápidamente
posible, pequeños paquetes de información para interactuar con el entorno en el menor
tiempo posible, buscándose idealmente una actuación e interacción continua entre el
usuario y el entorno.
En el primer caso quedan englobadas todas aquellas investigaciones cuyo objetivo es la
investigación neurológica: zonas cerebrales en las que la relación señal adquirida ruido
presenta un ı́ndice mayor, grupo de actividades con mayor poder de discriminación, etc.
El segundo grupo engloba aquellos experimentos en los que se busca el desarrollo de
dispositivos de comunicación.
Las primeras investigaciones se centraron en la utilización de señales electroencefa-
lográficas espontáneas, al usuario se le entrenaba en el control de estas caracterı́sticas,
normalmente ritmo α, con el objetivo de manejar desde trenes de juguete a juegos de
luces. Un ejemplo tı́pico de esta etapa es el que realizó el Dr. Dewan en 1967, empleo bio-
realimentación para entrenar voluntarios en la modificacion de sus ritmos α occipitales
con el objetivo de codificar mensajes en Morse.
En 1970 varios cientı́ficos desarrollaron sistemas de comunicación sencillos, que eran
controlados por el registro de actividad eléctrica en la cabeza del usuario. A principios
de dicha década la “Advanced Research Projects Agency (ARPA)” del Ministerio de
Defensa de Estados Unidos, mostró interés en tecnologı́as que permitieran un mayor grado
de inmersion e interacción entre personas y computadoras incluyendo las denominadas
aplicaciones “biónicas”.5 El Dr. George Lawrence propuso y dirigió un programa que
inicialmente se centraba en la auto-regulación y biorealimentacion cognitiva. Se analizaron
aquellas técnicas que mejoraran el rendimiento de los operarios, especialmente las
capacidades militares de personal involucrado en tareas que ten´ıan una carga mental
elevada. La investigación produjo ciertos avances en biorealimentación, pero apenas
se avanzó en los objetivos inicialmente establecidos. Bajo la denominación de “bio-
cibernética” se estableció una nueva dirección, siendo ésta la principal fuente de
recursos para la investigación en biónica. Una de las directrices de este programa fue
la evaluación de la posibilidad de utilizar señales biológicas, que serı́an analizadas en
tiempo real por un computador, con el objetivo de controlar veh´ıculos, armamento u otros
sistemas. El proyecto de mayor éxito fue liderado por el Dr. Jacquies Vidal,
4
La figura 2.33, al final de este capı́tulo, se muestra el desarrollo de la tecnologı́a ICC
5
Biónica: Disciplina que se ocupa de la aplicación tecnológica de las funciones y estructuras biológicas de
los animales.
2.3 Referencias históricas sobre la tecnologı́a ICC. 47
director de “Brain Computer Interface Laboratory” en UCLA. Mediante la utilización

de estimulación visual generada por computador y procesamiento avanzado de señal, los
resultados de la investigación demostraron que potenciales visuales evocados, considerados
individualmente, permitirı́an un canal de comunicación por el cual un operario podrı́a
controlar el movimiento de un cursor a través de un laberinto bidimensional [Vidal 73]
[Vidal 77].
Estas primeras investigaciones revelaron la importancia de la distinción entre
sistemas de control que usaran actividad electroencefalográfica y aquellos que usaban
electromiogramas, recogiendo la actividad muscular a nivel de cuero cabelludo o músculos
faciales.
El incremento en la potencia de cálculo de los computadores en las últimas dos
décadas, ha permitido a los investigadores la implementación de complejos algoritmos de
procesamiento y reconocimiento de señal, usando como señales de control tanto Potenciales
Evocados6 como Potenciales Relativos a Eventos7.
En 1988 los doctores Farwell y Donchin de la Universidad de Illinois utilizaron la
técnica de Potenciales Relativos a Eventos P300 para el control de una máquina de escribir
virtual [Donchin 00], [Wolpaw 00a], [Krusienski 00], [Sellers 06]. El teclado matricial se
representaba en una pantalla de ordenador. Al voluntario se le pedı́a que escribiera una
palabra, mientras que las fila y columnas del teclado eran resaltadas de forma aleatoria,
cuando se resaltaba la fila o la columna en la que se encontraba la letra deseada se producı́a
un P300. El dispositivo utilizaba un único electrodo dispuesto sobre el cortex parietal (es
la zona con mayor respuesta P300 en personas adultas). Un algoritmo de detección de pico
identificaba cuando se producı́a un potencial P300. El sistema tenı́a una velocidad media
de comunicación de 2.3 caracteres por minuto, lo cual corresponde a un canal con una
capacidad de 0.2 bits/segundo.
En 1990 el Dr. Keirn y el Dr. Aunon, en la Universidad del Estado de Colorado, llevaron
a cabo una serie de experimentos para analizar que tipo de actividades cognitivas podrı́an
ser diferenciadas, mediante la señal electroencefalográfica. El objetivo a largo plazo era
la utilización de aquellas actividades que mejor señal proporcionaban para el control de
sistemas ICC. Inicialmente se identificaron tareas en los hemisferios izquierdo y derecho,
por lo que una caracterı́stica de discriminación útil fue la relacion de asimetrı́a de la
potencia espectral. Se dispusieron seis electrodos en las zonas izquierda, central derecha,
parietal y occipital, del cortex cerebral. La estimación de la densidad espectral de potencia
fue obtenida mediante el empleo de la transformada rápida de Fourier (FFT). Trabajos
posteriores demostraron que el empleo de métodos Auto-Regresivos (AR) ofrecı́an mejores
resultados. La relación de asimetrı́a fue aplicada en un clasificador cuadrático bayesiano,
obteniéndose diferenciación entre estado de reposo y cada uno de los siguientes estados:
rotación mental de figuras geométricas, multiplicaciones matemáticas, composición mental
de cartas y cuenta visual. La exactitud de discriminació n obtenida se encontraba entre un
80 % y un 90 %.
6
Denominación inglesa: Evoked Potentials EP’s
7
Denominación inglesa: Event-Related Potentials ERP’s
En 1993, investigadores del Hospital Universitario Nacional de Taiwan repetı́an el

experimento anterior, pero utilizando redes neuronales de Kohonen como clasificador de
las diferentes actividades. Indicaron que eran capaces de diferenciar dichas tareas con
mayor exactitud.
En 1995 el grupo del Dr. Anderson analizó los datos recogidos por Keirn y Aunon,
utilizando un clasificador basado en redes neuronales. Se centraron en la tarea de
multiplicación e investigaron con que precisión la podı́an discriminar de la actividad base
de estado relajado. Implementando una red neuronal del tipo perceptrón multicapa en un
sistema con procesamiento en paralelo y utilizando coeficientes AR como caracter´ıstica
de entrada, fueron capaces de clasificar los datos con un 91 % de exactitud [Garrett 03]
[Muller 03b].
As´ı mismo, el Dr. McMillan y el Dr. Calhoun, en “Wright-Patterson Air Force Base”
utilizaron Potenciales Evocados Visuales (VEP) para controlar el balanceo en un simulador
de vuelo [Middendorf 00]. Dos electrodos, en la zona del cortex visual, fueron utilizados
para registrar la respuesta de estado continuo frente a luz sinusoidal modulada a una
frecuencia de 13.25 Hz. Un amplificador en lazo cerrado med´ıa de forma continua la
magnitud de la componente electroencefalográfica en 13.25 Hz. Si su magnitud superaba
un determinado umbral, el simulador de vuelo se balanceaba hacia la derecha. Por el
contrario si su magnitud era inferior a otro nivel de umbral, se balanceaba hacia la
izquierda. Los voluntarios que se sometieron a las pruebas en el simulador, al cabo de
12 h de entrenamiento, fueron capaces de responder correctamente el 80 % de las veces, en
una secuencia aleatoria de blancos derecha/izquierda. En otro experimento, independiente
del anterior, utilizaron la misma técnica VEP para controlar la flexión de la rodilla a través
de estimulación eléctrica externa. El estimulador fue conectado en la superficie anterior
del muslo, sobre el músculo femoral. Tres voluntarios sanos se entrenaron durante 5 h en
la utilización del interfaz. Se les propuso flexar la rodilla en uno de tres ángulos diferentes,
para después volverla a dejar en su posición de reposo, perpendicular al suelo. El 96 %
de las propuestas fueron alcanzadas, se empleaban unos 5 seg. de media en la extensión
completa de la pierna, y un promedio de 6 seg. en la vuelta a su posición de reposo.
En el “New York State Department of Health” en 1993 el Dr. McFarland y Dr.
Wolpaw entrenaron voluntarios en el control de la amplitud de sus ritmos μ8 para el
control de la posición de un cursor en la pantalla de un computador, [Wolpaw 00b].
Se utilizaron dos electrodos dispuestos sobre el área senso-motora primaria del cortex
cerebral izquierdo abarcando la cisura central. Con estos dos electrodos se obten´ıa un canal
de señal electroencefalográfica, que convenientemente tratada mediante el algoritmo de
FFT implementado en un DSP, suministraba la componente de 9 Hz en tiempo real, que
era utilizada para controlar proporcionalmente el movimiento vertical del cursor en la
pantalla. Los blancos, de tamaño constante, se desplazaban de izquierda a derecha a
una altura elegida al azar, el tiempo empleado por el blanco en recorrer el ancho de la
pantalla era de 8 seg. Al voluntario se le indicó que moviera el cursor, en el lado derecho
8
El ritmo μ es el ritmo α (9Hz) que se registra sobre la zona motora del cortex.
2.3 Referencias históricas sobre la tecnologı́a ICC. 49
de la pantalla, para interceptar el blanco. Se entrenaron cuatro voluntarios durante un

periodo de algunas semanas. El que mejor lo hizo consiguió interceptar el blanco el 75 %
de las veces, mientras que el que peor resultados obtuvo lo hac´ıa el 39 %. Estos datos
corresponden a un canal de comunicación con una capacidad de 0.125 bit/sec (en el mejor
de los casos). Experimentos posteriores comunicados en 1994, utilizaban dos electrodos
en el lado derecho y otros dos en el lado izquierdo en la zona senso-motora del cortex,
dando lugar a dos canales ERD9, el ritmo μ en cada hemisferio fue capturado utilizando
una banda de frecuencia centrada en 10Hz con una anchura de 5Hz, con una periodicidad
de 200 mseg. Ambos valores fueron convertidos en movimientos horizontales y verticales
del cursor, mediante el empleo de ecuaciones lineales, los coeficientes de dichas ecuaciones
se actualizaban al cabo de cada intento. La tarea propuesta fue la dirección del cursor
desde el centro de la pantalla del computador hacia una de las esquinas del monitor
elegidas al azar. La prueba finalizaba cuando el cursor alcanzaba el blanco de tamaño
fijo. Se entrenaron cinco voluntarios durante un periodo de 6 a 8 semanas. El voluntario
con mejores resultados consiguió el 70 % de los blancos, a una velocidad media de 26 por
minuto, lo cual corresponde a una tasa de transferencia de información de 0.9 bits/seg.
Hiraiwa, Shimohura y Tohunaga en el “NTT Human Interface Laboratories”, en Japón,
utilizaron un sistema electroencefalográfico de 12 electrodos, para estudiar las
caracterı́sticas espacio temporales de los potenciales de generación asociados con la
pronunciación de una entre cinco sı́labas japonesas. Se tomaban dos registros de la
actividad electroencefalográfica previas a la pronunciación de la sı́laba, para ser utilizadas
en la subsiguiente clasificación empleando una red neuronal entrenada mediante la técnica
de “backpropagation”. Dieciséis de treinta nuevas sı́labas eran correctamente clasificadas.
Ası́ mismo también se investigaron potenciales de generación asociados a movimientos de
“joystick”. En este caso, utilizando la misma técnica, 23 de 24 nuevos movimientos del
joystick fueron correctamente reconocidos.
En 1992, el grupo del Dr. Pfurtscheller de la Universidad de Graz en Austria
estudió los ritmos μ asociados con el movimiento de los dedos ı́ndice derecho e
izquierdo [Scherer 04], [Pfurtscheller 03], [Blankertz 04], [Rupp 06]. A los voluntarios se
les instruyó para que presionaran un pulsador con el dedo ı́ndice. Una pista un segundo
antes de producirse el movimiento indicaba que dedo deb´ıa de ser utilizado. Durante este
segundo, 30 electrodos dispuestos en una matriz rectangular sobre la zona seso-motora
del cortex cerebral registraban la actividad electroencefalográfica (ERD) que precedı́a al
movimiento. Posteriores análisis de la información adquirida han demostrado que dos
electrodos en las zonas C3 y C4 son suficientes para obtener buenos resultados. La
transformación de Hilbert, aplicada a las señales electroencefalográficas, ha demostrado
ser el mejor método para la extracción de caracterı́sticas. Dando lugar a una precisión
en la clasificación de aproximadamente el 90 %, comparada con el 70 % u 80 % que se
consigue con el método de potencia espectral. Posteriormente se ha demostrado que redes
neuronales trabajando sobre modelos autorregresivos dan lugar a resultados similares.
9
ERD: Event-Related Synchronizations or Desynchronizations (ERS/ERD)
Este experimento demostró que utilizando únicamente dos electrodos, se podrı́a controlar el
movimiento bidimensional de un cursor.
Al año siguiente, este mismo grupo mostró su sistema ICC en lı́nea, basado en detectar
potenciales de generación en dos electrodos sobre las zonas C3 y C4 de cortex senso-
motor. Un voluntario fue entrenado durante cuatro sesiones de media hora, la actividad de
entrenamiento consistió en el movimiento horizontal de un cursor en pantalla. El
procedimiento de adquisición de la señal fue el siguiente:
1. Un pitido prepara al usuario para el comienzo de la actividad.
2. Un segundo después se indica la dirección objetivo, mostrando un cuadrado en la
zona izquierda o derecha de la pantalla.
3. Al cabo de otro segundo, aparece un cursor en el medio de la pantalla, indicando
que el usuario debe presionar el pulsador adecuado.
Una sesión de grabación queda compuesta por unos ochenta intentos. En cada sesión
la señal del segundo en el que se planifica el movimiento es procesada para obtener
los valores espectrales de potencia. Utilizando estos datos y la dirección de movimiento
actual, se produce el aprendizaje de la asociación de movimientos planificados con
movimientos reales. Tras una sesión de entrenamiento el clasificador predice un 70 % de
movimientos correctamente, al cabo de cuatro esta cifra se incrementa hasta un 85 %. Lo
cual demuestra que el usuario modifica su señal electroencefalográfica mediante el empleo
de biorealimentación.
En 1994 el grupo del Dr. Pfurtscheller mostró como movimientos de los dedos ı́ndice
derecho e izquierdo, movimientos del pı́e y de la lengua podı́an ser identificados mediante
sus ERD’s. Aplicaron el hecho de que movimiento de los dedos o mano son acompañados
por el bloqueo del ritmo μ y por un corto retardo del ritmo γ (30-40Hz ERS). Emplearon
ocho electrodos dispuestos en una matriz rectangular sobre la zona senso-motora y
realizaron la estimación de potencia espectral en las siguientes bandas para cada señal: 10-
12 Hz (dedos y lengua), 30-33 Hz (dedos del pie), 38-40Hz(dedos y lengua). La estimación
se realizaba cada 250 mseg.
Este trabajo llevó al diseño del segundo sistema ICC en Graz, con el cual controlar
tres tipos diferentes de movimientos. La señal ERD asociada con el movimiento de los
dedos ´ındice derecho e izquierdo o del pie derecho fue registrada en tres canales EEG
bipolares (6 electrodos sobre la zona del cortex senso-motora). La estimación de potencia
espectral se calculaba para cada muestra con una duración de 250 mseg. Estas medidas
eran concatenadas cada segundo, para formar un vector que era clasificado por el algoritmo
de aprendizaje. Cuatro voluntarios fueron entrenados en el uso del dispositivo en cuatro
sesiones de 90 min. durante un periodo de dos semanas. Cada sesión consistió en cuatro
bloques de 60 pruebas con un descanso de cinco minutos entre bloques. Cuando la
indicación desaparece, al cabo de 1.25 seg, el voluntario presiona el pulsador con su dedo
ı́ndice derecho, izquierdo, o mueve los dedos del pie derecho hacia arriba. Las señales
electroencefalográficas son clasificadas por el sistema en el siguiente segundo. Los datos
del primer segundo son utilizados para entrenar el clasificador, mientras que en la cuarta
sesión no se muestran los resultados. En las sesiones segunda y tercera, en las que si existe
realimentación de resultados se consigue una exactitud del 81 %, sin embargo en la cuarta
la cifra baja al 77 %.
2.4 Estado actual de la tecnologı́a. 51
2.4. Estado actual de la tecnologı́a.

Las investigaciones anteriores han resuelto una gran cantidad de problemas, como por
ejemplo la discriminación de actividad electromiográfica de la electroencefalográfica, pese
a que a nivel de cuero cabelludo la primera es de mayor amplitud que la segunda en la
misma localización, y la comunicación basada en EMG puede llegara enmascarar la
comunicación basada en EEG. Para realizar una correcta discriminación de ambas fue
preciso realizar análisis espectral y topográfico. Este trabajo inicial también sirvió para
esclarecer la distinción entre sistemas de comunicación basados en EEG que dependı́an del
control muscular (por ejemplo potenciales visuales evocados dependen de la dirección de los
ojos) y aquellos que no dependı́an del control muscular (actividad figurativa, imaginativa
o matemática), estableciéndose una primera discriminación entre sistemas ICC exógenos
y endógenos. Estas distinciones fueron las que dieron lugar a la actual definición del
término Interfaz Cerebro Computador ICC como “aquel sistema de comunicación que
no depende de los canales cerebrales de salida habituales, sistema nervioso periférico y
músculos” [Wolpaw 00a]. Definición que justifica el intereś actual que la tecnologı́a ICC
ha suscitado entre los diversos grupos de investigación en interfaces hombre-máquina a
nivel mundial, y las posibilidades que como nueva tecnolog´ıa de comunicacion aumentada
ofrece su aplicación en campos como la tecnologı́a de la rehabilitación, teleoperación de
dispositivos robotizados, sector militar o industria del ocio expuestos en la sección 1.2 del
cap´ıtulo 1.
La proliferación que en los últimos años se ha producido en los grupos de investigación
en la tecnologı́a ICC y la gran variedad en los tipos de señal de entrada, algoritmos
de traducción, salidas y otras caracterı́sticas de los dispositivos basados en ICC, ha
motivado el aumento de la diversidad de criterios tanto en la consideración de las áreas
prioritarias de desarrollo para la mejora de la tecnologı́a ICC, como en el establecimiento de
procedimientos de medida y comparación de resultados. Mientras que diferentes sistemas
se ajustan mejor para diferentes aplicaciones, medidas de rendimiento estándar son útiles
como bancos de pruebas de propósito general, con el cual seguir el desarrollo de la
tecnologı́a ICC. Una medida estándar en los sistemas de comunicación es la velocidad
de transferencia de información o cantidad de información transmitida por unidad de
tiempo10 . Ésta depende tanto de la velocidad, como de la exactitud, [Shannon 75],
[Pierce 80].
En la figura 2.32 se muestra la relación entre exactitud y transferencia de información
para diferentes valores de posibles elecciones N:2,4,8,16,32. La velocidad de transferencia
de información se muestra en bits/min cuando se realiza un total de doce pruebas, valores
semejantes se observan en diferentes dispositivos ICC [Birbaumer 00], [Pfurtscheller 00],
[Wolpaw 00b].
10
En terminologı́a inglesa se denomina “Bit Rate”
Se observa por ejemplo, que la

velocidad de transferencia de un
dispositivo ICC que seleccione entre
dos valores con un 90 % de exactitud
es el doble que la obtenida con un
80 %, e igual a la que se consigue con
cuatro posibles candidaturas con un
65 %.
La enorme importancia de la exac-
titud en la velocidad de comunicación
no ha sido valorada convenientemente
en las publicaciones relacionadas con
ICC. Mientras que la efectividad de
cada dispositivo ICC depende consi-
derablemente de la aplicación a la que
se destina, la utilización de la veloci-
dad de comunicación ofrece una medi- Figura 2.32: Velocidad de transferencia de información
da objetiva para comparar diferentes en bits/min, variando el número de posibles elecciones
dispositivos y medir mejoras. N={2, 4, 8, 16 ó 32}.
Por otro lado ya que dependiendo del tipo de técnica de análisis empleada existen
áreas del cortex cerebral en las que se refleja una gran cantidad de información, mientras
que en otras, la información buscada esta oculta entre el ruido captado11 , son necesarios
ensayos cl´ınicos controlados en varios grupos de usuarios con la finalidad de determinar
que métodos de adquisición ICC son los que mejor se ajustan a cada grupo de usuarios. En
la actualidad sólo se disponen de datos ICC de personas con incapacidades neuromotoras
severas. Con el Dispositivo de Traducción de Pensamiento (TTD) [Birbaumer 00], que
utiliza potenciales corticales lentos (SCP’s), y con el sistema Wadsworth ICC, que utiliza
ritmos μ y β [Wolpaw 00b], han sido evaluados en un número pequeño de usuarios con
esclerosis lateral amiotrófica, daño traumático, daño de la médula espinal, parálisis cerebral
o amputación. El objetivo de estos estudios es la comparación del rendimiento de los
diferentes sistemas ICC y sus diferentes entradas electrofisiológicas, ası́ como evaluar
diferentes procedimientos de entrenamiento, controlando el efecto placebo [Harrington 97].
Ası́ pues con el objeto de unificar criterios y procedimientos de comparación, en los
últimos años se han realizado diferentes concursos sobre ICC, focalizadas en la resolución
incremental de los problemas que aparecen en la aplicación de esta tecnologı́a, ası́ en el año
2001 se celebró el primer concurso centrado en la estandarización de diferentes técnicas de
clasificación; viéndose la gran disparidad tanto en los registros de señal considerados, como
en las técnicas y criterios de clasificación empleados, se realizó en 2003 un segundo concurso
centrado en el empleo de los ritmos μ y β, as´ı como potenciales evocados tempranos y
de tipo P300, analizándose la señal electroencefalográfica previa a la materialización de
11
Por ejemplo el control con potenciales lentos es pobre en las zonas parietales [Rockstroh 89] y los
ritmos μ quedan estrechamente limitados a la zona senso-motora del cortex cerebral.
movimiento de los dedos de ambas manos, y considerándose como caracterı́sticas de la señal

a sus componentes espectrales. El tercer concurso se realizó al año siguiente, centrando sus
esfuerzos en la discriminación de imaginación de movimiento de diferentes partes del cuerpo
como dedos de las manos, pies, o de la lengua, frente a otro tipo de tareas cognitivas como
la composición mental de un escrito, rotación de figuras, o la imaginación de navegación
entre dos puntos en un entorno conocido; se analizó la influencia que sobre la extracción de
caracter´ısticas y los diferentes clasificadores, presentaba la estabilidad en el tiempo de los
registros de señal EEG empleados en el aprendizaje. El cuarto concurso se celebró en el año
2008 centrando sus esfuerzos en la realización práctica de dispositivos ICC, analizando los
problemas de clasificación continua de señal EEG sin disponer de una estructura de prueba,
considerando los artefactos debidos a movimiento ocular, clasificación de los movimientos
de la muñeca considerando señal magnetoencefalográfica e incremento de la granuralidad
de resolución espacial en ECoG.
La mayor´ıa de los conjuntos de datos para entrenamiento y test fueron adquiridos en
sesiones con escasa separación temporal entre las mismas, lo que unido a la libre
elección de los electrodos y caracterı́sticas considerados en la clasificación, dé lugar a
tasas de clasificación optimistas, superiores a las obtenidas en aplicaciones en escenarios
reales. Sin embargo, a pesar de este inconveniente, los concursos realizados sobre ICC
aportan el principal marco de comparación para la evaluación de las diferentes técnicas de
clasificación.
Debido a que el funcionamiento de ICC depende de que el usuario codifique su
voluntad en las caracterı́sticas de la señal, que el sistema mide y traduce a sus salidas
de control, el progreso del mismo también depende de la mejora de los métodos de
entrenamiento. Trabajos en desarrollo evalúan el efecto del entrenamiento y analizan
diferentes estrategias utilizadas por los usuarios. Por ejemplo algunos protocolos piden
que el usuario emplee imaginación de movimientos muy especı́ficos u otra tarea mental
para producir las caracterı́sticas que el sistema EEG utilizará como señales de control
[Pfurtscheller 00] [Penny 00]. Sin embargo otros sistemas permiten más libertad al usuario
en la decisión de que movimientos imaginar [Wolpaw 00b]. El análisis de similitudes y
diferencias, entre la adquisición de control ICC y la adquisición de destreza motora o
no-motora convencional, podrı́a conducir a la mejora de los métodos de entrenamiento.
Ası́ mismo también deben ser considerados aspectos mentales del individuo como por
ejemplo: motivación, fatiga, frustración. El análisis de los informes de usuario deben ser
cuidadosamente analizados para extraer las conclusiones correctas [Roberts 89].
Por otro lado, teniendo en cuenta el procedimiento de adquisición de la señal cerebral,
el interés actual se centra principalmente en la aplicación a sistemas de registro a nivel de
cuero cabelludo, ya que es la opción con mayor disponibilidad de uso. En tecnologı́as
invasivas, como puede ser el caso de electrodos cónicos [Kennedy 00], o cadenas de
microelectrodos intracorticales [Levine 00], [Chapin 99], los algoritmos existentes requieren
de evaluación adicional, siendo probable que se desarrollen otros nuevos. La actividad
recogida en el EEG refleja la actividad de grandes poblaciones de neuronas corticales.
Si las caracterı́sticas extraı́das de esta actividad suministrarán medios de comunicación

eficaces, deben existir dos o más estados discernibles que reflejen las intenciones del usuario,
y que se acomoden al dominio y limitaciones de la aplicación. La tecnologı́a ICC puede
emplear una caracterı́stica individual: amplitud de una banda de frecuencia especı́fica en
determinada zona del cerebro, o bien una combinación de múltiples caracterı́sticas, bien
en el dominio temporal o frecuencial, por ejemplo potenciales corticales lentos, ritmos μ,
etc.; producidos por múltiples procesos fisiológicos. Las necesidades de la aplicación elegida
son determinantes en la selección de los algoritmos de traducción, que proporcionen una
adecuada combinación de velocidad y precisión. Debido a que el cerebro humano es un
controlador altamente adaptativo que se basa en métodos predictivos y realimentación de
la información, es aconsejable y tal vez esencial, que los algoritmos de traducción también
dispongan de esta capacidad de adaptación, ej. [McFarland 97] permite la adaptación
continua del valor de la amplitud media y/o varianza de las caracter´ısticas de EEG.
El desarrollo actual de las técnicas ICC requiere que se reconozca que el objetivo no es
únicamente la observación de la actividad cerebral, mediante diferentes técnicas como EEG
o registros intracorticales, y mediante ellos determinar la intención del usuario, sino que
el interfaz de control cerebral debe ser entendido como un nuevo canal de salida cerebral,
y al igual que los canales normales: nervios y músculos, es preciso enlazar las capacidades
adaptativas del cerebro que ajustan dicha salida y ası́ obtener el máximo rendimiento.
Por lo que actualmente se está investigando sobre el desarrollo de dispositivos ICC lo
suficientemente flexibles como para usar diferentes caracterı́sticas de señal EEG como
mecanismo de control. Un dispositivo basado en ICC podrı́a utilizar potenciales corticales
lentos, ritmos μ o β , potenciales P300, o actividad de unidades neuronales independientes,
bien individualmente o bien de forma conjunta [Schalk 04], siendo esta flexibilidad la que
suministrará un considerable avance práctico. La consecución de éxito en la utilización de
estos dispositivos es en esencia una nueva destreza, que consiste más que en un apropiado
control muscular en el apropiado control de la actividad electroencefalográfica.
A parte de lo anterior, es preciso tener en cuenta que a excepción de los sistemas que
dependen del control muscular [Vidal 73], [Vidal 77], [Middendorf 00], [Sutter 92], y la
posible excepción de sistemas basados en potenciales evocados P300 [Donchin 00], la gran
mayorı́a de los dispositivos basados en ICC dependen de la actividad electroencefalográfica,
y por tanto de su modo de aprendizaje llevado a cabo mediante procedimientos de condi-
cionamiento operativo. Por lo que el análisis comportamental del fenómeno de aprendizaje
y del ambiente es importante. Dicho análisis requiere un extenso conocimiento de la teorı́a
de aprendizaje, experiencia en su aplicación clı́nica y entender como una determinada
discapacidad neurológica puede influir en el aprendizaje. Sin embargo, la mayorı́a de los
dispositivos actuales han sido desarrollados por ingenieros u otros grupos con orientación
técnica semejante, con experiencia limitada en principios y métodos comportamentales.
Aunque capacidades intelectuales y cognitivas de alto nivel no sean probablemente esen-
ciales para el uso con éxito de ICC [Holzapfel 98], si es preciso un mayor grado de atención
a cuestiones como: selección de respuesta óptima, tipos y cronogramas de reforzamiento,
condiciones de respuesta est´ımulo; que son esenciales a la hora de perfilar cualquier com-
portamiento.
Los usuarios, controlando y eligiendo las caracterı́sticas electrofisiológicas, pueden

seleccionar el mensaje a comunicar y observar la salida del sistema, de forma simultánea.
Lo cual requiere la división de la atención, pudiendo comprometer el control de la
señal de entrada. Varios estudios indican que dicha división es posible [Birbaumer 00],
[Kumlbler 01], [Perelmouter 99], [Miner 98], mas presenta el inconveniente de eliminar la
capacidad de automatización de la respuesta cerebral, como potenciales corticales lentos o
ritmos μ. El problema se podrı́a solucionar utilizando conmutación de respuesta subcortical
o bien reduciendo el tamaño de las regiones corticales que producen la entrada utilizada
por el sistema ICC.
Al igual que en todo dispositivo de comunicación, las entradas al dispositivo ICC son
conjuntos de señales, que reflejan la actividad cerebral, las cuales deben ser transformadas
por el algoritmo de traducción en órdenes.
Previamente se ha de tener en cuenta la metodologı́a utilizada para medir dichas
señales. Las caracterı́sticas de las señales pueden venir dadas en el dominio frecuencial
[como por ejemplo ritmos μ o β que se suceden en zonas especı́ficas del cortex], o bien por
caracter´ısticas en el dominio temporal [como potenciales corticales lentos, potenciales P300
o el potencial de acción de neuronas corticales individuales [Birbaumer 00], [Kennedy 00]].
Esta metodologı́a incluye el tipo de electrodos a nivel de cuero cabelludo, su colocación, el
filtrado espacial y temporal, ası́ como otros métodos de procesamiento de señal empleados
en la extracción y medición de sus caracterı́sticas. La sencillez en la distinción entre señales
y como éstas reflejan aspectos especı́ficos de la fisiologı́a y anatomı́a del sistema nervioso
depende de las caracterı́sticas de señal que se consideren. Esta distinción es importante
debido a que dichas caracter´ısticas son el reflejo de la fisiolog´ıa y la anatom´ıa del sistema
nervioso, y no sólo el resultado de unos métodos de análisis, y de ahı́ el continuo empeño
en la consideración del problema de espurios o artefactos, como la actividad EMG, que
afecta a las caracterı́sticas que definen a la señal.
Figura 2.33: Evolucion temporal del desarrollo de la tecnologı́a ICC.

Capı́tulo 3
Adquisición y procesamiento de
señal EEG.
En este capı́tulo se presentan las técnicas de adquisición y procesamiento de señal
electroencefalográfica, previas al empleo de las diferentes técnicas de clasificación descritas
en el capı́tulo 4. Las técnicas de adaptación y procesamiento de señal utilizadas incluyen:
1. Acondicionamiento de la señal electroencefalográfica.
2. Muestreo y cuantificación.
3. Normalización y enventanado.
4. Transformación de la señal del espacio temporal al espacio frecuencial.
5. Obtención del vector de caracterı́sticas.
6. Detección de artefactos.
La señal electroencefalográfica considerada proviene de dos canales; el canal 1 registra

la señal en las proximidades de C31 , mientras que el canal 2 registra la señal en las
proximidades de C4; ambos canales son de tipo diferencial, empleando dos electrodos
equidistantes a los puntos de referencia mencionados, separados una distancia de 3 cm, tal
y como se muestra en la figura 3.1. Con objeto de poder detectar los artefactos causados
por el parpadeo, un tercer canal se encarga de registrar la actividad mioeléctrica en las
proximidades de la comisura del ojo izquierdo; un cuarto canal, al que no se han conectado
electrodos, se emplea para la estimación del nivel de ruido presente durante la adquisición
de la señal; el electrodo de referencia de masa del bio-amplificador queda dispuesto sobre
el mastoide derecho [Bronzino 95b], la figura 3.2 muestra el conexionado eléctrico entre el
usuario y el bio-amplificador. El procedimiento experimental seguido para la preparación
del usuario y equipamiento se presenta en el cap´ıtulo 5.
1
La denominación proviene del sistema internacional de referencia electroencefalográfico 10-20.
58 Adquisición y procesamiento de señal EEG.
Figura 3.1: Colocación de los electrodos.
Canal 1
+
Canal 2 − Vcc
Canal 3
Figura 3.2: Esquema de conexionado eléctrico.

3.1 Acondicionamiento de la señal electroencefalográftca. 59
3.1. Acondicionamiento de la señal electroencefalográfica.

El acondicionamiento de la señal considera tanto las medidas de aislamiento eléctrico
del usuario respecto a la red eléctrica, como la amplificación y filtrado de la señal adquirida
[Bronzino 95b], [Rubio 00], [Webster 04].
Como se ha indicado en la sección 2.2.1 y 2.2.1.3, la señal electroencefalográfica
se caracteriza por tener un rango de amplitud del orden del centenar de microvoltios
y un rango en frecuencia comprendida entre los 0,4Hz y los 60Hz, sin embargo el rango
de frecuencia más común detectado en condiciones de consciencia se presenta entre
los 4Hz a 25Hz [Webster 04],[Webster 98],[Rubio 00]. Por este motivo, con objeto de
poder detectar y clasificar actividades cognitivas es necesario amplificar y filtrar la señal
electroencefalográfica [Baker 89], para lo que se utiliza un bio-amplificador con una
ganancia de tt = 10000 y ancho de banda de 0 − 60Hz. La figura 3.3 muestra la señal
tı́pica registrada durante una sesión experimental, en donde por claridad, para diferenciar
la evolución temporal de cada canal, a cada uno de ellos le ha sido añadida una componente
continua de valor igual al de su cardinal.
Figura 3.3: Registro de señal tı́pico.

Tras la amplificación de la señal electroencefalográfica, se procede a su filtrado
analógico [Proakis 97], aplicando tanto un filtro de rechazo de banda tipo Notch
sintonizado a 50Hz, como un filtro paso alto que elimina todas aquellas componentes
frecuenciales inferiores a 0,4Hz. El filtro de rechazo de banda minimiza el ruido y artefactos
electromagnéticos causados por la red de suministro eléctrico; mientras que el filtro paso
alto minimiza artefactos de acoplamiento superficial entre el electrodo y la epidermis del
cuero cabelludo en la zona de disposición de los electrodos.
3.2. Muestreo, cuantificación y codificación de la señal

EEG.
Para poder identificar los patrones de señal electroencefalográfica, asociados las a
actividades cognitivas, es necesario proceder a la digitalización y caracterización de la
señal analógica previamente capturada, amplificada y filtrada.
El proceso de digitalización comprende tanto el muestreo, como la cuantificación y la
codificación de la señal, para lo que se emplea una tarjeta de adquisición de datos.
El teorema de Nyquist relativo a muestreo de señal indica que, para evitar el efecto
de ’aliasing’ y poder recuperar la forma de la señal original a partir de las muestras
tomadas, el muestreo debe realizarse a una frecuencia superior al doble de la componente
frecuencial de la señal más alta [Proakis 97], [Areny 93], [Oppenheim 96], teniendo en
cuenta que la señal electroencefalográfica tras el filtrado analógico se convierte en señal
de banda limitada, con componentes frecuenciales comprendidas entre 0,4Hz y 60Hz, el
l´ımite de frecuencia inferior para el muestreo es de 120Hz, en los experimentos descritos en
el cap´ıtulo 5 se emplea una frecuencia de muestreo Fs = 384Hz con la finalidad operativa
de proporcionar tres bloques independientes de 128 muestras cada uno, por cada segundo.
Cada uno de estos bloques constituye una ventana de análisis que, tras su caracterización,
procederá a ser clasificada.
Mediante el proceso de cuantificación se determina el valor de la amplitud de la señal
en cada instante de muestreo. Un convertidor analógico / digital de 12 bits de resolución,
embebido en la tarjeta de adquisición, se encarga de realizar dicha cuantificación, siendo
el rango del margen máximo de excursión de señal considerado de 10V pp, por lo que el
error de cuantificacion obtenido es igual o inferior a: s = 10V pp = 2, 44mV
212
Por último mediante la codificación, se representa en formato binario con complemento a
dos el valor de salida del cuantificador.
3.3. Normalización y ventaneado.

Con la finalidad de poder analizar y comparar registros de señales de sesiones diferentes
es necesario proceder a la normalización de las muestras, evitando de este modo que
la variación de la impedancia de los electrodos diera lugar a resultados de clasificación
erróneos.
El proceso de normalización de las muestras que componen cada ventana de análisis
consiste en la substracción del valor medio y la división entre el valor de desviación tı́pica,
obteniéndose de este modo por el teorema central del lı́mite [Peña Sánchez 86], un conjunto
de muestras que se aproximan a una distribución normal de valor medio nulo y desviación
t´ıpica la unidad.
ΣN
x
μ = i=1 i ; σ2 = (x − μ) ; xJ = x − μ
2
(3.1)
N N σ
3.3 Normalización y ventaneado. 61
Por otro lado, la consideración de un bloque de 128 muestras consecutivas de señal es

equivalente a contemplar la señal original, de duración ilimitada, a través de una ventana
de extensión semejante a la de la ventana de análisis, véase la figura 3.4
y(t) Señal original.
t
Ventana.
Señal ventaneada.
Figura 3.4: Procedimiento de ventaneado de la señal.

Esta operación es equivalente a la convolución en el espacio frecuencial de la
transformadas de la señal electroencefalográfica original y la ventana de preprocesamiento
empleada [Oppenheim 96], [Proakis 97].
Como la caracterización de la señal electroencefalográfica se realiza en el domino
frecuencial, es preciso analizar la influencia que dicha convolución tiene sobre la
transformada en frecuencia de la señal, ya que como caracteriza el efecto de derrame en
frecuencia [Oppenheim 96], [Proakis 97], cuando una señal formada por componentes de
baja frecuencia se convoluciona con una ventana temporal de bordes afilados, se da lugar a
que en la transformada en frecuencia de la señal resultante aparezcan componentes
frecuenciales mayores a las existentes en la señal original, causadas por los lóbulos
secundarios de la transformada de la señal de la ventana de preprocesamiento empleada,
véase figura 3.8.
Por tal motivo en la bater´ıa de experimentos realizados en el desarrollo de esta tesis
se consideran los tipos de ventanas descritos en la tabla 3.1, cuyas representaciones
temporales y frecuenciales se muestran en las figuras 3.5 a 3.7 2.
2
M : longitud en número de muestras de la ventana de procesamiento.
Io : función de Bessel modificada de primera clase de orden cero.
α : número real arbitrario que determina la forma de la ventana. Por defecto α = 0,5.
Secuencia temporal: h(n), 0 ≤ n ≤ M − 1.
Ventana rectangular. h(n) = 1.
2|n− M−1
2 |
Ventana triangular o de Bartlett. h(n) = 1 − .
M −1
Ventana de Hanning. h(n) = 12(1 − cos( M2πn

−1 ))
.
Ventana de Hamming. h(n) = 0,54 − 0,46cos(M2πn

−1
).
Ventana de Blackman. h(n) = 0 ,42 − 0,5cos( M2πn 4πn

−1 )+ 0,08cos( M −1 ).
» q –
I oα ( 2 ) −(n− 2 )
M−1 2 M−1 2
Ventana de Kaiser. h(n) = Io[α( M−1

)]
.
2
Σ Σ
Ventana de Tukey. h(n) = 1
1 + cos( n−(1+α)(M −1)/2 π)
2 (1−α)(M −1)/2
α(M −1)
2 ≤ |n − M2−1 | ≤ M −1
2 .
Tabla 3.1: Tipos de ventanas de preprocesamiento considerados.
Figura 3.5: Ventanas de preprocesamiento Rectangular y Triangular.

3.3 Normalización y ventaneado. 63
Figura 3.6: Ventanas de preprocesamiento: Blackman, Hamming y Hanning.
Figura 3.7: Ventanas de preprocesamiento: Kaiser y Tukey.
Figura 3.8: Efecto de derrame frecuencial.

3.4. Transformación de la señal del espacio temporal al

espacio frecuencial.
Tal y como se ha indicado en la sección 2.2.1.3 las caracterı́sticas intrı́nsecas de la
señal electroencefalográfica como son su baja amplitud, escasa discriminación espacial,
alta sensibilidad frente a ruidos tanto de carácter externo como interno, no permiten que
mediante la caracterización temporal de la misma se pueda discriminar más allá del estado
general en el que se encuentra el cerebro, y aun en estos estados se han terminado por
identificar a través de componentes frecuenciales de la señal [Jessell 91].
As´ı pues, para poder distinguir entre los diferentes tipos de actividades mentales que
se proponen como medio de interfaz cognitivo de un dispositivo ICC es necesario realizar
una caracterización frecuencial de las mismas [Rubio 00], [Bronzino 95b], [Barreno 97],
[Baker 89]. Por esta razón, cada ventana de análisis de 27 muestras de señal adquiridas
en el tiempo temporal se transforma al dominio frecuencial, para lo que se aplica la
Transformada de Fourier, ec.3.2, implementada por medio del algoritmo de transformada
rápida de Fourier (FFT), ec.3.3.
∫ +inf
( ) −j2πkF to (3.2)
X (F) = xte dt
−inf
Considerando que el muestreo se realiza a una frecuencia de 384 Hz y haciendo la

suposición de señal periódica, la ecuacion anterior se puede expresar como:
N −1
1 Σ
c =
k x(n)e−j2πkn/N (3.3)
N n=0
Los coeficientes de Fourier, ck , proporcionan la descripción de x(n) en el dominio de la

frecuencia, representando la amplitud y la fase asociada a cada componente frecuencial.
Considerando que cada bloque dispone de 128 muestras, y que la frecuencia de muestreo
es de Fs = 384Hz, la resolución frecuencial obtenida será de: Δf = 384Hz128 = 3Hz.
Debido a que la información más relevante se encuentra en la amplitud de las
componentes frecuenciales, en los experimentos descritos en el cap´ıtulo 5 no se considera
la información relativa al ángulo de fase de dichas componentes frecuenciales, por lo
que la atención se centra en la estimación espectral de potencia de cada una de las
ventanas de análisis consideradas. Procedimiento semejante se realiza en los trabajos de
S.J. Roberts y W.D. Penny [Penny 00], o C. Neuper [Pfurtscheller 00]. Estudios realizados
por el equipo de Dr. G. Pfurtscheller de la Universidad de Graz (Austria) han demostrado
que en sistemas con un mayor número de electrodos el análisis de la diferencia de fase
entre los mismos permite una mejor identificación de los patrones cognitivos empleados
[Blankertz 04], [Scherer 04].
Por otro lado, teniendo en cuenta las propiedades de la Transformada de Fourier y que
la señal electroencefalográfica en el dominio temporal sólo tiene componentes reales, en el
espectrograma se produce el efecto de reflexión en el valor de la frecuencia de Nyquist, por
lo que la información relevante de la señal se puede encontrar analizando sólo la primera
mitad de las componentes frecuenciales.
3.5 Obtención del vector de caracterı́sticas. 65
3.5. Obtención del vector de caracterı́sticas.

Como se ha indicado con anterioridad, cada ventana de análisis, N = 128 muestras,
queda descrita por su vector de caracter´ısticas. En todos los experimentos descritos en
el cap´ıtulo 5, este vector se genera a partir del valor medio de potencia de las bandas
frecuenciales consideradas según la tabla 3.2.3
Este método de obtención de caracterı́sticas tiene presente que el rango de frecuencias
más común en cerebros humanos sanos se da de los 6 a los 40 Hz, por lo que se consideran
todas aquellas componentes frecuenciales entre 6 y 38 Hz.
Índice FFT. Frecuencia. Denominación. Por otro lado, el número de

1 0-2 No considerada. caracter´ısticas se establece en seis,
2 3-5 No considerada. con la finalidad de poder comparar
3 6-8 θ. los resultados obtenidos con los
presentados en estudios semejantes
4 9 - 11 α1.
por otros grupos de investigación
5 12 - 14 α2.
[Penny 00], [Pfurtscheller 00].
6-7 15 - 20 β1.
8 - 10 21 - 29 β2.
11 - 13 30 - 38 β3.
14 - 64 39 - 192 No considerada.
Tabla 3.2: Determinación del vector de caracterı́sticas.
3.6. Detección de artefactos.

En análisis y procesamiento de señal se entiende por artefacto a todo aquel efecto que,
siendo externo a la fuente originaria de la señal, causa variaciones indeseadas en la misma,
pudiendo llegar a corromperla [Proakis 97].
Las fuentes de artefactos en procesamiento de señal electroencefalográfica pueden ser
tanto externas como internas al sistema de adquisición. Fuentes externas son por ejemplo,
el caso de ruido eléctrico inducido por perturbaciones electromagnéticas provocadas por
equipos electrónicos externos, o perturbaciones en la tension de alimentación del conversor
analógico / digital causada por fluctuaciones en la red de suministro eléctrico. Fuentes
internas de artefactos son variaciones de la señal provocadas por actividad mioeléctrica
en la zona de colocación de los electrodos, o variaciones provocadas por la variación de la
impedancia en la interfase del electrodo con la piel por leve desplazamiento relativo entre
los mismos [Areny 93].
Tal y como se indica en al comienzo de este cap´ıtulo, en los experimentos descritos en el
capı́tulo 5, uno de los canales de señal se emplea para adquirir la señal en la comisura del
ojo izquierdo, con la finalidad de detectar si la señal electroencefalográfica registrada en
3
La denominación de las bandas frecuenciales se basa en el sistema estándar neurológico.
los otros dos canales ha podido ser modificada por la actividad electromiográfica debida a
movimientos de los ojos. Ası́ mismo con independencia del análisis de la actividad ocular,
la propia señal electroencefalográfica es sometida a un proceso de detección de artefactos,
en donde se considera que la ventana de análisis en consideración tiene artefactos si
la diferencia en el valor de amplitud entre una muestra y su inmediata anterior es nula o
excede en dos veces el valor de desviación tı́pica de dicha ventana de análisis. Este
procedimiento es similar a la técnica estadı́stica de ’Bootstraping’ empleada en la
identificación y extracción de muestras anómalas del conjunto de muestras bajo estudio
[McLachlan 04], [Peña Sánchez 86].
Si el número de veces que se detectan artefactos en una ventana de análisis es superior a
tres, dicha ventana no se considera como válida para la posterior fase de clasificación. Para
evitar que dicha ventana pueda modificar los resultados obtenidos del resto de ventanas de
análisis de la sesión experimental considerada, su vector de caracterı́sticas es sustituido
por el valor medio del resto de vectores de caracterı́sticas obtenidos de ventanas de análisis
válidas de dicha sesión experimental. Una posible alternativa que causarı́a un menor
impacto podrı́a ser la sustitución del vector de caracterı́sticas de la ventana de análisis
con artefactos por la media de los vectores de caracter´ısticas asociados a las ventanas de
análisis inmediatamente anterior y posterior.
Actualmente en el estudio de la detección y clasificacion de patrones cerebrales
asociados a enfermedades nerviosas (como por ejemplo la epilepsia), basado en el empleo
de EEG, se han propuesto algoritmos que permiten la detección, identificación y
supresión de artefactos, sin embargo estos algoritmos requieren disponer de la señal
electroencefalográfica completa, lo que les hace inviables para su uso en aplicaciones On-
Line con un número reducido de muestras [Tomé 07].
Capı́tulo 4
Tipologı́a de clasificadores.
En este capı́tulo se describen las diferentes técnicas de clasificación empleadas para

distinguir los registros de señal EEG, los cuales han sido adquiridos cuando el sujeto realiza
las actividades cognitivas propuestas en los experimentos del cap´ıtulo 5, los resultados y
conclusiones obtenidas de su aplicación se presentan en el capı́tulo 6.
Las técnicas utilizadas se enumeran a continuación, presentándose según su orden de
aparición cronológica y por complejidad creciente, llegándose ası́ para este capı́tulo al
siguiente listado de contenidos:
1. Técnicas estadı́sticas.
Comparación de poblaciones.
Análisis de Discriminantes Lineales.
2. Redes neuronales.
Perceptron multicapa: MLP.
Funciones de base radial: RBF.
Red neuronal probabil´ıstica: PNN.
3. Modelos ocultos de Markov: HMM.
4. Máquina de soporte de vectores: SVM.
Las técnicas estadı́sticas permiten fijar el marco con el que realizar el análisis de
la capacidad de discriminación entre las poblaciones de muestras electroencefalográficas
de actividad cerebral mediante las pruebas bilaterales de comparación de poblaciones;
mientras que por su parte mediante la técnica de Análisis de Discriminantes Lineales
se define la metodologı́a a emplear para la reducción de la dimensión del espacio de
caracterı́sticas original a través de la combinación lineal de las mismas.
Tras presentar las técnicas empleadas para el análisis de la capacidad de discriminación
se procede a describir los clasificadores empleados basados en diferentes tipos de tecnolog´ıas
como son: redes neuronales de aprendizaje supervisado (MLP, RBF y PNN), modelos
ocultos de Markov (HMM), y máquinas de soporte de vectores (SVM).
68 Tipologı́a de clasiftcadores.
4.1. Métodos estadı́sticos : Comparación de dos poblacio-

nes.
4.1.1. Introducción.
La Estadı́stica es la rama de las Matemáticas que utiliza grandes conjuntos de datos
numéricos para obtener inferencias basadas en el cálculo de probabilidades. En Estadı́stica
a la teorı́a encargada de contrastar hipótesis, dentro de un marco en el que existe
incertidumbre o variabilidad en el valor númerico de magnitud, se la denomina contraste
de hipótesis; a través de ésta se comparan las predicciones generadas por las hipótesis
con los datos observados en la realidad, si la comparación queda dentro de un margen
de error admisible la hipótesis propuesta, H0 , se mantiene como método explicativo del
proceso real que genera las observaciones, si por el contrario, la discrepancia entre los
datos observados y los predichos por H0 excede el margen de error admisible, la hipótesis
propuesta debe ser rechazada en favor de una hipótesis alternativa, H1 , por lo general más
compleja, que explique mejor las observaciones. Ası́ pues, el contraste de hipótesis es un
proceso iterativo, en el que la hipótesis propuesta, H0 , nunca se considera completamente
probada, sino que es aceptada o rechazada como válida en función de los datos observados.
Si junto con el contraste hipótesis se considera la cuantificación del efecto del mismo, y en
especial de sus errores, se llega a la teorı́a de la decisión.
Proceso real Observaciones

Ho explica el proceso
Aceptar Si
Comparacion. real dentro del margen
Ho?
de error aceptable.
No
Hipotesis inicial Ho Predicciones
Calcular nivel
Funcion de discrepancia :
critico p del
^
d(  o ;  ) contraste
Nivel de significacion : 
Buscar hipotesis
alternativa H1
Figura 4.1: Proceso contraste de hipótesis.
La hipótesis H0 se elige deacuerdo a un principio de simplicidad cientı́fica, sólo se debe

rechazar un modelo simple en favor de otro de mayor complejidad cuando la evidencia a
favor del segundo sea más fuerte que la del primero1 , ya que la hipótesis más simple es
más fácil de contrastar empı́ricamente y encontrar sus deficiencias, a la vez que permite
aprender de las observaciones con mayor seguridad y rapidez.
Los tipos de hipótesis estadı́sticas o suposiciones que determinan, parcial o totalmente,
la distribución de probabilidad de una o varias variables aleatorias se pueden clasificar
según que:
1
También conocido como principio de la Navaja de Ockham: “en igualdad de condiciones la solución
más sencilla es probablemente la correcta”.
4.1 Métodos estadı́sticos : Comparación de dos poblaciones. 69
Especifiquen un valor concreto o un intervalo para los parámetros de una

variable. Para lo que se construirán intervalos de confianza, teniendo una respuesta
satisfactoria en términos de estimación.
Establezcan la igualdad de las distribuciones de dos o más variables2 . Por lo
general se requiere de un diseño experimental que asegure la homogeneidad de las
comparaciones.
Determinen la forma de la distribución de una variable. A través de un contraste no
paramétrico que debe realizarse dentro de la fase de validacion del modelo.
La metodologı́a del contraste de hipótesis fue desarrollada por R.A.Fisher, J.Neyman

y E.S.Pearson entre 1920 y 1933, [Peña Sánchez 86]. Las etapas de dicha metodologı́a se
sintetizan en:
1. Definición de la hipótesis a contrastar H0 , y la hipótesis alternativa H1 . Los casos
más importantes de contrastes paramétricos son:
H0 simple (θ = θ0) y H1 bilateral (θ ƒ= θ0).
H0 compuesta (θ ≤ θ 0 ) y H1 unilateral (θ > θ0).
2. Definición de la medida de discrepancia entre los datos observados de la realidad,
X, y la hipótesis H0 . Para contrastes paramétricos la discrepancia puede expresarse
como una función del valor del parámetro especificado por H0 y el valor estimado
de los datos observados: { θ̂, d(θ0 ; θ̂)} . Cuando H0 es aceptada, la discrepancia ha de
tener una distribución conocida, de modo que sea posible asociar una discrepancia
grande a una probabilidad de ocurrencia pequeña.
3. Definir la región de discrepancia entre θ̂ y θ0 bajo la que se considera aceptable H0
o atribuible al azar, y aquella bajo la que se considera inadmisible.
4. Proceder a la adquisición de muestras del proceso real, calcular el estimador θ̂ y la
discrepancia d(θ0 ; θ̂). Si ésta es pequeña, aceptar H0 ; en caso contrario rechazar H0
y aceptar H1.
La hipótesis alternativa H1 influye en la forma en la que se mide la discrepancia, en
contrastes bilaterales el signo de la desviación entre θ̂ y θ0 es irrelavante, por lo que se
suelen considerar medidas de la forma:
θ − θ̂M V
d = 0 (4.1)
1 | |
σ̂M V
En donde θ̂M V es el estimador de máxima verosimilitud de θ y σ̂M V su desviación tı́pica,

obteniéndose ası́ para muestras grandes una distribución conocida:
P (d1 ≤ a|H0) = P (|z|≤ a) = P (−a ≤ z ≤ a) (4.2)
en donde z se distribuye según una normal N (0, 1).

2
Cada variable queda representada estadı́sticamente por una población de muestras.
Si por el contrario el contraste es unilateral el signo de la desviación si que es

importante, lo que conduce a medidas del tipo:
.
0 si θ̂M V ≤ θ0
−
d2 =
θ̂M V θ0 si θ̂M V ≥ θ0 (4.3)
σ̂M V
en donde para d2 positiva las probabilidades se calculan de nuevo con la distribución
normal estándar.
La realización de un contraste implica dividir el rango de discrepancias que pueden
observarse cuando H0 es acaptada en dos regiones, región de aceptación de H0 y región
de rechazo, de modo tal que, siempre y cuando H0 sea cierta, discrepancias grandes tienen
asociado niveles de probabilidad de ocurrir pequeños, α = {0,05; 0,01; 0,001}; esta
cantidad a su vez puede interpretarse como la probabilidad asumible de rechazar H0
cuando ésta es cierta, a la cual también se la denomina nivel de significación α, o Error
Tipo I.
Nivel de significación (α) = P (rechazar H0 |H0 es cierta)
Con la determinación del nivel de significación y conocida la distribución de la función

de medida de discrepancia d(θ0 ; θ̂) cuando H0 es aceptada, las regiones de rechazo y
aceptación quedan fijadas.
.
d > dc Región de rechazo.
P (d > dc|H0 es cierta) = α ⇒
d ≤ dc Región de aceptación.
La región de rechazo será d > dc , ya que discrepancias mayores de dc tienen una
probabilidad de ocurrir menor que α, si H0 es considerada cierta, quedando como zona de
aceptación la complementaria d ≤ dc .
Debido a que la determinación de un nivel de significación α puede considerarse
ciertamente arbitrario, y que con el resultado sólo del test no es posible diferenciar el
grado de evidencia que, con las observaciones obtenidas, se consigue a favor o en contra
de H0, es decir la significatividad estad´ıstica del contraste, es preferible utilizar el Nivel
Crı́tico p del contraste, como la probabilidad de obtener una discrepancia mayor o igual
que la observada en la muestra, cuando H0 es cierta.
p = P (d ≥ d̂|H0 ) (4.4)
Hay que destacar que el valor de p no se fija a priori, sino que se fija a partir de las
observaciones realizadas. Cuanto menor sea p, menor será la credibilidad de H0 . Ası́ pues la
aceptación o rechazo de H0 dependerá de:
La opinión a priori que se tenga se su validez.
Las consecuencias de sus errores.
La evidencia aportada por la muestra.
El nivel de significación se fija en función de los dos primeros, mientras que el nivel crı́tico
pone de manifiesto el tercero.
A parte del nivel de significación, o Error Tipo I, existe el complementario, Error Tipo
II, o la probabilidad de aceptar H0 cuando ésta es falsa:
β(θ) = P (aceptar H0|θ)

denominada función o curva caracterı́stica del contraste. En el caso de H0 se verifica que:
β(θ0) = P (aceptar H0|θ0) = 1 − α

β(θ) contiene la información más relevante del contraste, ya que determina la probabilidad
de aceptar H0 para cada valor del parámetro θ. En su lugar también se emplea la curva de
potencia que indica la probabilidad complementaria de rechazar H0 para cada valor del
parámetro θ.
Potencia(θ) = P (rechazar H0|θ)
Ante dos contrastes que tengan medidas de discrepancia distintas pero con igual nivel
de significación, se escogerá el que tenga menores probabilidades de error tipo II, o lo que es
lo mismo, el que sea más potente.
4.1.2. Descripción del test de contraste de la igualdad de dos

poblaciones.
Como se ha indicado anteriormente, el contraste de igualdad de distribuciones de dos
o más variables es un tipo de contraste de hipótesis en el que se requiere un diseño
experimental, que asegure la homogeneidad de las comparaciones.
La comparación de dos poblaciones son un conjunto de tests, empleados en estadı́stica,
para determinar si existe evidencia que permita afirmar que las observaciones realizadas
provienen de poblaciones diferentes H1; o si por el contrario se debe mantener que los
conjuntos de las diferentes muestras provienen de una misma población H0 .
En caso de rechazo de la hipótesis de partida, es decir existe evidencia de que las
observaciones obtenidas provienen de poblaciones diferentes, es factible plantear tanto la
determinación de la capacidad de discriminación entre dichas poblaciones, ası́ como
plantear un sencillo clasificador que asigne la pertenencia de una nueva observación a la
población que se encuentre más cercana.
Entre los contrastes existentes para la comparación de dos poblaciones los más
importantes son:
1. Comparación de dos poblaciones con medias y varianzas iguales, cuyas muestras se
toman de forma independiente.
2. Comparación de la igualdad de varianza de dos poblaciones.
3. Comparación de la igualdad de la media de dos poblaciones con varianzas diferentes,
cuyas muestras se toman de forma independiente.
Para los siguientes apartados se emplearán las siguientes definiciones:

n1 : tamaño de muestras de la primera población.
n2 : tamaño de muestras de la segunda población.
σ1 : varianza de la primera población.
σ2 : varianza de la segunda población.
Sˆ1 : estimación de la varianza de la primera población.
Sˆ2 : estimación de la varianza de la segunda población.
F : distribución de Fisher.
T : distribución de Student.
4.1.2.1. Comparación de la igualdad de la media de dos poblaciones

homocedásticas y muestras independientes.
La hipótesis nula, H0 , mantiene la igualdad del valor de la media de ambas poblaciones,
mientras que la hipótesis alternativa, H1 , indica su desigualdad de forma bilateral.
Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 ƒ= Δ (4.5)
La varianza de ambas poblaciones es igual, poblaciones homocedásticas, aunque

desconocida.
(X̄1 − X̄2 ) − (μ1 − μ2 ) (4.6)
TExp =
.
ˆ n11 + n12 )
S(
En donde Ŝ es la pseudo-varianza conjunta de ambas poblaciones Sˆ1 y Sˆ2 .
(n1 − 1) ∗ Sˆ1 + (n2 − 1) ∗ Sˆ2

Ŝ = (4.7)
n1 + n2 − 2
La región de aceptación de Ho es:
TT eo = t(n1+n2−2,1− α2) (4.8)
Si |TExp | ≤ TT eo entonces Ho es aceptada, en caso contrario se aceptará H1 , quedando

Ho rechazada.
4.1.2.2. Comparación de la igualdad de varianza de dos poblaciones.

Para comparar que dos poblaciones normales tienen varianzas proporcionales se
plantean las siguientes hipótesis.
σ σ
H : 1 = R vs. H : 1 = R (4.9)
o 1 ƒ
σ2 σ2
La igualdad de varianzas viene dada cuando R = 1.
Considerando que:
(n1 − 1)Sˆ1 (n2 − 1)Sˆ2 (4.10)

~ χ2n1−1 ~ χ2n2−1
σ1 σ2
1 (n1 −1)Sˆ1
n1−1 σ1 σ2 Sˆ1 ~ Fn −1,n −1 (4.11)
= 1 2
1 (n2 −1)Sˆ2 σ1 Sˆ2
n2−1 σ2
De donde bajo la consideración de aceptación de H0 :
1 Sˆ1
FExp = ~ Fn1−1,n2−1 (4.12)
R S2ˆ
La zona de aceptación de H0 es:
α
ateo = F (1 − )n1−1,n2−1 (4.13)
2
α
bteo = F (1 − )n1−1,n2−1 (4.14)
2
ateo ≤ FExp ≤ bteo (4.15)
4.1.2.3. Comparación de la igualdad de la media de dos poblaciones

heterocedásticas y muestras independientes.
Tanto la hipótesis nula, H0 , como la alternativa, H1 , son equivalentes a las del apartado
4.1.2.1.
Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 ƒ= Δ (4.16)
Aunque en este caso, tras realizar el test de comparación de varianzas, la igualdad de la
misma en ambas poblaciones debe ser descartada.
(X̄1 − X̄2 ) − (μ1 − μ2 ) (4.17)
TExp = . ~tf
Sˆ1 Sˆ2
n1 + n 2
En donde f es el número de grados de libertad calculados con la fórmula de Welch

[Peña Sánchez 86]:
ˆ Sˆ2 )2
( Sn11 + n2
f = −2 (4.18)
1 ˆ 1 ˆ
( S1 )2 + ( S2 ) 2
n1+1 n1 n2+1 n2
En este caso la zona de aceptación de Ho es:
TT eo = t(f,1− 2α ) (4.19)
Si |TExp | ≤ TT eo entonces Ho es aceptada, en caso contrario se asume que las poblaciones

tienen diferente valor medio.
4.1.3. Procedimiento operacional.

Como se ha indicado anteriormente, el contraste de dos poblaciones permite concluir
si hay evidencia estadı́stica de diferencia entre dichas poblaciones a través del nivel de
significación, α, y las regiones de rechazo y aceptacion de H0 , y en caso de existir tal
diferencia evaluar como es de significativa dicha evidencia a través del nivel crı́tico p del
contraste.
Está tecń ica ha sido empleada en las investigaciones llevadas a cabo, como paso
prelimiar al desarrollo de algoritmos de clasificación, con la finalidad de determinar si, en
los registros electroencefalográficos llevados a cabo durante el desarrollo de las actividades
cognitivas propuestas, existe evidencia estad´ıstica que permita concluir que son diferentes,
y por tanto es factible la realización de un clasificador.
Hasta donde el autor de la presente tesis tiene conocimiento, diferentes clasificadores
han sido propuestos por los diferentes grupos que investigan sobre BCI, pero hasta
[Martı́nez 06] no ha sido publicado ningún estudio sobre la capacidad de discriminación
de las actividades cognitivas desde un punto de vista estad´ıstico.
Por otro lado, a través del nivel crı́tico p del contraste es posible determinar que
caracterı́sticas, de las extraı́das de cada segmento de análisis, presentan mejor capacidad
de discriminación, o que tipo de técnica de preprocesamiento permite resaltar mejor las
diferencias entre las actividades cognitivas propuestas.
As´ı pues, el procedimiento operacional seguido, cuyos resultados se recogen en la
sección 6.1, ha sido:
1. Definición del protocolo experimental, recogido en el apartado 5.6.1, y que propone

como actividades cognitivas:
Cálculo matemático.
Imaginación de movimiento.
Relax.
2. Desarrollo de los experimentos y registro de la actividad electroencefalográfica.
3. Preprocesamiento “Off-Line”, descomponiendo el registro en ventanas de análisis

de duración t = 1/3s, sin solapamiento entre las mismas. A cada una de estas
ventanas de análisis se le aplica las diferentes ventanas de procesamiento descritas
en el apartado 3.3, extrayendo por cada ventana de análisis preprocesada un vector
de caracter´ısticas de seis componentes, tal y como se indica en la tabla 4.1.
4. Descripción estadı́stica de las muestras de caracterı́sticas de cada población, asociada

a cada una de las actividades cognitivas consideradas. De este modo, por cada
actividad cognitiva y ventana de análisis se obtiene un vector de media y varianza
de caracterı́sticas de dimensión seis.
Componente Denominación. Banda de frecuencia considerada (Hz).

1 θ. 6 -8
2 α1. 9 - 11
3 α2. 12 - 14
4 β1. 15 - 20
5 β2. 21 - 29
6 β3. 30 - 38
Tabla 4.1: Vector de caracterı́sticas.
5. Realización del test de contraste de varianzas, realizando una comparación dos a dos
las poblaciones de los vectores de caracter´ısticas, con la finalidad de determinar si las
poblaciones consideradas son homocedásticas o heterocedásticas.
6. Realización del test de contraste de la igualdad de dos poblaciones para cada una de
las parejas de poblaciones analizadas, teniendo en cuenta el resultado anterior del
contraste de varianza asociado a la pareja de poblaciones considerada.
7. Análisis de los resultados de los tests determinando si, para las caracterı́sticas
consideradas de la pareja de actividades cognitivas analizadas, existe evidencia
estadı́sitica de su diferencia en función del tipo de ventana de filtrado utilizada,
en caso de que la diferencia existiera se determina el nivel cr´ıtico p del contraste con
la finalidad de elegir aquellas componentes del vector de caracter´ısticas que mayor
poder de discriminación presentan.
La figura 4.2 representa el proceso seguido.

En el apartado 5.6.1 se muestra el diagrama de actividad asociado a la implementación
del procedimiento de comparacion de poblaciones. Por su parte en el apartado 6.1, se
presentan analizan y discuten los resultados obtenidos de la aplicación de este
procedimiento, llegándose a las conclusiones de que es posible discriminar entre las
diferentes actividades cognitivas, a la vez que la ventana de procesamiento de Tukey es con
la que mejor capacidad de discriminación se obtiene.
Figura 4.2: Procedimiento operacional.

4.2 Métodos estadı́sticos: Análisis por discriminantes lineales. 77
4.2. Métodos estadı́sticos: Análisis por discriminantes

lineales.
4.2.1. Introducción.
La técnica basada en el Análisis de Discriminantes Lineales3 (LDA), es empleada
tanto en Estad´ıstica como en Inteligencia Artificial bajo los paradigmas de Aprendizaje
Automático4 [Bishop 95] [Rich 94] y Reconocimiento de Patrones [Ripley 96], con la
finalidad de hallar la combinación de caracterı́sticas que separan de forma óptima dos
o más clases de objetos o eventos, realizándose aplicaciones entre otros campos en:
posicionamiento, gestión de producción, investigación de mercados, reconocimiento facial
o mercadotecnia.
Las caracterı́sticas de entrada consideradas, p, son variables continuas, γx ∈ Rp,
mientras que la salida es una variable cualitativa, y ∈ C ⊂ N , [Ripley 96], en caso
de emplear variables de entrada cualitativas esta técnica se convertirı́a en Análisis por
Correspondencia de Discriminantes (DCA)5.
El resultado puede ser empleado bien como clasificador lineal, o bien de forma más
común como técnica para reducir la dimensión del espacio de entrada, antes de proceder
a la clasificación de las muestras [Duda 01], [Cristianini 00], [Nabney 02].
Esta técnica se aproxima a otras técnicas estadı́sticas como: análisis de la varianza6
(ANOVA) [Peña Sánchez 86], análisis mediante técnicas de regresión, análisis por
componentes principales7 (PCA) [Martinez 01], o análisis factorial [Peña Sánchez 86];
ya que todas ellas tienen como factor común la expresión de la variable objetivo, o
dependiente, como combinación de las variables independientes. Sin embargo la técnica
de LDA se diferencia tanto del análisis por regresión como del análisis de la varianza en
que su resultado, al indicar pertenencia de la muestra analizada a una determinada clase,
y∈i, C
es de tipo cualitativo o discreto, en lugar de cuantitativo o continuo. As´ı mismo se
diferencia de la técnica PCA en que LDA modela de forma explı́cita la diferencia entre las
clases de datos, mientras que en PCA tal consideración no es tenida en cuenta. Por último,
LDA se diferencia del análisis factorial en que desde el principio se ha de determinar cuales
son las variables objetivo o de clases, y∈ C i , y cuales las variables independientes γx ∈ R n ,
o caracterı́sticas, por lo tanto no se trata de un método de interdependencia, en donde
una variable independiente puede ser expresada como combinación de la variable objetivo
y del resto de las variables independientes [McLachlan 04], [Friedman 89].
3
En inglés se la denomina “Linear Discriminant Analysis”.
4
En inglés se denomina Machine Learning.
5
En inglés se denomina “Discriminat Correspondence Analysis”.
6
En inglés se denomina “ANalysis Of VAriance”.
7
En inglés se denomina “Principal Component Analysis”
4.2.2. Referencia histórica.

La técnica LDA fue desarrollada por R.A.Fisher, C.Rao y J.G.Bryan, [Ripley 96], como
método de clasificación, a través del cual una nueva observación x podı́a ser asignada a
una de entre dos o más clases C i , constituı́das por conjuntos de observaciones previas a las
que se denomina conjunto de entrenamiento.
R.A.Fisher publica en 1936 el artı́culo titulado: “THE USE of
MULTIPLE MEASUREMENTS iN TAxoNOMIc ProBLEMS” [Fisher 36], a partir del cual
se genera una
familia de métodos de clasificación conocidos como Discriminantes Lineales de Fisher, los
cuales permiten llegar a criterios de clasificación en los que la asignación de una nueva
observación, γx, a una clase concreta, C i , es sólo función de la combinación lineal de la
nueva observación y las muestras ya conocidas del conjunto de entrenamiento, asumiendo
determinadas restricciones como:
Las muestras de cada clase se distribuyen según una función de distribución normal8
Ci ~ N (μi, σi).
Las poblaciones presentan varianzas semejantes9. σ = σi = σj /i ƒ= j

Aunque originalmente R.A.Fisher, en su artı́culo inicial, realiza una descripción
ligeramente diferente, en la que dichas restricciones no son necesarias.
Para el caso de clasificación entre dos clases o binaria, la conclusión es inmediata, sin
embargo para el caso de clasificación múltiple a lo largo del tiempo se han desarrollado
diferentes técnicas que pueden ser empleadas, entre las que destacan uno contra todos y
clasificacion por parejas [Ripley 96].
En el primer caso los puntos de una clase son asignados a un grupo, mientras que todos
los demás, el resto, se asignan a otro; posteriormente se aplica la técnica de
clasificación LDA. En este método de clasificación se emplean tantos clasificadores como
clases consideradas, siendo el resultado final la combinación de los mismos.
En el caso de clasificación por parejas se crea un clasificador por cada pareja de clases,
. Σ
dando lugar a n clasificadores
2
diferentes, al igual que en el caso anterior el resultado final
se genera como combinación de los clasificadores anteriores.
4.2.3. Discriminación lineal clásica.

Sea v una observación para la cual γx es el vector de p caracterı́sticas asociado, en
donde:
v =⇒ x̃ ∈ X ⊂ Rp
Sea X ⊂ Rp el espacio de caracterı́sticas de entrada; K ⊂ N el número de Ci clases
diferentes consideradas, i = {1, 2, ..., K}.
8
Restricción facilmente asumible a través del Teorema Central del Lı́mite. Esta restricción puede ser
comprobada a través del test de Kolmogorov-Smirnof. [Peña Sánchez 86]
9
Esta restricción puede ser comprobada a través del test de homocedasticidad. [Peña Sánchez 86]
Se pueden identificar tres formas distintas en las que la aproximación de una función,
f , puede ser empleada como clasificador.
f
f: p (4.20)
R −→ C ⊂ N
1. Tomando fk (γx) = p(k|γx) = E[I(Y = k|X = γx)]; k = {1, 2, . . . , K} y f (γx) = (fk (x̃)).
El teorema de Bayes selecciona el maximizador de fk (γx), definiendo la clase objetivo,
tk , como el k-ésimo vector unitario. Aplicando que
ǁf (γx) − tK ǁ = −2fk (γx) + 1 + ǁf (γx)ǁ2 (4.21)

es la norma del vector, (f (γx) − tK ), el teorema de Bayes conduce a seleccionar el
patrón más próximo a f (γx), lo que a su vez lleva a diferentes modos de aproximar
f (γx) por f (γx; θ) basándose en elegir θ de modo tal que la predicción del conjunto de
entrenamiento sea tan cercana a las clases objetivo como sea posible.
2. Dietterich y Bakiri [Ripley 96] codifican las clases objetivo tK en el espacioZ =

0, m
{ 1 } , con m > K, de modo tal que las clases queden claramente separadas,
procediendo posteriormente al aprendizaje de la función de clasificación f (γx)
f
f: p = {0, 1}m (4.22)
R −→ Z
El clasificador selecciona la clase objetivo más cercana en Z a la predicción f (x̃) para
una nueva muestra. La codificacion actual se realiza empleando códigos correctores
de error, y la distancia es L∞ . Esta aproximación se puede considerar como el
entrenamiento de un clasificador para m pseudo-clases que posteriormente son
mapeadas a las K clases reales.
3. La aplicación del teorema de Bayes maximiza logP (k| x̃), a la vez que el modelo
logı́stico múltiple es un modelo lineal para estas funciones logarı́tmicas de
probabilidad a posteriori. Variantes con menor fundamento pero ampliamente usadas
son modelos log´ısticos independientes para cada clase, que se comparan contra el
resto o contra las clases de referencia [Ripley 96].
Una aproximación alternativa consiste en asignar las n muestras del conjunto de
entrenamiento a g grupos de observaciones, los cuales a su vez son asignados a las K
clases objetivo.
v =⇒ x̃ p f1 f2
∈X ⊂R −→ G −→ C ⊂ N
Si el clasificador se basa en seleccionar el mejor grupo, se estará empleando
implı́citamente un clasificador basado en estructura de coste que penaliza la elección
incorrecta del grupo más que la clase, ya que aunque se elige la clase que tiene mayor
probabilidad a posteriori, ésta se obtiene como suma de las probabilidades a posteriori de
cada uno de los grupos que la forman.
0
Asumiendo que la función de probabilidad para las observaciones de cada grupo se
distribuyen según una función normal Xj ~ N (μγj , Σ), la aplicación del teorema de Bayes
asigna una nueva observación al grupo para el cual
γ j )Σ−1 (x̃ − γμj )J − 2logπj + Cte

−2logP (j|x̃) = (x̃ − μ (4.23)
sea menor10 . Expandiendo la expresión anterior se obtiene:
−2logP (j|x̃) = −2x̃Σ−1 γμJj + μ

γ Jj Σ−1 γμJj − 2logπj + Cte + x̃Σ−1 x̃J (4.24)
expresión que es lineal en el término γx más un término cuadrático que no depende de

la clase, ya que el objetivo es maximizar P (j| x̃) o lo que es lo mismo minimizar 4.24, se
deberán maximizar igualmente los términos lineales:
LDAj = 2x̃Σ−1 γμJj − γμJj Σ−1 γμJj + 2logπj (4.25)
De este modo el espacio de caracter´ısticas, = p, queda

X pues
R dividido por hiperplanos, o
lo que es lo mismo por discriminantes lineales, con lo que la comparación puede
realizarse en un espacio de dimensión K 1. −El criterio de decisión se convierte en
aplicar un umbral sobre el producto escalar del vector de caracter´ısticas de la nueva
observación y los que representan a las observaciones anteriores.
Para el caso especial de considerarse clasificación binaria, comparando las cantidades
LDA2 con LDA1 se obtendrı́a como función de clasificación LDA2 − LDA1 , eligiendo el
segundo grupo si y solo s´ıel valor obtenido es positivo.
En la práctica, los valores μγj y Σ, son estimaciones obtenidas de las muestras que
forman los conjuntos de entrenamiento, estimadas por m γ j y W , en donde W es la matriz
de covarianza entre grupos, en caso de que la hipótesis de igualdad de varianza entre las
poblaciones fuese errónea se utilizarı́an las varianzas de cada grupo de forma independiente
obteniéndose un clasificador de tipo QDA11 .
4.2.4. Discriminante lineal de Fisher.

Como se ha indicado anteriormente el método LDA es una técnica de preprocesamiento
que encuentra la matriz de transformación W que separa de manera óptima dos o más
clases, es decir considera la maximización de la siguiente ecuación:
W T SB W
J (W ) = (4.26)
W T SW W
10
Al primer término de la derecha de la ecuación se le conoce como distancia de Mahalanobis entre el
vector de caracterı́sticas ẋ y el valor medio del grupo Xj = μ̇j
11
Quadratic Discriminant Analysis
en donde SB es la matriz de dispersión entre clases y Sw es la matriz de dispersión intrı́nseca

a cada clase, la definición de ambas matrices es:
Σ
SB = Nc (μc − x̄)(μc − x̄)T (4.27)
c
ΣΣ
SW = (xi − μc )(xi − μc )T (4.28)
c i∈c
1 Σ
μ = xi (4.29)
c
Nc i∈c
1 Σ 1 Σ
x̄ = x = Ncμc (4.30)
i
N i N c
siendo Nc es el número de muestras para la clase c.
Debido a que J es invariante al escalado de vectores, W → αW , es posible elegir una
W tal que el denominador sea W T SW W = 1. Por lo que el problema de maximizar J se
transforma en el siguiente problema de optimización considerando restricciones:
1 T
minW − W SB W (4.31)
2
s.t. W T SW W = 1 (4.32)
el cual corresponde con la lagrangiana12 :
1
1 W + λ(W T S
L P = − W T SB W W − 1) (4.33)
2 2
Con la siguiente solución:
SBW = λSW W ⇒ S −W1 S B W = λW (4.34)

Donde se puede observar que se trata de un problema de resolución de autosistemas
generalizados, utilizando el hecho de que la matriz SB es simétrica positiva, puede
ser escrita como S 2 S 2 , en donde S 2 se construye a partir de su descomposición por
1 1 1
BB B
1 1
autovalores como: SB = U ΛUT → SB = U Λ 2 U T . De donde definiendo V = S B2 W se
1
2
obtiene:
1 1
S 2 S−1 S 2 V = λV (4.35)
B W B
1 1
que es un problema de un autosistema con una matriz simétrica positiva S 2 S −1 S 2 , con
B W B
soluciones λk como autovalor y Vk como autovector, dando lugar a la solución:
− 1
W = S B 2V (4.36)
Introduciendo esta solución en la función objetivo J (W ) 4.26, se encuentra que la solución

buscada que maximiza dicha función objetivo es la que tiene los autovalores mayores.
12
En la cual se ha introducido por conveniencia el factor 1/2, sin que ello de lugar a una pérdida de
generalidad
4.2.5. Procedimiento operacional.

En el presente estudio la técnica de Análisis Discriminante Lineal no ha sido aplicada
desde el punto de vista de clasificador, sino como método para reducir la dimensión
del vector de caracterı́sticas de entrada y separar linealmente de forma óptima las
poblaciones de muestras de señal electroencefalográfica asociadas a cada actividad mental,
para posteriormente proceder a evaluar la capacidad de discriminación obtenida, cuyos
resultados se recogen en el capı́tulo 6. A continuación se describe el procedimiento
operacional llevado a cabo para implementar el método LDA descrito con anterioridad.
1. Obtención de muestras de cada actividad mental.

Xa Cálculo matemático.
Xb Imaginación de movimiento.
Xc Relajación.
2. Definición estadı́stica de todas las poblaciones.
Xa μ¯a = E[xa ] Sa = E[(xa − μ¯a)(xa − μ¯a )T ] (4.37)

T
Xb μ̄b = E[xb ] Sb = E[(xb − μ¯b )(xb − μ¯b ) ] (4.38)
T
Xc μ¯c = E[xc ] Sc = E[(xa − μ¯c )(xc − μ¯c ) ] (4.39)
3. Cálculo de las matrices de dispersión entre clases (Between) e intrı́nsecas a cada

clase (Within),(eq. 4.27 & 4.28).
4. Aplicación del criterio de optimización LDA (eq.4.35).
5. Cálculo de la matriz de transformación, W (eq.4.36), formada por los auto-vectores,

Vk, cuyos autovalores con valor absoluto superior a 1∗ 10−4 ordenados de mayor a
menor.
6. Transformación del conjunto de muestras.
Xa ⇒ XaJ = W T ∗ Xa (4.40)
Xb ⇒ Xb = W T ∗ Xb
J
(4.41)
Xc ⇒ XcJ = W T ∗ Xc (4.42)
En el apartado 5.6.2 se muestra el diagrama de actividad asociado a la implementación

del procedimiento de Análisis por Discriminantes Lineales. Por su parte en el apartado
6.2, se presentan analizan y discuten los resultados obtenidos de la aplicación de este
procedimiento, llegándose entre otras a la conclusión de que es posible reducir la dimensión
del espacio de caracterı́sticas, a la vez que se mantiene la capacidad de discriminación entre
las diferentes actividades cognitivas.
4.3 Clasiftcadores basados en redes neuronales. 83
4.3. Clasificadores basados en redes neuronales.

Tras la descripción de las pruebas de contraste de igualdad de poblaciones, empleadas
para determinar si existe evidencia de diferencia estad´ıstica entre las poblaciones de
muestras electroencefalográficas, adquiridas cuando el usuario lleva a cabo las actividades
cognitivas propuestas, y describir la técnica de Análisis Lineal de Discriminantes con la que
comprobar la posibilidad de reducir la dimensión del espacio original de caracterı́sticas, sin
que por ello se pierda la capacidad de discriminación de dichas actividades cognitivas; en
esta sección se describen los diferentes tipos de clasificadores basados en redes neuronales
que han sido considerados en la presente tesis:
Perceptrón multicapa.(MLP).
Red neuronal con funciones de base radial (RBF).
Redes Neuronales Probabil´ısticas (PNN).
De modo general, con las muestras adquiridas en los diferentes experimentos, para
cada uno de los clasificadores desarrollados se realizan las siguientes operaciones:
1. Lectura de las muestras asociadas a cada una de las diferentes actividades mentales:
Cálculo matemático.
Imaginación de movimiento.
Relax.
2. Realización de ventanas de análisis de 128 muestras.
3. Detección de artefactos. Se considera artefacto cuando una muestra se diferencia de

la anterior en más de tres desviaciones tı́picas del conjunto de muestras de la ventana
de análisis.
4. Normalización de la señal.
5. Aplicación de la ventana de procesamiento. Las ventanas consideradas son 13 :
Rectangular.
Triangular.
Blackman.
Hamming.
Hanning.
Kaiser.
Tukey.
13
Véase el apartado 3.3
6. Aplicación de un filtro Butterworth pasa banda con frecuencias de corte inferior de

fi = 4Hz y frecuencia de corte superior fs = 40Hz.
7. Obtención de la estimación espectral de potencia utilizando la FFT.
8. Cálculo del vector de caracterı́sticas, obtenido para cada una de las ventas de análisis
de 128 muestras de la señal.
9. En un nuevo bucle, y tras el procesamiento de las 21 ventanas de análisis que

se obtienen por sesión, véase 3.5, se identifican aquellas ventanas que presentan
artefactos, reemplazándose su vector de caracterı́sticas por el valor medio del resto
de las ventanas de análisis sin artefactos.
10. Agrupación de los resultados para cada canal: C3’-C3” y C4’-C4”.
Cada clasificador aplica el siguiente procedimiento al conjunto de vectores de

caracter´ısticas extra´ıdo con anterioridad:
1. Determinación de los conjuntos de datos empleados para aprendizaje(50 %), prueba

(25 %) y validación (25 %).
2. Obtención de la matriz de normalización para el conjunto de datos de aprendizaje.
3. Aplicación del Análisis de Componentes Principales al conjunto de datos de

aprendizaje para reducir la dimensión del espacio de entrada14 .
4. Entrenamiento de la red neuronal con el conjunto de datos de aprendizaje.
5. Aplicación del conjunto de datos de prueba a la red neuronal, si el error de test

es inferior al error objetivo el proceso de aprendizaje se considera válido, en caso
contrario se procede a entrenar nuevamente la red neuronal.
6. Aplicación del conjunto de datos de validación a la red neuronal con el objetivo de

estimar el error de ejecución.
7. Aplicación de la red neuronal al conjunto de datos y registro de resultados.
8. Obtención de las matrices de confusión asociadas a cada experimento.
14
La aplicación de la técnica de Análisis de Discriminantes Lineales permite concluir que es factible
realizar una reducción del espacio de original de caracterı́sticas de entrada sin perder la capacidad de
discriminación, sin embargo los resultados obtenidos de su aplicación indican que de las dos posibles
proyecciones ( téngase en cuenta que se consideran tres actividades cognitivas) sólo una se muestra
significativa, por lo que como técnica alternativa se ha optado por procesar los vectores de caracterı́sticas a
través de la técnica de Análisis de Componentes Principales, manteniendo el 90 % de la variabilidad de los
datos como valor explicativo, mientras que el 10 % restante se atribuye a ruido.
4.3.1. Clasificador Perceptrón Multicapa MLP.

4.3.1.1. Deftnición.
Las redes neuronales de tipo perceptrón multicapa, también denominadas redes de
propagación hacia delante 15 [Ripley 96], son redes compuestas por dos o más capas de
unidades básicas de computación o neuronas, véase figura 4.3, que combinan linealmente
Figura 4.3: Arquitectura de una red neuronal tipo perceptrón multicapa.

las componentes del vector de entrada, aplicando diferentes ponderaciones a cada
componente, para después a través de una función altamente no lineal, denominada
función de activación, transformar dicha combinación lineal en la salida de la neurona
[Bishop 95], véase figura 4.4. Originalmente fue F. Rosenblatt en la década de 1960
quien consideró como unidad de computación básica al perceptrón, dando lugar a la
denominación de este tipo de redes neuronales [Ripley 96]. Sin embargo, la mayorı́a de
aplicaciones prácticas que utilizan redes neuronales de tipo MLP emplean neuronas que
difieren de la definición perceptrón, debido a que la falta de continuidad de la función
escalón empleada en el mismo dificulta el proceso de aprendizaje [Freeman 93]. Las
neuronas que no proporcionan directamente la salida se denominan neuronas ocultas. La
única restricción en su arquitectura es que las conexiones que se establezcan entre las
neuronas no den lugar a bucles de realimentación, de tal modo que la información fluya
desde las entradas de la red hacia las salidas, lo que justifica su denominación de redes de
propagación hacia delante. De esta forma se asegura que la salida de la red se pueda calcular
como función explı́cita de las entradas y los pesos o parámetros de la misma [Bishop 95]
[Ripley 96]. Las redes neuronales de tipo MLP con dos capas pueden aproximar cualquier
función continua [Bishop 95].
15
En inglés a este tipo de redes se las conoce indistintamente como feed-forward networks o MLP: Multi
Layer Perceptron
4.3.1.2. Descripción matemática.

Tal y como se establece en la definición anterior la salida de la j-ésima unidad oculta
se obtiene como ponderación de la combinación lineal de los valores de entrada, junto con
el término asociado a la desviación:
d d
Σ Σ
(1) (1)
aj = w ji xi + w j0 = w(1)ji
xi (4.43)
i=1 i=0
(1)
En donde w ji representa al peso de ponderaciń
o de la primera capa que conecta la
entrada i con la neurona oculta j, y wj0(1) representa al término que considera la desviación
de dicha neurona, termino que puede ser considerado de forma implı́cita incluyendo una
variable de entrada extra, denominada x0 , cuyo valor se fija a x0 = 1, obteniéndose la
ecuación 4.43
El resultado o activación de la neurona j-ésima se obtiene transformando el resultado
de la ecuación 4.43 a través de la función g(.):
zj = g(aj ) (4.44)
Los tipos de funciones de activación más comúnmente considerados son los de:
Función
. escalón o umbral.
g (a ) = 0 si a < 0.
(4.45)
1 si a ≥ 0.
Aplicaciones de la función escalón. Mediante la función escalón es posible aprender
cualquier tipo de función booleana si se utilizan entradas binarias, lo que desde un
punto de vista práctico da lugar a la creación de plantillas; mientras que si se utilizan
entradas continuas es posible aprender fronteras de decisión, con aplicacion directa
a la clasificación de patrones.
Figura 4.4: Representación perceptrón.

Funciones sigmoideas.
• Función de activación sigmoidea logı́stica.

1
g(a) = (4.46)
1 + e−a
• Tangente hiperbólica.
ea − e−a
g(a) = a (4.47)
e + e−a
Aplicaciones de la función sigmoidea. La salida de la función de activación sigmoidea

queda dentro del rango (0, 1), lo que permite que pueda ser interpretada desde un
punto de vista probabilı́stico. Por su parte, la aplicación de la función hiperbólica
permite una convergencia más rápida del algoritmo de entrenamiento que el
conseguido con la función logı́stica.
Funciones lineales.
g(a) = Ka (4.48)
Aplicaciones de la función lineal. Utilizada por lo general en neuronas en la capa de

salida cuando se precisa que la salida no quede restringida a funciones de clase, por
ejemplo en aplicaciones en las que se requiere aproximar la salida de una función y
es necesaria la extrapolación de resultados.
Funciones de activación.
1.5
0.5
−0.5
−1
F. Escalón
F. Logística
F. Tangente hiperbólica
Lineal
−1.5
−10 −8 −6 −4 −2 0 2 4 6 8 10
Figura 4.5: Funciones de activación.

Las salidas de la red neuronal se obtienen transformando los resultados de las neuronas
de la capa oculta a través de la capa de salida, obteniéndose la siguiente ecuación para
cada una de las k-ésimas unidades de salida:
M M
Σ Σ
(2) (1)
ak = w kj zj + w k0 = w(2)kjzj (4.49)
j=1 j=0
yk = g̃(ak ) (4.50)
En donde g̃(.) representa la función de activación de la neurona de salida, resaltando que
no tiene por que ser el mismo tipo de función que el empleado para las neuronas de la
capa oculta.
Combinando las ecuaciones 4.43, 4.44, 4.49 y 4.50 se obtiene la expresion expl´ıcita de la
función representada en el diagrama de la figura 4.6 [Bishop 95][Ripley 96]:
. M Σ
Σ (2) . Σ d Σ
(1)
yk = g̃ wkj g wji xi (4.51)
j=0 i=0
Hay que destacar que si las funciones de activación de las neuronas de salida son
lineales g̃(a) = a, la expresión anterior se convierte en un caso especial de función de
discriminación lineal generalizado, en el que las funciones de base son obtenidas de las
funciones zj definidas por 4.43 y 4.44, siendo la principal diferencia que los pesos de
ponderación al ser adaptativos cambian durante el proceso de entrenamiento [Bishop 95].
Figura 4.6: Arquitectura general de una red MLP.

4.3.1.3. Procedimiento de entrenamiento.

Mediante el proceso de entrenamiento, los pesos de las neuronas que determinan la
red, son modificados con el objetivo de minimizar la función de error elegida16 . En todos
los casos se emplea un paradigma de entrenamiento supervisado, pues es preciso evaluar
el error cometido por la red, entendido tal como la diferencia entre el valor deseado y el
proporcionado por la red ante un determinado vector de entrada. Los tipos de funciones
de error más comunes son:
Error cuadrático.
N
Σ
E= (yi − ŷi )2 (4.52)
i=1
Error log´ıstico.
N
Σ yî
E= (yî log( ) + (1 − ŷi )log( 1 − yî )) (4.53)
i=1
yi 1 − yi
Propagando la evaluación y minimización de la función de error hacia las capas de

entrada17 es posible obtener la dirección en que deben ser modificados los pesos de las
neuronas. Para la minimización del error se utilizan métodos de optimización numérica
como el descenso del gradiente [Fuente O’Connor 93], o bien otros procedimientos de
optimización más avanzados; para lo cual es necesario evaluar la derivada de la función
de error con respecto a los pesos de las neuronas, disponer de funciones de activación
diferenciables facilita la propagación del error hacia las capas de entrada, sin embargo
para el caso de funciones de activación de tipo escalón esta propagación del error no es
factible ya que no son continuas en el punto de decisión, dando lugar a lo que se conoce
como problema de asignación de crédito 18 .
Tras determinar la dirección de modificación, la cantidad en la que ésta se realiza
queda determinada a través del parámetro Δ, dando lugar a la ecuación 4.54, conocida
como regla Δ generalizada.
δE
wt1 = wt0 − Δ (4.54)
ij ij δwij
Durante el proceso de aprendizaje los parámetros de la red pueden ser modificados bien
cuando se presenta y evalúa cada nuevo patrón del conjunto de entrenamiento, compuesto
16
La definición de una red neuronal de tipo MLP implica la determinación del número de capas a emplear,
ası́ como el número de neuronas a utilizar en cada capa.
17
Técnica conocida como propagacion hacia atrás, ’Back-propagation’ en inglés.
18
Credit assignment problem, si una neurona de salida produce una respuesta errónea cuando a la red
neuronal se le presenta el vector de entrada asociado, no hay forma de determinar cual de las neuronas
de la capa oculta es responsable de la generación del error, de modo tal que no se puede determinar que
pesos se han de ajustar y por cuanto.
por el vector de entrada y salida objetivo, o bien una vez que todos los patrones de
entrenamiento han sido presentados y evaluados, las necesidades computacionales en cada
caso son diferentes, ya que en el primer caso se obtiene una convergencia más lenta pero
requiere menos memoria que el segundo, ya que trabaja directamente sobre los parámetros
de la red; no siendo preciso, como en el segundo caso, almacenar las modificaciones a aplicar
una vez han sido procesados todos los patrones del conjunto de entrenamiento.
El proceso de modificación de los parámetros de la red se itera, bien hasta que se alcanza
un error total inferior al permitido, o bien hasta que se alcanza un número máximo de
ciclos.
Con el objetivo de evitar el sobre-aprendizaje del conjunto de entrenamiento, lo que
ocasionarı́a una mala generalización, se emplean varias técnicas:
Descomposición del conjunto de patrones disponibles en conjunto de entrenamiento,
validación y test. Con el conjunto de entrenamiento se modifican los parámetros de
la red, con el conjunto de validación se determina el error esperado, mientras que
con el conjunto de test se determina la capacidad de generalización.
Definición de la red neuronal de menos a más. Comenzando con un número reducido
de neuronas en la capa oculta, se procede a realizar el proceso de entrenamiento,
evaluando los errores obtenidos con los conjuntos de entrenamiento, validación y
test. El número de neuronas en la capa oculta se incrementa paulatinamente hasta
que se obtienen niveles de error aceptables. El disponer de un número reducido de
neuronas en la capa oculta, en comparación con el número de patrones presentes
en el conjunto de entrenamiento, indica que los parámetros de cada neurona se ven
influidos por más de un patrón, asegurando cierta capacidad de generalización.
Detención del proceso de aprendizaje en un número relativamente bajo de
iteraciones, de modo tal que no se permite a los parámetros de la red alcanzar valores
definitivos causados por el efecto de memorización de los patrones del conjunto de
entrenamiento; por lo general el ı́ndice que error asociado a esta técnica también es
alto.
4.3.1.4. Evaluación de las derivadas de la función de error.

Cada una de las neuronas de una red neuronal de tipo MLP realiza la combinación
lineal de las entradas empleando la fórmula:
Σ
aj = wjizi (4.55)
i
en donde zi es la activación de una neurona en una capa precedente, o una entrada, que
conecta con la neurona j, wji es el peso asociado a dicha conexión, el sumatorio se aplica
a todas las neuronas o entradas que se conectan a la neurona j. La suma es transformada
por la función de activación no lineal g(.) para dar lugar a la salida zj .
zj = g(aj ) (4.56)
El objetivo es determinar los valores apropiados para los pesos de la red a través
de la minimización de la función de error elegida, la cual podrá ser expresada como
sumatorio de los errores obtenidos con cada uno de los n patrones que forman el conjunto
de entrenamiento.
Σ
E= En (4.57)
n
Teniendo en cuenta que la ecuación de error E n se puede expresar como función

diferenciable de las variables de salida:
En = E n (y 1 ,... , yc) (4.58)
Por cada patrón se dispone del correspondiente vector de entrada y la activación de

cada una de las neuronas de la red a través de la aplicación sucesiva de las ecuaciones 4.55
y 4.56, a este proceso se le denomina propagación hacia delante ya que se trata del flujo
de información a través de la red.
Considerando la evaluación de la derivada de la función de error E n respecto a los
pesos wij:
δEn δEn δaj
= (4.59)
δwij δaj δwij
Teniendo en cuenta 4.55 se obtiene:
δaj
= zi (4.60)
δwij
y aplicando la notación
δEn
δj ≡ (4.61)
δaj
se obtiene:
δEn
= δjzi (4.62)
δwij
Ecuación que indica que la derivada buscada se obtiene multiplicando el valor δ de la
neurona de salida por el valor z de la neurona de entrada, por lo que sólo será preciso
calcular el valor δj para cada neurona de la red y aplicar la ecuación 4.62. Para las neuronas
de salida la evaluación de δk es inmediata, obteniéndose:
δEn J δE n
δk ≡ δak = g (ak) δyk (4.63)
Para las neuronas de la capa oculta se obtiene:

δEn Σ δEn δak
δj ≡ δa = (4.64)
j
k
δak δaj
en donde el sumatorio se efectúa sobre todas las neuronas a las que la neurona j envı́a
conexiones. Sustituyendo la definición de δ de la ecuación 4.61 en 4.64 se obtiene la
siguiente fórmula de back-propagation:
Σ
δj = g J (aj ) wkj δk (4.65)
k
que indica que el valor de δ para una neurona oculta se obtiene propagando hacia atrás los
valores de δJ s desde las neuronas superiores, como las derivadas de las funciones de salida
son conocidas, aplicando de forma recursiva 4.65 se obtienen los δJ s de todas las neuronas
de la capa oculta. Ası́ pues los pasos a seguir para evaluar la derivada de la función de
error En con respecto a los pesos son:
1. Aplicación de un vector de entrada xn a la red y propagar hacia delante, utilizando
las ecuaciones 4.55 y 4.56, para hallar la activación de todas las neuronas de la red.
2. Evaluar δk para todas las neuronas de salida utilizando 4.63.
3. Propagar hacia atrás los δJ s utilizando 4.65 para obtener δj de cada una de las
neuronas ocultas.
4. Utilizar 4.62 para evaluar las derivadas requeridas.
La derivada total del error se obtiene repitiendo los pasos anteriores para cada uno de
los patrones que forman el conjunto de entrenamiento y realizando su suma:
δE Σ δEn
= (4.66)
δwij n δwij
Cuando es necesario evaluar la sensibilidad de la salida, yk, ante los valores de entradas
xi es posible emplear el método de propagacion hacia atrás para el cálculo de la matriz
jacobiana 4.67.
δyk
Jki ≡ (4.67)
δxi
Ası́ mismo este método es útil cuando es preciso evaluar la segunda derivada del error
con respecto a los pesos de la red, matriz hessiana:
δ 2E
H≡ (4.68)
δwji δwlk
Cuyos elementos desempeñan papeles importantes en muchos aspectos del cálculo
neuronal, entre los que se incluyen:
1. Algoritmos de optimización no lineal empleados durante la fase de entrenamiento.
2. Base para un rápido proceso de reentrenamiento de redes neuronales progresivas,
empleando pequeños cambios en el conjunto de entrenamiento [Bishop 95].
3. Identificación de los pesos menos significativos, como parte de algoritmos de poda.
4. Asignación de margenes de error de las predicciones realizadas.
5. Cálculo de parámetros de regularización a partir de autovalores de la matriz hessiana.
6. El determinante de la matriz hessiana se puede utilizar como medida de comparación
de las probabilidades relativas de diferentes modelos de redes neuronales.
4.3.1.5. Implementación del clasiftcador basado en red neuronal de tipo MLP.

En la implementación de los clasificadores basados en este tipo de red neuronal, se han
utilizado los siguientes parámetros:
Algoritmo de aprendizaje: Levenberg-Marquardt (Backpropagation).
Número de neuronas en la capa oculta: 60.
Función de activación en las neuronas de la capa oculta:
2
tansig(x) = −1 (4.69)
1 + e−2x
Número de neuronas en la capa de salida: 3.
Función de activación en las neuronas de la capa de salida:
1
logsig(x) = (4.70)
1 + e−x
Error objetivo = 1e−5.
Número máximo de iteraciones en el proceso de aprendizaje = 400.
Max. fallo = 5.
Mem. reduc. = 1.
Min. grad. = 1e−10.
μ = 1e−3.
μdec = 0,1.
μinc = 10.
μmax = 1e−5.
La capa de salida queda compuesta por tres neuronas, ya que son tres las actividades
consideradas en el resultado de la clasificación, el rango de salida de su funcion de
activación, logsig, queda restringido a [0, 1], lo que permite indicar de forma sencilla,
con un valor próximo a la unidad, la asignación de un nuevo candidato a una de las clases
consideradas.
En la capa oculta se han considerado 60 neuronas, para conseguir esta cifra se realizó un
análisis considerando la influencia que el número de neuronas en la capa oculta ejercı́a sobre
el resultado final de la clasificación, se observó que con valores próximos a 60 neuronas en
la capa oculta se obtenı́an mejores resultados de clasificación correcta que los conseguidos
con un número de neuronas inferior a 40 o superior a 80. El número de entradas no es
directamente igual a la dimensión del vector de caracterı́sticas, N = 6, ya que se observa
cierta correlación entre las mismas, mediante el empleo de PCA (Principal Component
Analysis) se ha mantenido el 90 % de la variabilidad de los vectores de caracter´ısticas
derivados de las muestras tomadas, el 10 % restante queda atribu´ıdo a ruido, por lo que
para la gran mayorı́a de las pruebas el número de componentes ha quedado en N = 4.
En el apartado 5.6.3 se describe el diagrama de actividad asociado al empleo de
clasificadores basados en redes neuronales, mientras que por su parte en el apartado 6.3 se
presentan, analizan y discuten los resultados obtenidos de la aplicación de los clasificadores
basados en los anteriores tipos de redes neuronales.
4.3.2. Clasificador basado en red neuronal de tipo RBF.

4.3.2.1. Descripción redes neuronales de funciones de base radial.
Las redes neuronales de tipo RBF son modelos no paramétricos, que comprenden todos
aquellos modelos de redes neuronales, en los que la función de activación de las neuronas
de la capa oculta tiene como variable de entrada la distancia entre el vector propuesto y
un vector prototipo propio de cada neurona [Ripley 96].
La topologı́a de una red neuronal de tipo RBF se muestra en la figura 4.7.
Figura 4.7: Arquitectura de una red neuronal tipo RBF.
Las redes neuronales de tipo RBF se emplean entre otras aplicaciones como:
aproximadores de funciones, regularizadores, interpolación ruidosa, estimación de
funciones de densidad, teorı́a de clasificación óptima, funciones potenciales [Bishop 95].
Debido a la gran multitud de aplicaciones, los métodos de entrenamiento utilizados
con las redes neuronales de tipo RBF han llegado a ser sustancialmente más rápidos que
los empleados en el entrenamiento de las redes neuronales de tipo perceptrón multicapa;
esto en parte es debido al procedimiento de entrenamiento en dos fases derivado de la
interpretación dada a la forma de representación interna de las neuronas de la capa oculta.
En la primera fase, los pesos de las funciones de base radial que corresponden a las neuronas
de la capa oculta se determinan mediante métodos no supervisados, más rápidos que los
métodos supervisados al considerar sólo los vectores de entrada de los patrones del conjunto
de entrenamiento y no tener que considerar los valores asociados de la salida [Nabney 02],
en una segunda etapa de entrenamiento se determinan los pesos de las neuronas de la
capa de salida, lo que implica la solución de un problema lineal, empleándose métodos de
resolución rápidos, eficientes y optimizados [Ripley 96] [Rich 94].
4.3.2.2. Descripción de la técnica de interpolación exacta.

Los métodos basados en funciones de base radial tienen su origen en técnicas de
interpolación exacta de un conjunto de puntos en un espacio multidimensional (Powell
1987)[Bishop 95], donde se requiere que cada vector de entrada sea asociado de forma
exacta con su correspondiente vector de salida.
La técnica de interpolación exacta considera la asociación de un espacio de entrada
n-dimensional, X, en un espacio de salida de una única dimensión, t, para lo cual se
precisa de un conjunto de datos compuesto por N vectores de entrada xn, junto con sus
correspondientes valores destino tn ; quedando por tanto el objetivo de esta técnica en
encontrar la función h(x) que cumpla:
h(xn) = tn, n = 1, ..., N (4.71)
La aproximación de función de base radial introduce un conjunto de N funciones de

base, una por cada vector de entrada, que toman la forma || φ( −x xn||) en donde φ(.) es
una función no lineal que depende de la distancia ||x − xn ||, siendo ésta por lo general la
distancia euclı́dea entre x y xn . La salida de la red es la combinación lineal de las funciones
de base que realizan la asociación.
Σ
h(x) = wnφ(||x − xn||) (4.72)
n
Ecuación que tiene la misma forma que una función de discriminación lineal generalizada
[Bishop 95]. Las condiciones de interpolación pueden expresarse en forma matricial como:
ΦW = t (4.73)
−1
W=Φ t (4.74)
En donde t ≡ (tn ), W ≡ (wn ), y la matriz cuadrada Φ tiene como elementos φnnJ =

J
φ( ||xn − xn ||). Se ha demostrado que para grandes familias de funciones φ(.), la matriz
Φ es no singular, siempre que se suministren datos de entrada diferentes [Bishop 95].
Cuando los pesos de la ecuación 4.72 se introducen en los valores de 4.74, la función
h(x) representa una superficie continua diferenciable que pasa exactamente por cada
uno de los puntos considerados. Estudios teóricos y prácticos realizados por Powell en
1987 [Bishop 95], dentro del problema de interpolación exacta demuestran la relativa
insensibilidad a la forma precisa de la función no lineal φ(.). Diferentes tipos de funciones
han sido consideradas, siendo la más común la campana de Gauss
2
x
φ(x ) = e − 2 σ2 (4.75)
En donde σ es el parámetro que controla la suavidad de la función de interpolacion. La

campana de Gauss es una función de base localizada con la propiedad de φ → 0 cuando
|x | → ∞.
x2
Figura 4.8: Función de activación, φ(x ) = e − 2 σ2
Otra función de base con la misma propiedad es la función

φ(x) = (x2 + σ2)−α, α >0 (4.76)
Sin embargo no es preciso que las funciones sean localizadas, otras posibles elecciones son:
φ(x) = x2ln(x) (4.77)
φ(x) = (x2 + σ2)β, 0 <β < 1 (4.78)
3
φ(x) = x (4.79)
φ(x) = x (4.80)
Todas ellas tiene la propiedad de que φ → ∞ cuando x ,→por ∞ otro lado hay que tener
en cuenta que aunque la función φ(x) = x sea lineal en x, no lo es en x, ya que x = x
xn . || − ||
La generalización a funciones de salida multivariable es inmediata. Cada vector de
entrada xn debe ser mapeado exactamente a un vector de salida tn, el cual tiene por
componentes tkn, lo cual da lugar a:
hk(xn) = tnk, n = 1, ...., N (4.81)
en donde hk (x) son obtenidas por superposición lineal de las mismas funciones de base
que las utilizadas para el caso de salida univariable.
Σ
hk(x) = wknφ(||x − xn||). (4.82)
n
El peso de los parámetros se obtiene de forma análoga a la ecuación 4.74:

Σ
(Φ−1 )nnJ tnk
J
wkn = (4.83)
nJ
en donde la misma matriz Φ−1 se utiliza para cada función de salida.

La asociación realizada por las funciones de base radial consigue que la función de salida
pase exactamente por los puntos de datos suministrados como datos de aprendizaje, si el
conjunto de datos de entrenamiento de que se dispone es ruidoso, como salida de la red
neuronal se obtendrán valores con variaciones muy bruscas y comportamiento oscilatorio,
sin embargo la función de interpolacion deseada tı́picamente presenta una salida más
suavizada, promediando los datos de entrada afectados de ruido. Una limitación adicional
del procedimiento de interpolación exacta proviene de la necesidad de disponer de tantas
funciones de base como patrones en el conjunto de datos de entrenamiento, esto provoca
que para grandes conjuntos de datos sea muy costosa la evaluación de la asociacion entre
entradas y salidas.
4.3.2.3. Deftnición matemática de las redes neuronales de tipo RBF.

Las limitaciones anteriores dan lugar a la consideración y propuesta de una serie de
modificaciones al procedimiento de interpolación exacta, originando el modelo de redes
neuronales de base radial [Bishop 95], obteniéndose una función de interpolacion más
suave en la cual el número de funciones de base es determinado por la complejidad de la
asociación a realizar, esta serie de modificaciones es:
1. El número de funciones de base, M , no tiene por que ser igual al número de patrones
en el conjunto de datos de entrenamiento, N , siendo por lo general mucho menor.
2. Los centros de la funciones de base no están constreñidos a los vectores de entrada
de los patrones, sino que por el contrario la determinación de la posición adecuada
de los centros se considera como parte del proceso de entrenamiento.
3. En lugar de tener un parámetro común que determina la zona de influencia de cada
función base, σ, a cada función base se le asocia su propio parámetro, σj , cuyo valor
también se determina durante el proceso de entrenamiento.
4. Dentro del término de combinación lineal de la entradas se incluye un parámetro
asociado a la desviación. Este parámetro compensa la diferencia entre el valor medio
de los datos del conjunto de entrenamiento de las funciones base de activación y el
valor medio correspondiente de las salidas.
Realizando las modificaciones anteriores al procedimiento de interpolación exacta se
llega a la siguiente expresión para las redes neuronales de funciones de base radial:
M
Σ
yk(x) = wkjφj(x) + wk0. (4.84)
j=1
Para el caso de la función de base Gaussiana se obtiene:

||x−μj ||2
− 2σ
φj (x) = e (4.85)
2
j
en donde x es el vector de entrada n-dimensional con elementos xi, y μj es el vector que

determina el centro de las funciones de base φj con elementos μji.
Por lo general topologı́as con más de una capa oculta no son consideradas a efectos
prácticos, Hartman en 1990 [Bishop 95] demostró que con la superposición lineal de
funciones de base Gaussiana localizadas, es posible obtener una aproximación a cualquier
función de forma universal, posteriormente Park en 1991 [Bishop 95] demostró que con
restricciones más suaves en la forma de las funciones también es posible conseguir de forma
universal aproximaciones a funciones, por otro lado Girosi [Bishop 95] demostró que las
redes de funciones de base radial tienen la propiedad de aproximación óptima, aunque
estas demostraciones no ofrecen procedimientos prácticos para la construcción de redes
neuronales, son de gran importancia como base teórica en la que las aplicaciones prácticas
conf´ıan.
Para el caso de matriz de covarianza arbitraria Σ j se obtiene:
φj (x) = e− 2(x−μj ) Σ j (x−μj )

1 J −1
(4.86)
Considerando que las matrices de covarianza Σj son simétricas, cada función de base
tiene d(d + 3)/2 parámetros independientes ajustables, en donde d es la dimensión del
espacio de entrada, en comparación con los d+1 parámetros independientes de las funciones
de base radial de la ecuación 4.85, en la práctica se busca un equilibrio entre usar un
número pequeño de funciones de base con muchos parámetros ajustables, muy flexibles, y
un número mayor de funciones de base menos flexibles.
4.3.2.4. Entrenamiento de la red neuronal.

Como se ha indicado con anterioridad, las funciones de base pueden ser interpretadas
de modo tal que los pesos de la primera capa, es decir los parámetros que controlan
las funciones de base, puedan ser determinados mediante técnicas de entrenamiento no
supervisadas. Lo que conduce a un proceso de entrenamiento basado en dos etapas, en la
primera las entradas del conjunto de entrenamiento, Xn, son utilizadas para determinar
los parámetros de las funciones de base: μj y σj , para las funciones Gausianas esféricas;
mientras que en la segunda etapa manteniendo las funciones de base se determinan los
pesos de la capa de salida.
Debido a que existe un número menor de funciones de base que patrones, por lo general
no será posible determinar un conjunto de pesos que consiga ajustar la salida de la función
de forma exacta a los patrones presentados [Freeman 93].
Teniendo en cuenta que la salida de la red neuronal queda dada por la ecuación:
M
Σ
yk(x) = wkjφj(x) (4.87)
j=0
y(x) = Wφ (4.88)
en donde en la ecuación 4.87, φ0 , es la función de base extra que comprende el término

de desviación, la ecuación 4.88 representa la expresión anterior en notación matricial,
en donde W = (wkj) y φ = (φj); como las funciones de base se consideran fijas, la
determinación de los pesos de la capa de salida se realiza, como en el caso de las
redes neuronales de tipo MLP, minimizando la función de error elegida, para el caso de
clasificación es factible considerar la suma de errores cuadráticos, ecuación 4.89.
1 ΣΣ
E= (y k (xn) − (tnk))2 (4.89)
2 n k
en donde tkn es el valor objetivo de la salida de la unidad k cuando a la red se le presenta el

vector de entrada xn . La determinación de la solución se obtiene a través de las ecuaciones
lineales:
ΦJ ΦWJ = ΦJ T (4.90)
en donde (T)nk = tn yk (Φ)nj = φj(xn). El valor de los pesos de las neuronas de la red
viene dados por:
W J = Φ† T (4.91)
en donde Φ† representa la pseudo-inversa de Φ. En la práctica se utiliza la descomposición

por valores singulares para evitar matrices mal condicionadas.
4.3.2.5. Aplicación en clasiftcación

A diferencia de la clasificación por hiperplanos realizada con las redes neuronales de
tipo MLP, la clasificación obtenida con las redes neuronales de tipo RBF se basa en
funciones de kernel locales.
El objetivo de los clasificadores es modelar la probabilidad a posteriori p(x|Ck) para
cada una de las Ck clases consideradas siendo conocida la probabilidad a priori p(x k).|C
Aplicando el teorema de Bayes:
p(x|Ck)P (Ck)
P (Ck |x) = p(x)
(4.92)
p(x|Ck)P (Ck)
= Σ J J
(4.93)
kJ p(x|Ck )P (Ck )
0
Figura 4.9: Comparación clasificación MLP vs RBF.

Que puede ser interpretado como una red de funciones de base con funciones de
normalización dada por:
p(x|Ck) (4.94)
φk(x) = Σ
J J
kJ p(x|C k )P (C k)
Siendo la capa oculta de conexión, la que enlaza dichas funciones con las salidas, a
través de los correspondientes pesos con valor P (Ck ). Las salidas de esta red representa
la aproximación a las probabilidades a posteriori.
Por lo general una única función de kernel por cada clase no suele producir buenos
resultados para la representación de las funciones de densidad de probabilidad de cada clase
p(x|Ck), por lo que se emplean mezclas que juntan varias funciones para modelizar cada
una de las funciones de densidad de probabilidad asociadas a cada clase. Con el objetivo de
aumentar la eficiencia computacional, reduciendo el número de parámetros ajustables en
el modelo, se opta por utilizar un conjunto de M funciones de base, etiquetadas con un
´ındice j, para representar todas las funciones de densidad condicional, dando lugar a:
M
Σ
p(x|Ck) = p(x|j)P (j|Ck ) (4.95)
j=1
Que sustitu´ıdo en las ecuaciones anteriores da a su vez lugar a:

M
Σ Σ
p(x) = p(x|Ck)P (C k) = p(x|j)P (j) (4.96)
k j=1
en donde se han definido las probabilidades a priori para las funciones de base:
Σ
P (j) = P (j|Ck)P (Ck) (4.97)
k
Por lo que considerando las probabilidades a posteriori, y sustituyendo las ecuaciones

4.96 y 4.97 en 4.92 se obtiene:
ΣM
P (C |x) = j=1 P (j|Ck)p(x|j)P (Ck ) P (j) = Σ w φ (x)
M
(4.98)
k ΣM kj j
j J =1 p(x|j J )P (j J )
P (j) j=1
en donde en la ecuación 4.98 representa una red de funciones de bases, en la que la función
base de normalización está dada por:
φj (x) = ΣMp(x|j)P (j) = P (j|x) (4.99)

j J =1 p(x|j )P (j )
J J
y los pesos de la segunda capa son:

P (j|Ck)P (Ck)
wkj = = P (C k |j) (4.100)
P (j)
por lo que la activación de la funciones de base pueden ser interpretada como la
probabilidad a posterior de la presencia de las caracter´ısticas correspondientes en el espacio
de entrada, y los pesos pueden ser interpretados de igual forma como la pertenencia a cada
clase, dada la presencia de dichas caracter´ısticas.
4.3.2.6. Implementación del clasiftcador basado en red neuronal de tipo RBF.

Número de neuronas ocultas: Determinado por el algoritmo de aprendizaje a través
de un proceso iterativo que permite el crecimiento dinámico de la cantidad de
neuronas ocultas empleadas.
El algoritmo de entrenamiento inicialmente crea la red con un número reducido de
neuronas en la capa oculta, con cada iteración se ajustaran los pesos de las neuronas
y se guarda aquel vector de entrada que causa el menor error, se evalúa el error
global de la red para la iteración actual, si el error es superior al fijado se añade
una nueva neurona en la capa oculta utilizando como valores de partida los del vector
anteriormente guardado, a continuación se procede a repetir el proceso de
aprendizaje. El algoritmo finaliza cuando el error global presentado por la red es
inferior al error objetivo, o en la capa oculta se han alcanzado tantas neuronas como
vectores hay en el conjunto de entrenamiento.
Función de activación de las neuronas ocultas:
x = b(w̄ − p̄)
2
φ(x) = e−x (4.101)
Constante de extensión, b = 0.25 (Determina la zona de influencia de cada neurona19 .
Número de neuronas de salida: 3. Tantas como clases consideradas.
Como conclusión principal, tal y como puede extraerse del apartado 6.3, los
clasificadores basados en este tipo de redes neuronales presentan elevados porcentajes de
clasificación correcta, cercanos a los conseguidos con los clasificadores basados en redes de
tipo PNN, pero con una mejor capacidad de generalización, lo que les hace preferibles a
estos últimos.
19
El valor de esta constante se obtuvo tras un análisis previo en donde se utilizaron diferentes valores en el
intervalo [0.1 - 1], el mayor número de clasificaciones correctas se obtuvo para un valor de la constante de
amplitud de 0.25.
4.3.3. Clasificador basado en red neuronal de tipo PNN.

4.3.3.1. Redes neuronales probabilı́sticas.
Las redes neuronales probabilı́sticas son métodos no paramétricos, basados en la
técnica de interpolación exacta [Bishop 95], en los que la clasificación se realiza asignando
la muestra candidata a aquella clase cuya probabilidad de observación es más elevada
[Ripley 96].
fk(x) = P (k|x) (4.102)

La topologı́a de una red neuronal de tipo PNN se muestra en la figura 4.7.
Figura 4.10: Arquitectura de una red neuronal tipo PNN.

La denominación de este tipo de redes neuronales se debe a Specht [Ripley 96], quien
acuñó este nombre para referirse a métodos en los que empleando la técnica de dejar
uno fuera como método de validación cruzada, empleaba las siguientes ecuaciones de
probabilidad para realizar la clasificación.
1 Σ
P̂j (x) = K(x − x i) (4.103)
nj i
En donde K(x − y) representa la función núcleo o kernel que expresa una medida de la
proximidad entre x e y, mientras que el sub´ındice [i] indica el grupo de entrenamiento i-
ésimo. La ecuación 4.103 puede ser interpretada como el promediado de las funciones
kernel centradas en el valor de representación de cada clase, lo cual da lugar a:
ˆ π P̂ (x) πk Σ K(x − xi)
j
=
kkπk j i i
P (k|x) = Σ
Σ
nk π[i]
(4.104)
=k
P̂ (x) n
[i]=k
K(x − x )
En caso de que las probabilidades a priori sean estimadas por:
[i
nk
]
P̂k = (4.105)
n
La ecuación 4.104 se simplifica a:
ˆ( x) = [i]=k K(x − xi)

Σ
P k| (4.106)
i [i]
n K(x − xi
) Este tipo de redes neuronales se asemeja a las redes neuronales de tipo RBF, en que
ambas utilizan funciones de base radial en las neuronas de la capa oculta, como medio para
estimar la distancia entre un nuevo vector de entrada y los vectores patrones propuestos
durante la fase de entrenamiento. Sin embargo las redes neuronales probabil´ısticas se
diferencian de las RBF en que, las neuronas de la capa de salida suma las contribuciones
para cada clase produciendo un vector de probabilidades, el cual es procesado a través de
una función de transferencia de tipo competitivo, en la que la salida selecciona el valor
máximo de dichas probabilidades, asignando un 1 a dicha clase y un 0 a todas las demás. Por
otro lado, el algoritmo empleado en la fase de entrenamiento también es diferente,
ya que aunque en ambos casos queda encuadrado dentro de la clasificación de algoritmo
de entrenamiento supervisado en dos etapas, para el caso de redes neuronales PNN en
la primera etapa se crean tantas neuronas en la capa oculta como patrones se emplean en
el conjunto de entrenamiento, procedimiento derivado de la técnica de interpolación
exacta; en la segunda fase se procede a definir los pesos de las neuronas de la capa de
salida minimizando una función de error del tipo:
n
Σ
E= ||yi − ti|| (4.107)
i=1
4.3.3.2. Implementación del clasiftcador basado en red neuronal de tipo PNN.

1. Constante de extensión, b = 0.25.

2. Número de neuronas en la capa oculta = tantas como parejas vector de entrada -
clase a la que pertenece, tenga el conjunto de entrenamiento.
3. Número de neuronas en la capa de salida = 3. Tantas como clases consideradas.
Al igual que ocurre con la red RBF la capa oculta se construye a partir de neuronas de
base radial, durante la fase de aprendizaje se adquiere la localización de los vectores del
conjunto de entrenamiento, las neuronas de la capa de salida, tantas como clases
independientes se consideran, memorizan la asignación de las salidas de las funciones de
activación a cada una de las clases presentadas, la última parte de la capa de salida queda
formada por unidades de tipo competitivo, de forma tal que el vector de entrada presentado
se asigna a la neurona cuyo valor de activación sea más alto.
Como conclusión principal, tal y como puede extraerse del apartado 6.3, los
clasificadores basados en este tipo de redes neuronales son los que presentan mayores
porcentajes de clasificación correcta, aunque ası́ mismo presentan una menor capacidad
de generalización que los clasificadores basados en redes neuronales de tipo RBF.
4.4. Clasificador bietapa basado en Modelo Oculto de

Markov y RBF.
4.4.1. Descripción Modelo Oculto de Markov.
Un Modelo Oculto de Markov (MOM)20 , es una representacion estadı́stica de la señal o
proceso observado, dentro de un marco doblemente estocástico, que consta de un proceso
de Markov de parámetros desconocidos y no observables, y un proceso observado cuyos
valores son dependientes estocásticamente de los estados ocultos [Rabiner 89]. Se asume
que la señal observada puede ser caracterizada como un proceso paramétrico aleatorio, y
que los parámetros del proceso estocástico pueden ser determinados o estimados de forma
precisa y bien definida.
Un proceso estocástico se llama
de Markov o cadena de Markov de
primer orden, si conocido el presente,
el futuro no depende del pasado; dada
una variable estocástica q(t − 1) la
probabilidad de transición en el instante
t se define como P (qt = σt |qt−1 = σt−1).
Una cadena de Markov se define
formalmente con la dupla (Q, A), donde
Q = 1, { 2, ..., N} son los N posibles
estados de la cadena y A = [aij]NxN es la
matriz de transición del modelo donde se
cumple:
0 ≤ aij ≤ 1 1 ≤ i, j ≤ N (4.108)
ΣN
aij = 1 1 ≤ i ≤ N (4.109) Figura 4.11: Representación Modelo Oculto de Markov.

j=1
Las probabilidades de transición y emisión dependen del estado actual y no del pasado.
P (qt = j|qt−1 = i, qt−2 = k, ...) = P (qt = j|qt−1 = i) = aij(t) (4.110)
Formalmente un Modelo Oculto de Markov discreto de primer orden se define por la

5- tupla λ = {Z, Q, A, B, π}. En donde:
Z = { V 1, V 2, ..., V m} . Es el alfabeto o conjunto discreto de M sı́mbolos. Los
sı́mbolos observados se corresponden con la salida fı́sica del sistema que se modela.
Q = 1,{ 2, ..., N}. Es el conjunto finito de N estados. Aunque por lo general los
estados están ocultos, para muchas aplicaciones prácticas a menudo existe algún
tipo de significación fı́sica asociada al estado o conjunto de estados del modelo.
En la figura 4.11 se representan por los c´ırculos S1 a S4.
20
En literatura inglesa se denomina “Hidden Markov Models (HMM)” o “Probabilistic functions of
Markov chains.”
4.4 Clasiftcador bietapa basado en Modelo Oculto de Markov y RBF. 10
5
A = [aij ]N xN . Es la matriz de probabilidades de transición de estados. Por lo general
los estados están interconectados de forma que un estado pueda ser alcanzado desde
cualquier otro (modelos ergódicos), sin embargo no es él único tipo de modelo, existen
otros tipos de modelos de interconexión en los que sólo se permiten evoluciones hacia
estados de ı́ndice superior, útiles para modelizar secuencias temporales.
En la figura 4.11 se representa por los parámetros a11 a a44 , al lado de las flechas
discontinuas que conectas los estados.
B = (bj (Qt ))N xM . Es la matriz de probabilidades de emisión de sı́mbolos.
bj (k) = P (vk, t|qt = Qj), 1≤ j≤N (4.111)

1≤ k ≤ M
En la figura 4.11 se representa por las flechas continuas B1(O) a B4(O).

π = (π1, π2, ..., πN ). Es el vector de probabilidades de estado inicial.
πi = P (q1 = Qi), 1 ≤ i ≤ N. (4.112)
Los parámetros de un MOM se expresan por: λ = {A, B, π }.

La primera cuestión en la definición de un MOM es decidir con qué se corresponden
los estados del modelo y cuántos estados han de considerarse.
Existen tres tipos de problemas básicos o canónicos asociados al diseño de los MOM
[Rabiner 89]:
1. Primer problema. Dados los parámetros del modelo, λ, calcular la probabilidad de

una secuencia de observaciones, O, en particular. Este problema se resuelve con el
algoritmo de “adelante-atrás”, véase apartado 4.4.2.2. Se puede interpretar también
como un ı́ndice de cómo el modelo se ajusta a la secuencia dada.
Un ejemplo de aplicación de este problema serı́a: dado un MOM con cinco estados,
N = 5, que representan respectivamente la pronunciacion de los números del uno
al cinco, y que ha sido entrenado con la secuencia O ={ J1J ,J 2J,J 3J ,J 4J,J 5J ,J 4J,J 2J} ,
T = 7, calcular la probabilidad con la que este modelo producirı́a la secuencia
inversa O = {J 2J ,J 4J ,J 5J ,J 4J ,J 3J ,J 2J ,J 1J }.
2. Segundo problema. Datos los parámetros del modelo, λ, encontrar la secuencia más
probable de estados ocultos, Q, que puedan haber generado una secuencia de salida
dada. Este problema se resuelve con el algoritmo de Viterbi [Forney 73]. Trata de
descubrir la parte oculta del modelo.
Siguiendo con el modelo del ejemplo anterior una aplicación de este problema serı́a
determinar la secuencia de estados que da lugar a la secuencia inversa.
3. Tercer problema. Dada una secuencia de salida o un conjunto de tales secuencias, O,

encontrar los parámetros del modelo oculto de Markov, λ, que maximizan P (O| λ).
Este problema se resuelve con el algoritmo de Baum-Welch [Nabney 02]. A la
secuencia de observaciones usadas para ajustar los parámetros del modelo se la
denomina secuencia de entrenamiento.
Un ejemplo de la aplicación de la resolución de este problema serı́a la determinación
de los parámetros del modelo de los ejemplos anteriores a partir de la secuencia de
observaciones: O = {J 1J ,J 2J ,J 3J ,J 4J ,J 5J ,J 4J ,J 2J }.
Aunque la base teórica de los MOM fue establecida a finales de la década de los sesenta
y principio de los setenta [Baum 66], [Baum 70], [J. 75], no fue hasta dos décadas después
cuando, tras realizarse publicaciones de diversos tutoriales y desarrollo de aplicaciones
utilizando MOM en revistas de ingenier´ıa, empezaron a popularizarse y a utilizarse como
modelizadores de señal, sistemas de predicción, sistemas de reconocimiento e identificación,
clasificadores, etc., encontrándose su principal campo de aplicación en sistemas de
reconocimiento del habla [Rabiner 89], [Allen 77], [Cox 00], [Juang 91], [S.E.; 83].
Más próximas en el tiempo son la aplicación de los MOM en la identificación de
fuerzas en aplicaciones de teleoperación de sistemas robotizados [Herreo 98], ası́ como en la
identificación y caracterización de señales cerebrales [Chiappa 06], [Rezek 00], [Zhong 02],
siendo aplicados en el desarrollo de la tecnolog´ıa de Interfaz Cerebro Computador en la
identificación y clasificación de los patrones de señal electroencefalográfica asociados a
la imaginación de movimiento [Guger 99], [Neuper 01], [Obermaier 01a], [Muller 03a]. La
idea básica es la creación de modelos temporales de los ritmos μ y β que permitan la
identificación, aprendizaje y posterior reconocimiento de los cambios que se producen en
la señal cerebral cuando se realizan diferentes actividades cognitivas como la planificación
de movimientos, la realización de un cálculo matemático, u otro tipo de tarea mental
con elevada capacidad de discriminacion. En todos los casos, tal y como se ha indicado en
el apartado 1.1.2, la señal electroencefalográfica es filtrada, procesada para extraer sus
caracter´ısticas definitorias (potencia de determinadas bandas frecuenciales, coeficientes
adaptativos de modelos autorregresivos, etc.) las cuales son introducidas en los
correspondientes MOM’s. Por cada actividad mental se genera y entrena un MOM diferente,
comparándose posteriormente la probabilidad con la que nuevas secuencias de
observación serı́an generadas por cada uno de ellos, la nueva secuencia de observación se
asigna a aquel modelo, y por tanto actividad mental, cuya probabilidad de generación sea la
más alta. Los MOM muestran cierta mejora de clasificación sobre análisis de discriminación
lineal [Mardia 79].
Las principales ventajas de los MOM son dos:
1. Poseen una estructura matemática muy rica, de la que se desprende que puedan ser
usados en una gran cantidad de aplicaciones.
2. Los resultados prácticos obtenidos son muy próximos a los deseados.
7
4.4.2. Solución a los problemas canónicos.
4.4.2.1. Solución al primer problema.
El objetivo es calcular la probabilidad de una secuencia de observaciones O = O1 , O2 ,
...,
{ OT , dado }un modelo λ. El modo más directo de efectuarlo es enumerando toda
posible secuencia de longitud T .21
Considerando una secuencia de estados Q = q { 1, q2, ..., qT} . La probabilidad de la
secuencia de observaciones O para la anterior secuencia de estados viene expresada por 22:
T
P (O|Q, λ) = P (Ot|qt, λ) (4.113)
t=1
Desarrollando la expresión anterior se obtiene:
P (O|Q, λ) = bq1 (O1) · bq2 (O2) · . . . · bqT (OT ) (4.114)
La probabilidad de la secuencia de estados Q, dado el modelo λ, se puede expresar como:
P (O|Q, λ) = πq1 aq1q2 aq2q3 . .. aqT−1qT (4.115)
La probabilidad conjunta de O y Q, es decir, de que O y Q ocurran simultáneamente es
el producto de las dos ecuaciones anteriores:
P (O, Q|λ) = P (O|Q, λ)P (Q|λ) (4.116)

Por lo que la probabilidad de O, dado el modelo λ, se obtiene sumando esta probabilidad
conjunta sobre todas las posibles secuencias de q posibles estados:
Σ
P (O|λ) = P (O|Q, λ)P (Q|λ) = . . .
∀Q
= πq1 bq1 (O1)aq1q2 bq2 (O2) . . . aqT−1qT bqT (OT ) (4.117)

q1,q2,...,qT
El cálculo de probabilidad utilizando este método implica 2T N T cálculos [Rabiner 89],

para cada t existen N posibles estados que se pueden alcanzar, en los ejemplos del
apartado anterior N = 5 y la longitud de la secuencia T = 7, por lo que hay N T posibles
secuencias de estados, y por cada secuencia 2T operaciones, siendo más exactos se necesitan
(2T − 1)N T multiplicaciones y N T −1 sumas, por lo que para la resolución del ejemplo
del primer problema del apartado anterior se necesitar´ıan (2 7 1)∗57 −
= 1,015,625
∗
7
multiplicaciones y 5 1−= 78,124 sumas.
Puede comprobarse que el procedimiento directo, para cadenas de observaciones
obtenidas en aplicaciones prácticas23 excede la capacidad de computo de las computadoras
actuales, por lo que se hace necesario un algoritmo de cálculo más eficiente, el cual se
denomina “adelante-atrás”.
21
Notese que T es el número de observaciones.
22
Se asume la independencia de observaciones.
23
Por ejemplo en aplicaciones de reconocimiento de palabras habladas cada estado podrı́a modelar la
pronunciación de una letra, lo que da lugar a N = 27, con palabras de seis letras, T = 6, se obtendrı́an
4,65109 operaciones.
4.4.2.2. Algoritmo “adelante-atrás”.

La idea de este algoritmo es que en cada instante de tiempo, t, existen sólo N posibles
estados en los que se puede encontrar el modelo, en lugar de los N T causados por la
anterior consideración implı́cita de la longitud de la cadena, véase figura 4.12.
Se define la variable hacia delante, αt(i) como:
αt(i) = P (O1, O 2 ,... , Ot, qt = Si|λ) (4.118)
Es la probabilidad de que se dé la secuencia de observaciones O hasta el instante t, y

que el sistema se encuentre en el estado Si, dado el modelo λ. Para evaluarla se utiliza el
siguiente procedimiento inductivo:
1. Inicialización:
α1(i) = πibi(O1) 1≤ i≤N (4.119)
2. Inducción:
ΣΣ
N Σ
αt+1(j) = αt(i)aij bj(Ot+1) 1 ≤ t ≤ T − 1; 1 ≤ j≤ N (4.120)
i=1
3. Terminación:
N
Σ
P (O|λ) = αT (i) (4.121)
i=1
El primer paso inicializa las probabilidades hacia delante como la probabilidad conjunta
de encontrarse el sistema en el estado Si y que se dé la observación O1 , véase figura 4.12.
El estado j puede alcanzarse en el instante t + 1 desde N posibles estados. Ya que αt(i) es
la probabilidad conjunta de que O1 . . . Ot sean observados, y que el estado en el instante
t sea Si, αt(i)aij es la probabilidad conjunta de que O1 . . . Ot sean observados, y de que el
estado Sj sea alcanzado a través del estado Si en el instante t + 1. Sumando este producto
para todos los posibles estados se obtendrá la probabilidad de estar en el estado
Sj en el instante t + 1 teniendo en cuenta las observaciones realizadas.
Conociendo el estado Sj , αt+1 se obtendrá teniendo en cuenta la observación Ot+1 , y
multiplicando su probabilidad por la suma de probabilidades αt(i)aij anteriores.
Por último, la probabilidad P (O|λ) se obtiene como la suma de las variables hacia
delante terminales, es decir αT (i).
En este caso, el número de cálculos necesarios es del orden de N 2 T . Siendo más exactos
son necesarias N (N +1)(T −1)+N multiplicaciones y N (N −1)(T −1) sumas [Rabiner 89],
para el caso del ejemplo anterior se tendr´ıan 5 · (5 + 1) · (7 − 1) + 5 = 185 multiplicaciones
y 5 · (5 − 1) · (7 − 1) sumas.
9
Figura 4.12: Algoritmo “adelante- Figura 4.13: Algoritmo “adelante-

atras”. Procedimiento hacia delante. atrás”. Procedimiento hacia atrás.
Aunque en la solución del primer problema no se utilizan las variables hacia atrás, si
lo son en la solución del tercer problema. Por semejanza con la descripción realizada, su
explicación se realiza a continuación.
Se define la variable hacia atrás, βt (i) como:
βt(i) = P (Ot+1, O t+ 2 ,... , OT , qt = Si|λ) (4.122)

Es la probabilidad de que se de la secuencia parcial de observaciones desde el instante
t + 1 hasta el final, dado el estado Si en el instante t y el modelo λ. De modo análogo
al seguido para la evaluación de las variables hacia delante se emplea el siguiente
procedimiento inductivo:
βT (i) = 1 1≤ i≤N (4.123)
2. Inducción:
N
Σ
βt (i) = aij bj (Ot+1 )βt+1 (j) t = T − 1, T − 2, . . . , 1; 1 ≤ i ≤ N (4.124)
j=1
El paso de inicialización arbitrariamente iguala βT (i) a uno. El paso de inducción tiene

en cuenta que para estar en el estado Si en el instante t, utilizando las observaciones
futuras, hay que considerar todos los posibles estados Sj en el instante t + 1, al igual que
las transiciones aij , ası́ como la observación Ot+1 en el estado Sj , véase figura 4.13.
4.4.2.3. Solución al segundo problema.

La solución del segundo problema implica la definición de la función de optimización a
utilizar. Debido a la multiplicidad de criterios que pueden aplicarse, la solución no es única.
Una posible elección es la de maximizar la probabilidad de encontrarse en un determinado
estado en un instante t dada la secuencia de observaciones obtenida, o lo que es equivalente
a maximizar la probabilidad P (qt = Si O,| λ).
Este criterio de optimización individualizada, en la que no se tienen en cuenta los
estados anteriores,
puede llevar a obtener secuencias de estados que en la práctica no pueden darse debido
a que las probabilidades de transición entre ellos, aij , son nulas. Esto es ası́ debido a que
implı́citamente se busca el estado más probable en cada instante, sin tener en cuenta la
probabilidad de aparición de secuencias de estados.
Con la finalidad de evitar el inconveniente anterior, la solución a este problema
empleada con mayor frecuencia modifica el criterio de optimización, buscando aquella
secuencia de estados que maximiza:
P (Q|O, λ) ≡ P (Q, O|λ) (4.125)

El algoritmo utilizado para su búsqueda está basado en métodos de programación
dinámica, denominándose “algoritmo de Viterbi” [Forney 73]. Para encontrar la secuencia
de estados Q, que maximiza la probabilidad anterior, dada la secuencia de observaciones
O, se define previamente la variable:
δt (i) = maxq1 ,q2 ,...,qt−1 P (q1 q2 . . . qt = Si , O1 O2 . . . , Ot |λ) (4.126)

Siendo la probabilidad más alta a lo largo de una secuencia, en el instante t, teniendo en
cuenta las primeras t observaciones, y termina en el estado Si . Por inducción se tiene que:
δt+1(j) = [maxiδt(i)aij ]bj(Ot+1) (4.127)
Para poder recuperar la secuencia de estados, es necesario guardar el argumento que

maximiza la ecuación 4.127, para cada t y j, empleándose para tal fin la matriz Ψt(j). Los
pasos a realizar para encontrar la secuencia de estados es:
δ1(i) = πibi(O1)
Ψ1(i) = 0 1≤ i ≤N (4.128)
2. Inducción:
Σ Σ
δ t(j) = max1≤i≤N (δt−1(i)aij) bj(O t) 2≤ t≤T (4.129)
Ψ t(j) = argmax1≤i≤N (δt−1(i)aij) 1≤ j≤N (4.130)
3. Terminación:
P ∗ = smax
˛¸x (δT (i)) (4.131)
1≤i≤N
qT∗ = argmax(δT (i)) (4.132)
s ˛¸ x
1≤i≤N
4. Obtención de la secuencia:
qt∗ = Ψt+1 (qt∗+1 ) t = T − 1, T − 2, . . . , 1 (4.133)
El algoritmo de Viterbi se muy semejante al “procedimiento hacia delante”, siendo la

principal diferencia el proceso de maximización que aparece en la ecuación 4.129 en lugar
de la suma que se produce en la ecuación 4.120
4.4.2.4. Solución al tercer problema.

No existe algoritmo conocido que halle anal´ıticamente el modelo que maximiza la
probabilidad de la secuencia observada. De hecho, dada cualquier secuencia finita de
observaciones como datos para el entrenamiento, no existe una manera óptima de estimar
los parámetros del modelo. Sin embargo se puede elegir un λ = (A, B, π) tal que P (O| λ)
alcanza un máximo local utilizando un procedimiento iterativo conocido como algoritmo
de Baum-Welch.24
El método se basa en un procedimiento de reestimación (actualización iterativa y
mejora) de los parámetros del modelo. Se define la variable:
εt(i, j) = P (qt = Si, qt+1 = Sj|O, λ) (4.134)

como la probabilidad de estar en el estado Si en el instante t, y en el Sj en el t + 1, dado el
modelo λ y la secuencia de observaciones O; desarrollándola se obtiene:
P (qt = Si , qt+1 = Sj |O, λ) αt (i)aij bj (Ot+1 )βt+1 (j)
tε (i, j) = = = ...
P (O|λ) P (O|λ)
αt (i)aij bj (Ot+1 )βt+1 (j) (4.135)

= ΣN ΣN
i=1 j=1 αt (i)aij bj (Ot+1 )βt+1 (j)
Tal y como se puede ver gráficamente en la figura 4.14.

Definiendo γt(i) como la probabilidad de estar en el estado Si en el instante t dada la
secuencia de observaciones y el modelo, se relaciona fácilmente con ε a través de la
ecuación:
N
Σ
γt(i) = εt(i, j) (4.136)
j=1
24
También conocido como algoritmo de Esperanza-Maximización.
Figura 4.14: Representación de la obtención de εt (i, j).
Realizando el sumatorio de cada uno de los valores que representa la ecuación anterior
para todo instante t, se obtiene la esperanza del número de veces que va a ser alcanzado el
estado Si a lo largo del tiempo, o lo que es lo mismo, el número de transiciones hechas desde
el estado Si. De forma semejante, si se realiza el sumatorio de εt(i, j) para todo instante
t, lo que se obtiene es la esperanza de transiciones desde el estado Si al S j. Expresando lo
anterior formalmente:
T
Σ −1
γt (i) ≡ esperanza del número de transiciones desde Si
t=1
T
Σ −1
εt (i, j) ≡ esperanza del número de transiciones desde Si a Sj
t=1
Con las fórmulas anteriores se puede obtener un método para la reestimación de los
parámetros de un Modelo Oculto de Markov:
π̄i = γ1 (i) (4.137)

ΣT −1
εt(i, j) (4.138)
¯ = t=1
aij
Σ T − 1γt(i)
t=1
Σ T−1
b̄ (k) = t=1,Ot=νk γt(j) (4.139)
j ΣT −1
t=1 t
γ (j)
La ecuación 4.137 indica la esperanza del número de veces que se va a encontrar el

modelo en el estado Si en el instante inicial. La ecuación 4.138 es el cociente entre la
esperanza del número de transiciones desde el estado Si al Sj y la esperanza del número
de transiciones que se producen desde el estado Si . Por último la ecuación 4.139 es el
cociente entre la esperanza del número de veces que se encuentra en el estado Sj y se da
la observación νk , y la esperanza del número de instantes en el estado Sj .
Utilizando el modelo actual, λ = {A, B, π}, para calcular un modelo nuevo, λ̄ =
{Ā, B̄, π̄}, Baum y su equipo [Baum 66], [Baum 70], [J. 75], probaron que:
1. El modelo inicial, λ, define un punto crı́tico de la función de coste P (O| λ) en el caso
de que λ = λ̄.
2. El modelo λ̄, es mejor que el λ en el sentido en que P (O| λ̄) > P (O |λ), es decir, que
la probabilidad de producir la secuencia de observaciones sea mayor con λ̄ que con
λ.
De este modo, reiterando el proceso descrito por el sistema de ecuaciones 4.137 a 4.139,
se mejora el modelo ya que se aumenta la probabilidad de que la secuencia de observaciones
sea producida por el modelo, hasta llegar a un l´ımite. Al resultado as´ı obtenido se le
denomina estimación de máxima verosimilitud del Modelo Oculto de Markov.
Las ecuaciones de reestimación de parámetros se pueden obtener maximizando, a través
de métodos de optimización por restricciones, la función auxiliar de Baum en la variable
λ̄:
Σ
Q(λ, λ̄) = P (Q|O, λ)log[P (O, Q|λ̄)] (4.140)
Q
Al igual que con las funciones de reestimación, Baum y su equipo [J. 75], probaron que
la maximización de Q implica aumentar la verosimilitud:
maxλ̄ [Q(λ, λ̄)] ⇒ P (Q|λ̄) ≥ P (Q|λ) (4.141)

Las fórmula de reestimación se pueden interpretar como la implementación del método
estadı́stico de Esperanza - Maximización, EM. El paso de esperanza serı́a el cálculo de la
función Q, y el de modificación serı́a el de maximización.
En cada iteración se cumplen las restricciones estocásticas:
N
Σ
π̄i = 1 (4.142)
i=1
N
Σ
āij = 1 1≤i≤N (4.143)
j=1
M
Σ
b̄j (k) = 1 1≤j≤N (4.144)
k=1
4.4.3. Densidades de observación continuas en MOM.

Hasta ahora las observaciones consideradas pertenecen a un conjunto finito de sı́mbolos
discretos, lo que permite utilizar una función de probabilidad discreta para describirlas.
Para el caso de que las observaciones sean señales continuas, y con la finalidad de evitar
pérdida de información, serı́a preciso modificar los modelos para que puedan trabajar con
densidades de probabilidad continuas.
La estructura de la función de densidad de probabilidad es una combinación lineal de
las funciones de densidad de probabilidad multidimensional:
M
Σ
bj (O) = cjmΩ(O, μjm, Ujm) 1≤ j≤N (4.145)
m=1
En donde O es el vector de observaciones, Ω es cualquier función de probabilidad

algorı́tmico-cóncava (por lo general una gaussiana) o con simetrı́a elı́ptica, con vector
de medias μjm y matriz de covarianzas Ujm, mientras que cjm son los coeficientes de
ponderación de las funciones Ω sujetos a las siguientes restricciones estocásticas:
M
Σ
cjm = 1 1≤ j≤N (4.146)
m=1
cjm ≥ 0 1 ≤ j ≤ N, 1 ≤ m ≤ M (4.147)
Asegurando que la función de densidad de probabilidad queda normalizada:
∫ ∞
bj(x)dx = 1 1≤ j≤N (4.148)
−∞
En este caso las fórmulas de reestimación son:
ΣT
c̄ = t=1 γt(j, k) (4.149)
jk ΣT Σ M
t=1 k=1 γt(j, k)
ΣT
t=1 γt(j, k)Ot
μ̄jk = ΣT (4.150)
t=1 γt (j, k)
ΣT
t=1 γt(j, k)(Ot − μjk)(Ot − μjk)
T
Ū = (4.151)
jk ΣT
t=1 γt(j, k)
αt(j)βt(j) cjkΩ(Ot, μjk, Ujk)
γt(j, k) = ΣN · ΣM (4.152)
j=1 t
α (j)βt (j) m=1 cjkΩ(O ,μ )
t jk ,U jk
En donde γt(j, k) es la probabilidad de estar en el estado Sj en el instante t, teniendo en

cuenta el k−ésimo componente de la combinación lineal, ver ecuación 4.152. Del mismo
modo que para el caso discreto, la ecuación de reestimación para cjk es la relación entre
la esperanza del número de veces que el modelo se encuentra en el estado Sj utilizando la
componente k−ésima de la combinación y la esperanza del número de veces que el sistema
se encuentra en el estado Sj. Para mujk se ponderan los sumandos del numerador de la
fórmula para cjk con el valor de observaciones, hayándose la esperanza de la observación
que proporciona el k−ésimo componente de la combinación. De igual modo se procede con
U jk.
4.4.4. Tipos de Modelos Ocultos de Markov

En la modelización de secuencias temporales empleando Modelos Ocultos de Markov,
la consideración a priori de las posibles transiciones entre los estados del modelo simplifica
la resolución de los problemas canónicos anteriores, por ejemplo en aquellos casos donde la
sintaxis subyacente de generación de la cadena de observaciones provoque un determinado
orden de aparición de las mismas, dando lugar a que en la matriz de probabilidades de
transición de estados, determinados elementos sean nulos.
Dependiendo de las restricciones de transición entre estados, se presentan los diferentes
tipos de modelos que se describen a continuación:
4.4.4.1. Modelo ergódico.
El caso más común de modelo es el

ergódico, véase figura 4.15, en este modelo
cualquier estado puede ser alcanzado desde
cualquier otro; lo que se traduce en que todo
elemento aij de la matriz A es estrictamente
positivo.
4.4.4.2. Modelo izquierda-derecha.

Sin embargo se han encontrado otros
tipos de modelos que describen mejor
determinados tipos de señales temporales
que el modelo ergódico. Uno de ellos es el
denominado modelo izquierda-derecha. Tiene
la peculiaridad de que a medida que el tiempo
aumente, el modelo o bien se mantiene en el Figura 4.15: Esquema del modelo ergódico.
mismo estado, o bien el ´ındice del estado se incrementa. No se tiene en cuenta de manera
explı́cita el tiempo, pero tiene la ventaja de modelar bien señales cuyas propiedades
cambian con el tiempo. Sus coeficientes tiene como propiedad:
aij = 0 j<i (4.153)
Es decir, no se permiten transiciones a estados cuyos ´ındices sean menores que el actual.
El estado inicial tiene la propiedad:
.
= ƒ0 i = 1 (4.154)
π1i i = 1
En la figura 4.16 se muestra una representación gráfica de lo que serı́a este modelo
suponiendo que lo componen cuatro estados.
Figura 4.16: Esquema del modelo izquierda-derecha.
Ası́ mismo es habitual imponer a este tipo de modelos un mayor número de restricciones
para evitar cambios grandes en los ´ındices del estado:
aij = 0 j > i + Δ, Δ ∈ N. (4.155)

En el caso del último estado se tendrá que:
aNN = 1 (4.156)
aNi = 0 i<N (4.157)
4.4.4.3. Modelo rutas paralelas.

Otro tipo de modelo derivado del anterior y bastante común es el de rutas paralelas,
véase figura 4.17. Se basa en la interconexión de modelos izquierda-derecha, presenta una
mayor flexibilidad cumpliendo las restricciones de los anteriores.
Figura 4.17: Esquema del modelo rutas paralelas.

4.4.4.4. Modelo de entrada salida.
Hasta el momento se ha tratado con modelos probabil´ısticos en los que en cada instante
de tiempo, t, se observa una variable, vt, generada desde un estado discreto oculto, qt, el
cual evoluciona según una dinámica de Markov; sin embargo existe una variante de
modelos probabil´ısticos derivados de los anteriores, denominados modelos de entrada-
salida 25 aplicados en clasificación, en donde para cada intervalo de tiempo, t ∈ 1, . . . , T ;
25
La denominación anglosajona de los mismos es “Input-Output Hidden Markov Model, IOHMM”
existe una variable yt que depende tanto del estado oculto en el que se encuentra el modelo,
qt, como de una variable de entrada observable, xt, [Bengio 96].
La variable de entrada representa el proceso observado, por lo que en la práctica
puede existir cierto preprocesamiento asociado al mismo; mientras que la variable de salida
representa las clases.
La distribución conjunta de estado y variables de salida condicionadas a las variables
de entrada vienen dada por:
T
P (q1:T , y1:T |x1:T ) = P (y1|x1, q1)P (q1|x1) P (yt|xt, qt)P (qt|xt, qt−1) (4.158)
t=2
Cuya representación gráfica se muestra en la figura 4.18 [Lauritzen 96].
Figura 4.18: Esquema del modelo entrada-salida.

Por lo tanto se comprueba que un Modelo Oculto de Markov de entrada-salida queda
definido por la probabilidad de transición de estado P (qt |xt , qt−1 ) y la probabilidad de
emisión P (yt |xt , qt ); siendo la principal diferencia con los MOM’s tradicionales el vincular
funcionalmente estas funciones de probabilidad con la variable de entrada xt, para lo cual
se puede utilizar técnicas de optimización no lineal [Lauzon; 01], en donde la función de
distribución de probabilidad de la transición de estado dependiente de la variable de
entrada xt se modela como:
ez
i
p(qt = i|xt, qt−1 = j) = Σ zk (4.159)

ke
En donde:
W
Σ U
.Σ Σ
zk = wkjf ujixit (4.160)
j=0 i=0
Siendo f una función no lineal.

La distribución de la función probabilidad de emisión p(yt = c| xt , qt = j) se modela

de forma semejante, obsérvese el paralelismo con las redes neuronales tipo perceptrón
multicapa [Bishop 95]. El denominador en la ecuación 4.159 asegura que la función de
distribución queda correctamente normalizada.
Este modelo permite especificar para cada instante de tiempo, t, la clase yt. De
forma alternativa, es posible asignar una sola etiqueta a todas aquellas secuencias de
entrenamiento que, siendo de tamaño T , provienen de una misma clase.26
4.4.4.5. Clasiftcación continua utilizando Modelos Ocultos de Markov de

entrada-salida.
En este tipo de modelo, por cada secuencia de entrada, xt , de duración T , se desea
obtener la clase o patrón al que más se aproxima; por lo que las secuencias utilizadas
durante el proceso de entrenamiento llevan asociada información de la clase a la que
pertenecen, formando el binomio: (xt , yt ), por lo que la función de probabilidad objetivo
en forma logar´ıtmica es:
M
m m
L(λ) = log 1:T |x1:T , λ) (4.161)
P (y m=1
En donde λ representa a los parámetros del modelo, y m representa la m− ésima
secuencia del conjunto de entrenamiento.
Una vez fijados los parámetros del modelo λ, se asignará una nueva secuencia
entrenamiento a la clase c∗ de modo tal que:
c∗ = argmaxC P (y1 = C,... , yT = C|λ) (4.162)
Una aproximación común para maximizar la función de probabilidad, considerando

los parámetros del modelo λ, es mediante el algoritmo de Esperanza - Maximización
(EM) [McLachlan 97][Nabney 02]. Sin embargo el paso de Maximización no puede
ser llevado a cabo en forma cerrada debido a las limitaciones de las funciones de
densidad de probabilidad asociadas a las transiciones y emisiones, por lo que se utiliza
una variante de dicho algoritmo, denominada Algoritmo de Expectación-Maximización
Generalizado,GEM, [McLachlan 97], en el que para la iteración i− ésima se realizan los
siguientes pasos:
1. Paso de Expectación. Resuelve la ecuación:
Q(λ, λi−1) = E(logP (q1:T , y1:T |x1:T , λ))P (q1:T ,y1:T |x1:T ,λi−1) (4.163)
26
Todas aquellas secuencias menores de T son separadas bien para su descarte final o bien para formar
una secuencia de tamaño apropiado.
2. Paso de Maximización. Modifica el valor de los parámetros del modelo λ de modo

que:
Q(λi, λi−1) ≥ Q(λ, λi−1) (4.164)
De este modo se asegura que la semejanza no decrezca en cada iteración y que la

secuencia de modelos {λi } converge a un mı́nimo local λ∗ .
La ecuación 4.163 puede expresarse como:
T
Σ
Q(λ, λ i−1 )= E(log(P (yt|xt, qt, λ)))P (q 1: ,y1: |x1:T ,λi−1) +
t=1 T T
ΣT
+ E(log(P (qt |xt , qt−1 , λ)))P (qt−1:T |x1:T ,y1:T ,λi−1) +
t=2
+E(log(P (q1|x1, λ)))P (q1 |x1:T ,y1:T ,λi−1) (4.165)
En donde se observa que el paso de Expectación necesita conocer P (qt|x1:T , y1:T , λi−1 ) y P
| , y1:T , λi−1), siendo ambas probabilidades marginales una forma de inferencia del
(qt−1:T x1:T
modelo, la cual se puede obtener a través de las fórmulas 4.166, [Bengio 96]
Recursión hacia delante.
P (qt|x1:t, y1:t) ∝ P (qt, yt|x1:t, y1:t−1) =

= P (yt|x1:t, qt, y1:t−1)P (qt|x1:t, y1:t−1) =
Σ
= P (yt|x1:t, qt) P (qt−1:t|x1:t, y1:t−1) =
qt−1
Σ
= P (yt|xt, qt) P (qt|x1:t, qt−1, y1:t−1)P (qt−1|x1:t, y(1 : t − 1)) =
qt−1
Σ
= P (yt|xt, qt) P (qt|xt, qt−1)P (qt−1|x1:t−1, y(1 : t − 1)) (4.166)
qt−1
En donde la constante de proporcionalidad se determina por normalización.
Recursión hacia atrás. Calcula p(qt , y1:T |x1:T ) en función de p(qt+1 |x1:T , y1:T )
Σ
P (qt|x1:t, y1:t) = P (qt:t+1|x1:t, y1:t) =
qt+1
Σ
= P (qt|x1:t, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) =
qt+1
Σ
= P (qt|x1:t+1, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) (4.167)
qt+1
El término P (qt |x1:t+1 , qt+1 , y1:t ) puede calcularse como:

P (qt|x1:t+1, qt+1, y1:t) ∝ P (qt:t+1|x1:t+1, y1:t) =
= P (qt+1|x1:t+1, qt, y1:t)P (qt|x1:t+1, y(1 : t)) =
= P (qt+1|xt+1, qt)P (qt|x1:t, y(1 : t)) (4.168)
En donde como en el caso anterior la constante de proporcionalidad se determina
por normalización.
La actualización de los parámetros del modelo se realiza utilizando el método de
descenso del gradiente [Bishop 95][Nabney 02]
i−1
λi = λi−1 α δQ(λ, λ ) (4.169)
.
+ . i−1
δλ λ=λ
En donde α es el parámetro de entrenamiento, que puede ser determinado utilizando
un conjunto de validación. Las derivadas de logP (yt |qt , xt , λ), logP (qt |qt−1 , xt , λ) y
logp(q1 |x1 , λ) con respecto a los parámetros del modelo se calculan empleando la regla
de la cadena (algoritmo de propagación hacia atrás [Rabiner 89]).
El procedimiento de entrenamiento descrito obliga a especificar la clase a la que
pertenece cada una de las secuencias de entrada, optimizando la función objetivo:
M
log P (y1m = c m ,... , yTm = cm|xm

1:T, λ) (4.170)
m=1
En donde cM es la etiqueta de clase correcta. Durante la fase de test se calcula P (y1 = c, . . .

, yT = c x1:T , λ)
| para cada una de las clases, asignándose la secuencia x1:T a aquella clase
que presente el valor de probabilidad más alto. Idealmente la distancia entre la
probabilidad de clasificar la secuencia en la clase correcta y clasificaciones incorrectas se
incrementa en las iteraciones realizadas durante la fase de entrenamiento. La probabilidad
de asignación incorrecta viene dada por:
M C
Σ
log P (y1m = i m ,... , yTm = im|xm1:T, λ) (4.171)
m=1 im=1,imƒ=cm
Sin embargo, cuando se especifica la misma clase para varias secuencias de entrada se
fuerza a que los recursos del modelo sean empleados para aprender esta caracter´ıstica, con
la consecuencia de que el modelo se centra en aprender la predicción de la misma
clase para cada intervalo de tiempo t, en lugar de centrarse en la clase que se predice. Para
solucionar este problema o bien se reconsidera la función objetivo a maximizar, una
alternativaMser´ıa:
m m m m m
P (y1 = c , . . . , yT = c |x1:T , λ)
log ΣC (4.172)
m=1 im=1 P (y1m = i m ,... , yTm = im|xm
1:T , λ)
o bien se utiliza el procedimiento de entrenamiento mostrado a continuación.
4.4.4.6. Clasiftcación de punto ftnal utilizando Modelos Ocultos de Markov

de entrada-salida.
Para evitar el problema de entrenamiento del método de clasificación continua,
existe un procedimiento alternativo en el que se asigna una misma clase a un todo un
conjunto de secuencias de entrenamiento que provengan del mismo patrón. El algoritmo de
entrenamiento concatena las secuencias propuestas asignando una única etiqueta de salida
de tal modo que t ƒ= T lo que implica que P (yt| x1:T ) = P (y|t x1:t), o lo que es lo mismo,
información futura de la secuencia de entrada no es considerada en la determinación de la
probabilidad a posteriori de la clase. En este caso, el entrenamiento maximiza la siguiente
función de semejanza logarı́tmica:
M
L(λ) = log P (ym|xmT 1:T , λ) (4.173)

m=1
Al igual que en el caso anterior, una vez entrenado el modelo, una nueva secuencia
de entrada puede ser aplicada con la finalidad de encontrar la clase a la que con mayor
probabilidad pertenecerı́a.
De forma análoga al procedimiento anterior se utiliza el algoritmo GEM en la
determinación de los parámetros del modelo.
1. Paso de Expectación. Resuelve la ecuación:
Q(λ, λi−1 ) = E(logP (q1:T , yT |x1:T , λ))P (q 1:T |x

1:T T ,y ,λi−1 ) (4.174)
2. Paso de Maximización. Modifica el valor de los parámetros del modelo λ de modo

que:
Q(λi, λi−1) ≥ Q(λ, λi−1) (4.175)
La ecuación 4.175 puede expresarse como:
Q(λ, λi−1) = E(log(P (yT |xT , qT , λ)))P (q T |x1:T ,yT ,λi−1) +

ΣT
+ E(log(P (qT |qT −1 , xT , λ)))P (qt−1:T |x1:T ,yT ,λi−1) +
t=2
+E(log(P (q1|x1, λ)))P (q1 |x1:T ,yT ,λi−1) (4.176)
En donde se observa que el paso de Expectación necesita conocer
P (qt |x1:T , yT , λi−1) y P (qt−1:T x1:T| , y1:T , λi−1), las cuales pueden ser calculadas como
sigue:
P (qt|x1:T , yT ) ∝ P (qT , yt|x1:T ) =

Σ
= P (yT |xT , qT ) P (qT |xT , qT −1)P (qT −1|x1:T −1) (4.177)
qT−1
En donde P (qt|x1:t), (t< T ) se obtiene la siguiente iteracion hacia delante:

Σ
P (qt|x1:t) = P (qt|xt, qt−1)P (qt−1|x1:t−1) (4.178)
qt−1
Mientras que P (qt |x1:T , yT se obtiene a través de la iteración hacia atrás:

Σ
P (qt|x1:T , yT ) = P (qT |x1:T , qt+1yT )P (qt+1|x1:T −1, yT ) =
qT−1
Σ
= P (qt|x1:t+1, qt+1)P (qt+1|x1:T , yT ) (4.179)
qt+1
En donde:
P (qt|x1:T +1, qt+1) ∝ P (qt:t+1|x1:t+1) =
= P (qt+1|xt, qt)P (qt|x1:t) (4.180)
4.4.5. Consideraciones prácticas en la implementación de Modelos

Ocultos de Markov.
En las secciones anteriores se ha considerado tanto la teorı́a básica como distintas
variaciones en la estructura del Modelo Oculto de Markov. En esta sección se describe
brevemente los problemas prácticos más importantes a resolver en la implementación de
Modelos Ocultos de Markov, como son: el escalado, la consideración de múltiples secuencias
de observación, la estimación de los parámetros iniciales del modelo, el efecto de secuencias
de datos insuficientes, o la elección del tipo de modelo. Estos problemas se han tenido en
cuenta en la toolbox de Matlab utilizada en la realización de los experimentos, véase
apartado 5.6.4.
4.4.5.1. Escalado.
Considerando las fórmulas de reestimación se observa que son sumatorios que contienen
términos de la forma:
t−1 t
aqs qs+1 bqs (Os )

s=1 s=1
Ya que tanto a como b son términos menores a 1, se comprueba que cuando t alcanza
valores altos, por ejemplo 10 o más, cada término α tiende exponencialmente a cero; con
cadenas de longitud suficiente el cálculo de αt (i) llega a exceder el rango de precisión
de cualquier computadora, incluso empleando doble precisión, de lo que se deduce que
la única forma razonable de realizar el calculo de los parámetros del modelo implique la
incorporación de un proceso de reescalado.
El método básico de escalado consiste en multiplicar αt (i) por un coeficiente de escala
independiente de i, es decir que sólo dependa de t, con el objetivo de mantener el valor
escalado de αt (i) dentro del rango dinámico de cálculo de la computadora para 1 ≤ t ≤ T .
Procedimiento semejante se realiza con los coeficientes βt(i).
3
4.4.5.2. Múltiples secuencias de observación.
En el caso de modelos izquierda-derecha es preciso utilizar más de una secuencia de
observación en la estimación de los parámetros debido a las restricciones en ellos impuestas,
ya que la naturaleza transitoria de los estados dentro del modelo sólo permite un número
limitado de observaciones.
Denominando el conjunto de las K secuencias observadas como:
O = [O(1), O (2 ) ,... , O(k)] (4.181)
Y asumiendo que cada secuencia de observación es independiente del resto de secuencias,
el objetivo es ajustar los parámetros del modelo λ que maximicen:
K K
P (O|λ) = P (O(k)|λ) = Pk (4.182)

k=1 k=1
Como las fórmulas de reestimación se basan en la frecuencia de ocurrencia de los
diferentes eventos, las fórmulas de reestimación con múltiples secuencias de observación
se modifican añadiendo juntas las frecuencias de ocurrencia individual de cada secuencia,
obteniéndose:
ΣK 1 ΣTk−1 k (k)
k=1 Pk t=1 Σ t
α (i)aijbj(Ot+1 )βt+1
k (j)
āij = ΣK 1 Tk−1 k k
α (i)β (j) (4.183)
k=1 P t=1 t t
ΣK 1 ΣTk−1 k
¯b (l) = k=1 Pk t=1,Ot=xt αtk(j)βkt (j)

(4.184)
j ΣKk=1 P1k ΣTkt=1
−1
αkt(j)βkt (j)
No siendo preciso reestimar πi ya que:
π1 = 1, πi = 0,i ƒ= 1 (4.185)
4.4.5.3. Estimación de los parámetros iniciales.

Desde un punto de vista teórico, las ecuaciones de reestimación proporcionan valores
para los parámetros del modelo que corresponden con un máximo local de la función de
semejanza; por lo que es importante elegir los parámetros iniciales de modo tal que este
máximo local coincida con el máximo global.
Por regla general no existe un método directo, sin embargo la experiencia demuestra
que tanto inicialización aleatoria (sujeta a las restricciones estocásticas, como a que los
valores iniciales sean distintos de cero) como estimaciones iniciales uniformes de π y A
son válidas para dar reestimaciones útiles de dichos parámetros en la gran mayorı́a de las
aplicaciones. Sin embargo para los parámetros asociados a estimación de observaciones B
una buena estimación inicial es importante para el caso de sı́mbolos discretos y esencial
en el caso de observaciones continuas. Estas estimaciones iniciales se pueden conseguir
mediante: segmentación manual de secuencias de observación en estados que promedian
observaciones entre los mimos, segmentación y promediado de observaciones a través de
métodos de que maximicen la semejanza, métodos de programación dinámica como k-
means y clustering.
4.4.5.4. El efecto de datos de entrenamiento insuftcientes.

Otro problema asociado con el entrenamiento de MOM’s, vı́a métodos de reestimación
de parámetros, es que la secuencia de observaciones empleada es finita, por lo que a menudo
suele haber un número insuficiente de ocurrencias para los diferentes eventos del modelo,
[Jelinek 80], [Rabiner 89].
Una solución podrı́a ser aumentar el tamaño del conjunto de las secuencias de
observación, lo cual no siempre es posible. Otra solución serı́a reducir el tamaño del
modelo, considerando bien menos estados, bien menos sı́mbolos observables por estado, o
bien añadiendo restricciones adicionales; aunque lo anterior siempre es posible a menudo
existen consideraciones fı́sicas que fundamentan la elección del tamaño del modelo. Una
tercera solución es interpolar el conjunto de estimación de parámetros de un modelo con
otro conjunto de parámetros de un modelo para el cual existe una cantidad adecuada de
datos de entrenamiento[Jelinek 80]. La idea es diseñar simultáneamente ambos modelos,
de modo que existan suficientes datos para estimar los parámetros del modelo menor e
interpolar las estimaciones de parámetros de los dos modelos.
λ̄ = sλ + (1 − s)λJ (4.186)
En donde λ representa los parámetros del modelo completo, λJ representa al modelo

reducido, y s es el coeficiente de ponderación entre ambos modelos, de este modo si se
dispone de un número elevado de secuencias de entrenamiento s → 1, mientras que si por
el contrario el número es reducido s → 0 [Jelinek 80]
4.4.5.5. Elección del modelo.

Uno de los puntos más importantes en la implementación de MOM’s es la elección de
la arquitectura del modelo:
Tamaño: número de estados que se consideran.
Tipo: ergódico, izquierda-derecha, rutas paralelas, entrada-salida, etc.
Conjunto de sı́mbolos de observación: discreto o continuo; funciones de modelización

simples o mezcla de múltiples F .
Elección de la parametrización de las funciones de observación.
Desafortunadamente no existe una única solución o metó do que de forma sencilla y

teóricamente correcta indique como se han de realizar estas elecciones. En la mayorı́a de los
casos dependerán tanto del tipo de señal que se modele, ası́ como del ámbito del problema;
en algunas aplicaciones el tamaño del modelo, aún siendo oculto, puede representar estados
con cierta significación fı́sica; en otros casos la consideración temporal de la señal puede
dar lugar a que ciertas topologı́as sean más adecuadas que otras, al igual que ocurre con
la elección de las funciones y parámetros asociados a la modelización de las observaciones.
5
4.4.6. Descripción del algoritmo de clasificación bietapa.
En los apartados anteriores se ha descrito la base teórica y consideraciones prácticas
asociadas a la aplicación de los Modelos Ocultos de Markov en el estudio de secuencias
temporales.
Aunque dichas técnicas has sido aplicadas con éxito en el área de reconocimiento del
habla mediante patrones temporales, su aplicación en la tecnologı́a de Interfaz Cerebro
Computador no es inmediata, debido a las caracter´ısticas intr´ınsecas que diferencian la
señal de voz de la señal electroencefalográfica, las cuales dan lugar a que, para su
caracterización, se prefieran patrones frecuenciales a los temporales.
Por tal motivo en esta tesis se propone un nuevo clasificador que aune la capacidad de
identificación y reconocimiento de las redes neuronales de tipo RBF, descrita en el
apartado 4.3.2, con la capacidad de modelización de secuencias propia de los Modelos
Ocultos de Markov.
La figura 4.19 representa el diagrama de bloques del clasificador propuesto. En él
se puede observar como, la clasificación de la señal electroencefalográfica introducida,
proviene de evaluar la probabilidad con la cual diferentes modelos ocultos de Markov
generar´ıan la secuencia de asignaciones, proporcionada por la red neuronal, asociada a la
señal electroencefalográfica.
Los modelos ocultos de Markov, tantos como actividades mentales entre las que
se quiere discriminar, son previamente entrenados con secuencias de asignaciones
provenientes de dichas actividades cognitivas. La secuencia de asignaciones son
proporcionadas por una red neuronal, la cual recibe datos de señal tras ser preprocesados,
normalizados y extraı́da la combinación de caracterı́sticas de la señal, tal y como se expone
en los subapartados siguientes.
4.4.6.1. Entrenamiento de la red neuronal.

La red neuronal considerada es de tipo RBF, Función de Base Radial. Esta categorı́a de
redes neuronales se caracterizan por su capacidad de interpolación, ası́ como por aprender
la región del espacio de entrada en la que se presentan las muestras a aprender, véase el
apartado 4.3.2.4. La función de activación utilizada tiene la siguiente expresion:
φ(x) = e−(x ); x = (wp − pp)sc

2
(4.187)
La figura 4.20 muestra la arquitectura de red neuronal empleada.

Las neuronas de la capa oculta, durante la fase de entrenamiento, se encargan de
aprender la localización de los vectores de entrada; mientras que en la fase de utilización,
ante la presentación de un nuevo vector de entrada, calcula la distancia entre éste y las
localizaciones de posiciones aprendidas, los resultados de las funciones de activación de las
neuronas más cercanas al vector propuesto serán más altos a los mostrados por neuronas
más alejadas, el parámetro sc controla la amplitud de la zona de influencia de cada neurona.
Figura 4.19: Algoritmo de clasificación bietapa.
De estudios previos se concluye que este tipo de red neuronal presenta un mejor
comportamiento que otros tipos de redes neuronales como por ejemplo MLP o PNN
[Mart´ınez 08].
Para el proceso de aprendizaje se consideran vectores de caracter´ısticas provenientes
de la señal EEG, capturada cuando el usuario realiza una de las diferentes actividades
mentales entre las que se quiere discriminar. De toda la población de caracterı́sticas
disponible por experimento, el 75 % se emplea para formar el conjunto de entrenamiento,
mientras que el 25 % restante se emplea para el conjunto de validación. Tras la
determinación de los conjuntos de aprendizaje y validación se obtienen las constantes
que permiten definir la normalización de los datos de entrada, posteriormente se obtiene
una matriz de transformación con objeto de reducir la dimensión del espacio de entrada de
la red neuronal [Martı́nez 07] [Martı́nez 08], dicha matriz permite proyectar los vectores de
Figura 4.20: Arquitectura de la red neuronal RBF.
caracterı́sticas en la dirección de los ejes sobre los que mejor se discriminan las actividades
cognitivas consideradas. Esta matriz de proyección se calcula de modo tal que el 90 % de
la variabilidad de las caracter´ısticas se mantenga, el 10 % restante de la variabilidad se
atribuye a ruido.
El proceso de entrenamiento permite el crecimiento dinámico del número de neuronas
de entrada que conforman la red neuronal de modo que se minimice el efecto de sobre-
aprendizaje, en la etapa de salida se utilizan tantas neuronas como actividades cognitivas a
discriminar. Por lo que los parámetros definitorios de la red neuronal y su proceso de
aprendizaje son: sc (define la zona de influencia de cada neurona de la red), el número
de actividades cognitivas a discriminar, y el error objetivo de entrenamiento (goal). El
bloque asignador que sigue a la red neuronal en la figura 4.19, se encarga de evaluar las
componentes del vector de salida de la red, detectar el que es mayor y si su valor es superior
a un determinado nivel de umbral δ, asignar la señal recibida al orden del componente
mayor del vector; si por el contrario resulta que ninguna de las componentes supera el valor
de umbral, la señal introducida no será asignada a ninguna de las actividades propuestas.
Una vez entrenada la red neuronal, cuando se introduce un vector de caracter´ısticas nuevo,
la actividad cognitiva que haya presentado muestras de aprendizaje más próximas al vector
de entrada presentado tendrá un nivel de activación más alto, y la salida correspondiente
tendrá un valor mayor al de las otras actividades mentales, véase fig.4.21.
4.4.6.2. Entrenamiento de los Modelos Ocultos de Markov.

Para el entrenamiento de los modelos ocultos de Markov se vuelven a emplear las
muestras de señal EEG tal y como se muestra en la figura 4.22.
Para cada una de las actividades cognitivas se procede a entrenar un modelo con las
siguientes caracter´ısticas:
Número de estados ocultos: 4
Número de objetos diferentes observables: 4
Figura 4.21: Entrenamiento de la red neuronal RBF.
Figura 4.22: Entrenamiento de los MOM’s.
Para el entrenamiento se utilizan cadenas de nueve elementos de longitud. En un

experimento previo con muestras sintéticas se concluyó que la mayor tasa de clasificaciones
correctamente identificadas se consegu´ıa con cadenas de longitud de nueve elementos
para la arquitectura del modelo propuesto. Tras el entrenamiento las probabilidades de
transición entre estados y de observación de los objetos quedan definidas. Mediante el
algoritmo de Viterbi es posible determinar con que probabilidad una secuencia es
proporcionada por un modelo.
4.4.6.3. Empleo del clasiftcador bietapa.

La implementación del algoritmo de clasificación descrito en esta sección se describe
en el apartado 5.6.4, a la vez que los resultados obtenidos de su utilización por varios
voluntarios se presentan en el apartado 6.4, la conclusión más significativa que se obtiene
en dicho apartado es que la capacidad de aprendizaje que se obtiene con este clasificador es
superior a la obtenida con un clasificador basado en redes neuronales de tipo RBF, aunque
con el tamaño del conjunto de datos utilizado para el aprendizaje el clasificador tiende al
sobre-aprendizaje de dicho conjunto, por lo que su capacidad de generalización no es todo
lo óptima que cabrı́a esperar atendiendo a los resultados de la fase de aprendizaje.
4.5 Clasiftcador basado en Máquina de Soporte de Vectores. 129
4.5. Clasificador basado en Máquina de Soporte de

Vectores.
4.5.1. Introducción a las Máquinas de Soporte de Vectores.
Bajo la denominación de Máquinas de Soporte de Vectores, MSV27 , se engloba
a un conjunto de métodos de aprendizaje supervisado, pertenecientes a la familia de
clasificadores lineales generalizados, aplicables tanto en problemas de clasificación como
de regresión [Cristianini 05b], [Burges 98], [Ivanciuc 07].
Su estructura se basa en una red estática de núcleos,28 los cuales operan sobre vectores
de caracterı́sticas que han sido transformados a un espacio de dimensión mayor a la del
espacio de caracter´ısticas original [Cristianini 05a], [Gunn 98], [Gunn 03].
Las MSV’s se emplean tanto en aplicaciones de clasificación como en regresión, su
caracterı́stica más importante es su buena capacidad de generalización, basada en la
determinación del hiperplano que da lugar a la máxima distancia de separación entre
los vectores transformados [Cristianini 05b],[Castro 03]. Esta distancia de separación se
obtiene mediante la construcción de dos hiperplanos paralelos al hiperplano de separación
óptima, localizados a ambos lados del mismo y que contengan al menos a uno de los
vectores transformados, denominado vector soporte, véase fig.4.23; se asume que cuanto
mayor sea esta distancia, mejor será la capacidad de generalización del clasificador
[Burges 98].
    Espacio de caracteris´ticas
Espacio de caracteristicás original transformado
m<n
n
m
R
X2
R U
2 H0
Hiperplano de
H1
H2 separacioń
óptima
Margen
X1
U1
Figura 4.23: Funcionamiento MSV.
Las operaciones que realiza una MSV en clasificación son [Gunn 98] [Cristianini 05a]:
Transformación de los datos o vectores de caracterı́sticas de entrada a un espacio de

mayor dimensión a través de una función Φ.
27
En inglés la denominación es “Support Vector Machine (SVM).”
28
También denominados como “Kernels”
El objetivo es formular el problema de modo que el procedimiento de clasificación

transforme impl´ıcitamente los datos operando con funciones kernel, K.
Cálculo del hiperplano óptimo que maximiza la distancia entre las clases
consideradas. Si los datos son linealmente separables, el hiperplano obtenido
maximiza el margen de separación, a la vez que minimiza la función de penalización
que considera las clasificaciones incorrectas.
Las MSV’s representan la extensión a modelos no lineales del algoritmo desarrollado

en 1963 por Vapnik y Lerner [Vapnik 63], basado en la teor´ıa de aprendizaje estad´ıstico de
Reconocimiento de Patrones, utilizando la dimensión de Vapnik-Chervonenkis,(V C),
como evaluador de la complejidad de dicho algoritmo [Chervonenkis 74].
En un corto intervalo de tiempo se han desarrollado numerosas aplicaciones basadas
en MSV en campos como [Ivanciuc 07]:
Farmacologı́a: empleándose para el diseño de medicamentos en la discriminación
entre inhibidores y desinhibidores, o en la predicción de propiedades biológicas, fı́sicas
y qu´ımicas de los mismos.
Quimiometrı́a: en la optimización de separación cromatográfica, o en la predicción
de la concentración de compuestos a través de muestras de análisis espectral.
En sensores: aplicándose a la predicción cualitativa y cuantitativa de sus medidas.
Ingenierı́a quı́mica: usándose en la modelización y detección de fallos de procesos
industriales.
En minerı́a de datos: para el reconocimiento automático de información cientı́fica.
En clasificación de señal EEG se ha aplicado en experimentos “Off-line” para el control
de dispositivos externos; obteniéndose, para el mejor de los casos y bajo condiciones de
laboratororio, tasas de clasificación correcta cercanas al 95 % [Nicolau 08] y [Sarcinelli 09].
4.5.2. Descripción del clasificador lineal óptimo.

El clasificador lineal óptimo se basa en la selección del hiperplano, H0 , que actuando
como frontera de separación entre las clases consideradas, maximiza la distancia a los
ejemplares más próximos de dichas clases, denominándose a estos datos “vectores soporte”,
sobre los mismos se dispondrán dos hiperplanos, H1 y H2 , paralelos al hiperplano H0 , o
hiperplano de separación óptima.
Los clasificadores basados en MSV se caracterizan por su buena capacidad de
generalización, directamente relacionada con la distancia entre los hiperplanos H1 y
H2, o margen; as´ı como por minimizar el efecto de sobre-aprendizaje del conjunto de
entrenamiento, del que son suceptibles otros métodos de aprendizaje como es el caso de
clasificadores basados en redes neuronales[Bishop 95], ya que con las MSV’s durante el
proceso de entrenamiento sólo se aprenden los vectores soporte, véase figura 4.24.
Hiperplano o´ptimo
Vectores
soporte Margen
Figura 4.24: Selección del hiperplano óptimo.
4.5.3. Descripción del problema de optimización lineal.

Dado un conjunto de datos o vectores de entrada x∈Rn de las diferentes clases y N,
∈ se
desea encontrar el valor de los parámetros del hiperplano: {w, b }, que da lugar a la
mayor separación del hiperplano a dichas clases.
Matemáticamente se obtiene la expresión recogida en la ecuación 4.188.
.
yi = 1 ∀xi ∈ Ci = A
wx + b ≷ y ii/ ⇒ (4.188)
yi = −1 ∀xi ∈ Ci = B
⇒ ∃(w∗ , b∗ ) / w ∗ x + b∗ = 0 Hiperplano óptimo
Aunque para el desarrollo formal se empleen sólo dos clases: { A, B} , las conclusiones
son extrapolables para el caso de múltiples clases bajo el paradigma de uno contra uno, o
uno contra todos, generando tantos clasificadores como clases.
El mejor hiperplano, para la clasificación de nuevos datos, es aquel cuya distancia de
separación a los vectores vecinos de ambas clases sea máxima.
Al hiperplano, H0 , ası́ obtenido se le denomina hiperplano de separación óptima, para el
cual el margen es máximo. Este margen se obtiene como la distancia entre dos hiperplanos,
H1 y H2, paralelos a H0, que contienen al menos a un vector de cada clase, denominados
vectores soporte.
La expresión matemática de H1 y H2 se muestra en las ecs.: 4.189 y 4.190.
H1 : wx − b = 1 (4.189)
H2 : wx − b = −1 (4.190)
Si los vectores de entrada son linealmente separables, es posible elegir dos hiperplanos entre
los que no haya datos y maximizen la distancia entre ellos [Cristianini 05b], [Burges 98],
[Gunn 98].
Ya que geométricamente el vector w es perpendicular al hiperplano que define, y la

distancia del hiperplano al origen del sistema de coordenadas viene dada por la ec. 4.191.
b
d= (4.191)
|w|
Utilizando las ecs. 4.189 y 4.190 se obtiene que la distancia entre H1 y H2 es:
2
d= (4.192)
|w|
Por lo que el objetivo de maximizar la distancia de separación entre ambos hiperplanos
es equivalente a minimizar |w| . A la vez que la solución propuesta debe evitar que haya
vectores de entrada dentro de la región entre ambos hiperplanos, ec. 4.193.
yi(wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.193)
Todo lo cual da lugar a la expresión del siguiente problema de optimización 29 :
Minimizar Ω(w) = 12|w|2 (4.194)

Considerando la restricción yi (wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.195)
Para el cual, en su resolución, se utiliza el método de los multiplicadores de Lagrange,
dando lugar a la siguiente función lagrangiana, ec. 4.196.
N
1 Σ
L(w, b, α) = wT w − α i[yi (wT xi + b) − 1] (4.196)
2 i=1
Cuya resolución en el punto óptimo da lugar al sistema de ecuaciones 4.197 y 4.198,

resoluble si los datos son linealmente separables, asegurando que el m´ınimo encontrado es
un m´ınimo global.
δL ΣN
= 0→ w= αyx (4.197)
δw iii
i=1
N
δL Σ
=0 → w= αi yi = 0 (4.198)
δb i=1
Obsérvese la analogı́a de la ecuación 4.197 con la solución del perceptrón.
Las ecuaciones anteriores dan lugar a:
N N N
Σ ΣΣ
w w=w
T T αi y i x i = αiαj y i y jx i x j (4.199)
i=1 i=1 j=1
Que sustituyendo en la ec.4.196 hacen que la función a maximizar Q(α) sea:

N N N
Σ 1 ΣΣ
J (w, b, α) = Q(α) = αi − α iα jy iyj xi x j (4.200)
i=1
2 i=1 j=1
29
El factor 1 se
2 introduce por conveniencia para el desarrollo posterior.
Estando sujeta a las restricciones:

N
Σ
α i yi = 0 (4.201)
i=1
αi ≥ 0 i = 1, ..., N.
En donde se puede demostrar que sólo los αi correspondientes a vectores soporte son
distintos de cero.
De todo lo cual se deduce que el hiperplano de separación óptima, H0 , sólo depende
de los vectores soporte provenientes del conjunto de entrenamiento.
Una vez hayados los valores α∗i se obtienen los coeficientes del hiperplano:
N
Σ
α∗i ⇒ w∗ = α∗i yi xi → b∗ = 1 − w∗T xs (4.202)
i=1
4.5.4. Margen blando.

En el análisis anterior se considera que en la región comprendida entre los hiperplanos
H1 y H2 no han de existir vectores, ni que éstos pudieran ser erróneamente clasificados.
Esta consideración es muy exigente para su aplicacion en casos prácticos, lo que motivó que
en 1995 Corinna Cortes y Vladimir Vapnik propusieran una nueva idea de margen máximo
[Vapnik 95], a la que denominaron “Margen Blando” la cual, para el caso en que no es
posible encontrar un hiperplano de separación óptimo, H0 , seleccionara aquel hiperplano
que separando los vectores de entrada tan limpiamente como fuera posible, permitiera
errores de clasificacion a la vez que maximiza la distancia al resto de los datos que han sido
correctemante identificados, véase la figura 4.25. Esta nueva variante introduce un
nuevo conjunto de variables, denominadas “variables de holgura”: h i ,i = {1, ..., N}, que
permiten ponderar el grado de desclasificación de cada vector, tal que:
yi(wT xi + b) ≥ 1 − hi, i = 1,... ,N (4.203)

En donde:
.
0 ≤ hi ≤ 1 → clasificación correcta.
h ≥ 0 ∀i ⇒
i (4.204)
hi > 1 → clasificación incorrecta.
Originando que la nueva función objetivo, Ω(w, h), contenga un término que penaliza
a las variables de holgura, convirtiéndose la optimización en un balance entre el mayor
margen y el error de penalización.
En caso de que la función de penalización sea lineal, la función objetivo (ec.4.194) se
transforma en:
ΣN
Minimizar Ω(w, h) = 21 |w|2 + C i=1 hi (4.205)
Considerando la restricción yi (wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.206)
Siguiendo un proceso de resolución semejante al seguido con anterioridad, da lugar

a que en el problema dual las variables de ajuste desaparezcan, manteniéndose sólo la
constante C como restricción adicional en los multiplicadores de Lagrange, la cual controla
el compromiso entre complejidad del modelo y el número de datos no separables, esta
constante se especifica empı́ricamente mediante procedimiento de validación cruzada.
hj
hi
1
1
Figura 4.25: Separación lineal: margen blando.
Funciones de penalización no lineales también han sido propuestas, sobre todo en

aquellos casos donde es preciso minizar el efecto de muestras anómalas; presentan el
inconveniente de aumentar la complejidad de la resolución del problema de optimización,
pues se tiende a perder la convexidad, siendo más complejo encontrar una solución global.
4.5.5. Descripción del clasificador no lineal.

Hasta ahora se ha descrito un algoritmo de clasificación lineal, a excepción de la
modificación de margen blando, lo que da lugar a que el número de aplicaciones prácticas
del mismo sea reducido. Esto motivó que, para aquellos problemas de clasificación de
conjuntos de datos no separables linealmente, Bernhard Boser, Isabelle Guyon y Vladimir
Vapnik, propusieran en 1992 [Vapnik 92] un nuevo tipo de clasificador, que tras la
transformación a través de una función no lineal Φ(.) de los conjuntos de datos originales
a conjuntos de datos en espacios de caracterı́sticas transformados, de dimensión superior a
la del espacio de caracter´ısticas original, y separables linealmente, emplearan el algoritmo
de determinación de hiperplano óptimo, H0 , como metó do de separación de dichos
conjuntos. De este modo, aunque el clasificador se base en un hiperplano en el espacio
de caracter´ısticas transformado, este puede ser no lineal en el espacio de caracter´ısticas
original.
El algoritmo resultante es formalmente similar al descrito con anterioridad, con la

diferencia de que el producto escalar de vectores original es reemplazado por una función
de kernel K no lineal.
Descrito matemáticamente, el procedimiento aplica una transformación no lineal, Φ(.),
a los datos de entrada transformándolos a un espacio de dimensión superior:
Φ
Rn −−−−→ Rm , m>n
en el cual es posible realizar una separación lineal de los datos transformados.
Figura 4.26: Separación no lineal.

Por lo que, teniendo en cuenta el desarrollo del procedimiento de optimización lineal
anterior y la consideración realizada para margen blando, la función objetivo a minimizar,
Ω(w, h), es equivalente a la considerada en la ec. 4.205:
ΣN
1 T
Ω(w, h) = w w + C hi (4.207)
2 i=1
Teniendo en cuenta que en las restricciones equivalentes a la ec. 4.206, la función de

transformación Φ(x) sustituye al vector de datos x, se da lugar a:
yi(wT Φ(xi) + b) ≥ 1 − hi, i = 1,... ,N (4.208)

hi ≥ 0 ∀i
Obteniéndose los parámetros del hiperplano {w, b} en el nuevo espacio de

caracter´ısticas Rm.
Hay que tener en cuenta que la transformación explı́cita, Φ(x), es costosa en caso
de que m sea elevada, por lo que se buscan alternativas para no tener que realizar la
transformación explı́cita de cada dato, dando lugar a las denominadas funciones Kernel
K, mencionadas en 4.5.1.
4.5.5.1. Función Kernel K.

Teniendo en cuenta que en la ecuación 4.200 de la formulacion dual, aparece solamente
el producto escalar de los datos, y que su equivalente para el caso de clasificación no lineal
serı́a la ecuación 4.209.
N N N
Σ 1 ΣΣ T
Q(α) = α i− α αi y i jΦ(x i) Φ(xj )
j y (4.209)
i=1
2 i=1 j=1
El objetivo es encontrar una funcion en la que el producto escalar de las

transformaciones de cada dato, Φ(x), sea igual a la transformación del producto escalar
de los datos, lo cual origina que no sea preciso transformar expl´ıcitamente los datos de
entrada para resolver el problema de optimización o entrenamiento de las MSV, ni que
sea preciso el conocimiento exacto de la expresión de la función Φ(x).
K(xi · x j) = Φ(xi) · Φ(xj) (4.210)

A modo de ejemplo [Castro 03], [Cristianini 05a], sea a = (a1, a2):
√ √ √
Φ(a) = (a2, a2, 2a1a2, 2a1, 2a2, 1) (4.211)
1 2
El producto escalar de Φ(a) · Φ(b) será:

Φ(a) · Φ(b) = a21b21 + a22b22+ 2a1b1a2b2 + 2a1b1 + 2a2b2 + 1 = . . . (4.212)
= (a1b1 + a2b2 + 1)2 = (aT b + 1)2
De donde se deduce que una posible función kernel, K(a · b), asociada a Φ(a) serı́a:
K(a · b) = (aT b + 1)2 = Φ(a)Φ(b) (4.213)

El teorema de Mercer indica si una funcion kernel cumple la propiedad de producto
escalar y por tanto es útil para una MSV [Cristianini 05b]
∞
Σ
K(u, v) = amΦ m(u)Φm(v), am ≥ 0 (4.214)
m
∫ ∫
K(u, v)g(u)g(v)dudv > 0, g ∈ L2 (4.215)
Este teorema no indica sin embargo como construir las funciones Φ(x). La tabla 4.2
recoge los tipos de funciones kernel más utilizados [Gunn 98].
Las funciones compuestas por sumas y/o productos de funciones kernel también son
funciones kernel [Cristianini 05b], [Burges 98], [Gunn 98].
4.5.6. Comparación entre Máquinas de soporte de Vectores y Redes

Neuronales.
La tabla 4.3 presenta una comparación cualitativa entre clasificadores basados en
Máquinas de Soporte de Vectores y Redes Neuronales Artificiales.
Tipo MSV. Función kernel. Comentario.
Polinómica. (xT y + 1)p El valor de p lo especifica el usuario.
|x−x |i 2
)
RBF Gaus- e−( 2σ2 El valor de σ lo especifica el usuario y es
sianas. común a todas las funciones kernel
|x−x |i
RBF Expo- e−( 2σ2 ) El valor de σ lo especifica el usuario y es
neciales. común a todas las funciones kernel
Perceptrón tanh(β0xT xi + β1) Solo ciertos valores de β son válidos

de 2 capas
sin(N + 21)(x−y)
Serie de 1 El valor de N lo especifica el usuario.
sin( 2(x−y))
Fourier.
ΣN
Splines. r=0 xryr+ El orden de la curva k y el número
ΣN k k
s=1 (x − τs )+( y − τs )+ de los N puntos localizados en τs lo especifica
el usuario.
B splines. B2N+1(x − y) El valor de N lo especifica el usuario.

Tabla 4.2: Funciones Kernel.
MSV. Redes neuronales.

Las funciones Kernel transforman los Las capas ocultas transforman los datos a
datos de entrada a espacios de dimensión espacios de cualquier dimensión.
muy superior.
El espacio de búsqueda tiene sólo un El espacio de búsqueda tiene múltiples
m´ınimo global. m´ınimos locales.
El entrenamiento es muy eficiente. El entrenamiento es costoso.
Clasificación eficiente. Clasificación eficiente.
Se diseña la función Kernel y el parámetro Se diseña el número de capas ocultas y
de coste C. nodos.
Buen funcionamiento en problemas tipo. Buen funcionamiento en problemas tipo.
Comportamiento muy robusto para gene- Precisan controlar el sobre-aprendizaje.
ralización, menor necesidad de heurı́sticos
para entrenamiento.
Tabla 4.3: Comparación entre SVM y Redes Neuronales.
4.5.7. Implementaciones.
Tal y como se puede dedudir de la secciones anteriores, los parámetros del hiperplano
de separación óptima, H0 , se obtienen tras la resolución de un problema de optimización;
actualmente existen diferentes tipos de algoritmos especializados en la rápida resolución
de problemas de optimización aplicados a MSV.
Para el desarrollo del clasificador empleado en los resultados del capı́tulo 6 se han
valorado tres conjuntos de herramientas, “Toolboxes”, de distribución gratuita para
Matlab:
1. Matlab Support Vector Machine Toolbox. Disponible en [Gunn 05]:

http://www.isis.ecs.soton.ac.uk/resources/svminfo/
2. SVM and Kernel Methods Matlab Toolbox. Disponible en [Canu 05]:

http://asi.insa-rouen.fr/ensignants/ãrakotom/toolbox/index.html
3. LIBSVM – A Library for Support Vector Machines. Disponible en [Chang 07]:

http://www.csie.ntu.edu.tw/c̃jlin/libsvm/
Eligiéndose la segunda opción por ser eficiente, disponer de una interfaz clara y
adecuada documentación, hay que destacar que junto con la primera opción también se
suministran abundantes ejemplos.
La implementación del algoritmo de clasificación descrito en esta sección se describe
en el apartado 5.6.5, a la vez que los resultados obtenidos de su utilización por varios
voluntarios se presentan en el apartado 6.5, la conclusión más significativa que se obtiene
en dicho apartado es que los clasificadores basados en Máquinas de Soporte de Vectores que
utilicen Kernels polinómicos de orden 4 ó 5 presentan mejores resultados que los basados
en Kernels gaussianos.
Capı́tulo 5
Procedimientos experimentales y
aplicación de demostración.
En este cap´ıtulo se describen las actividades cognitivas propuestas a modo de interfaz,
ası́ como los protocolos de preparación del usuario y del equipo de adquisición y
procesamiento, que han sido empleados en la realización de los procedimientos
experimentales a cuyos resultados se les aplican las diferentes técnicas de clasificación
presentadas en el capı́tulo 4. Por último se presenta una propuesta de arquitectura para
el empleo de la tecnologı́a ICC en un dispositivo genérico que ha sido implementada en la
aplicación de demostración.
5.1. Protocolo preparación del usuario.

Para que el registro de señal electroencefalográfica presente una menor sensibilidad a
perturbaciones causadas por ruido y artefactos, es preciso que sobre el usuario se realicen
las siguientes actividades:
1. Limpieza de la zona de cuero cabelludo sobre la que se dispondrán los electrodos.
El objetivo de esta actividad es mejorar la conductividad eléctrica de la zona,
eliminando células de piel muerta, grasa y suciedad.
2. Aplicación de gel conductor. Mediante la utilización de un gel conductor se aumenta
la conductividad en la zona de contacto del electrodo con la piel, lo que da lugar a
registros de señal con mayor amplitud.
3. Colocación de los electrodos. Tal y como se ha indicado en el capı́tulo 3, los electrodos
se disponen en las proximidades de C3 y C4, dando lugar a dos canales diferenciales.
4. Medida de impedancia entre cada electrodo y el electrodo de referencia de masa del
amplificador. Cuanto menor sea la impedancia de la fuente de origen de la señal
muestreada, mayor será su inmunidad frente a perturbaciones causadas por ruido
electromagnético, por lo que se comprueba que la impedancia entre los electrodos
activos de los canales y el electrodo de referencia de masa del bio-amplificador sea
inferior a 4KOhms.
140 Procedimientos experimentales y aplicación de demostración.
Figura 5.1: Localización de los electrodos.
La elección de C3 y C4 como punto de localización de los electrodos se debe a que como

demuestran las investigaciones del equipo del Dr.S.J.Roberts [Penny 00] [Sykacek 03], o
Dr.J.Millán: [Babiloni 00], [Gerstner 04], [Millan 03]; es en esta zona encefálica en donde se
registran niveles de señal electroencefalográfica más altos, cuando se comparan actividades
cognitivas en las que se ven involucrados ejercicios de imaginación con ejercicios de
planificación y realización de movimiento. Es ası́ mismo en esta zona donde se produce
una mejor detección de ritmos μ [Birch 00] [Lauer 00] [Pineda 00], relacionados con los
potenciales de desincronización y posterior sincronización asociados a la realización de
movimiento, lo cual ha sido empleado por el equipo del Dr. Wolpaw para el desarrollo de
su dispositivo ICC: [Wolpaw 07],[Wolpaw 02],[Wolpaw 00b], [Wolpaw 03].
Investigaciones realizadas por el equipo del Dr. Pfurtscheller, dirigidas hacia la
localización de patrones geométricos de actividad cerebral cuando se realizan diferentes
tipos de tareas mentales, [Pfurtscheller 00], [Scherer 04], [Pfurtscheller 03]; as´ı como
as´ı los trabajos de Dra.C.Neuper y Dr. N Bribaumer: [Obermaier 01b], [Blankertz 04],
[Hinterberger 04], [Birbaumer 03], corroboran las localizaciones de los electrodos C3 y C4
como unas de las que más capacidad de discriminación poseen.
5.2. Descripción del equipo de adquisición y procesamiento.

El equipo de adquisición y procesamiento se compone de los siguientes dispositivos, en
los que se ajustan los parámetros indicados.:
Electrodos superficiales tipo Au-Cu. Impedancia entre el electrodo activo N y el
electrodo de referencia de masa del bio-amplificador: ZN ≤ 4KOhms.
Bio-amplificador. Modelo: g.BSamp Fabricante: g.tec. Filtro Notch de rechazo de
banda sintonizado a 50 Hz. Filtro paso alto sintonizado a 0.5 Hz. [Guger 05].
Acumulador. Modelo: Akkupack. Fabricante: g.tec
Tarjeta de adquisición. Modelo: PCI-MIO-16 E-4. Fabricante: National Instrument.
Frecuencia de muestreo: Fs = 384Hz. Bloque de muestras considerado: N = 128.
[Instruments 01]
PC para procesamiento de señal e interfaz con el usuario.
5.3 Descripción de las actividades cognitivas. 141
Figura 5.2: Componentes del sistema.
Una vez realizado el conexionado y puesta en marcha de los elementos se procede a

observar la evolución temporal de los cuatro canales de señal adquiridos:
Canal 1: Corresponde a los electrodos dispuestos en C3J y C3JJ .
Canal 2: Corresponde a los electrodos dispuestos en C4J y C4JJ .
Canal 3: Electrodos dispuestos para registrar la actividad ocular.
Canal 4: Canal sin electrodos conectados, permite tener una estimación del nivel de
ruido interno presente en el bio-amplificador.
Tras la inspección temporal de la señal de cada uno de los canales se procede a observar la
estimación espectral de potencia de los mismos, se comprueba que la activación del filtro
Notch provoca una reducción significativa de la componente presente en 50 Hz.
5.3. Descripción de las actividades cognitivas.

Los dispositivos basados en la tecnologı́a ICC endógenos parten de la hipótesis de que
actividades cognitivas diferentes dan lugar a patrones de ondas electroencefalográficas
distintos, los cuales tras ser caracterizados e identificados permiten el control del
dispositivo externo asociado.
Se ha escogido el siguiente conjunto de actividades cognitivas a efectos de poder
comparar los resultados con los obtenidos por otros grupos de investigación donde se
utilizan actividades cognitivas equivalentes [Penny 00], [Perelmouter 00], [Cincotti 03].
Actividad matemática. Al usuario se le instruye para que piense en una operación
matemática sencilla que necesite de su concentración, por ejemplo la resta sucesiva
de un número primo a una cantidad elevada.
Imaginación de movimiento. Al usuario se le indica que debe imaginar que mueve sus
extremidades superiores, en particular la mano derecha, pero sin que llegue a realizar
el movimiento propiamente dicho. Un ejemplo ser´ıa imaginar que esta tocando una
guitarra.
Relax. En esta actividad al usuario se le sugiere que mantenga la mente en blanco,
relajándose todo lo que pueda.1
1
Resaltar que la parametrización e identificación de la actividad de relax es novedosa, permitiendo una
mejor identificación y posterior clasificación de los patrones de señal electroencefalográfica asociados a las
actividades cognitivas.
5.4. Descripción del protocolo para el procedimiento Off-

line.
Mediante el proceso experimental “Off-line” se adquieren registros de señal
electroencefalográfica mientras el usuario realiza las actividades cognitivas propuestas,
sin que el sistema proporcione realimentación de la tasa de discriminación alcanzada.
En la figura 5.3 se presenta el flujograma de desarrollo del experimento.
Figura 5.3: Flujograma procedimiento “Off-line”.

5.4 Descripción del protocolo para el procedimiento Off-line. 143
La finalidad de esta fase experimental es obtener un conjunto de registros de señal

electroencefalográfica con el que verificar que, para el usuario considerado, es posible
discriminar entre las actividades cognitivas propuestas, y a su vez puedan ser utilizados
para el entrenamiento de los clasificadores.
En cada sesión experimental el supervisor del experimento introduce en el sistema el
número de réplicas a realizar, Nrep 2 , y el número de actividades cognitivas consideradas
Nact3
Cada réplica queda compuesta por tantos registros de señal electroencefalográfica como
número de actividades cognitivas se consideren, Nact . La duración de cada registro es de
siete segundos. Considerando que la frecuencia de muestreo es de FS = 384Hz y que cada
ventana de análisis tiene una extensión de N = 27 = 128 muestras, por cada registro se
obtienen NW = 21 ventanas de análisis. Para cada réplica, el sistema presenta en pantalla,
de forma aleatoria, la actividad cognitiva en la que debe pensar el usuario. La adquisición
de señal comienza tras cinco segundos de presentación del aviso de la actividad cognitiva
en la que concentrase.
Durante el desarrollo del experimento el usuario se encuentra sentado en frente de la
pantalla del sistema de adquisición, a una distancia de 50 cm, con las manos en posición
visible para el supervisor del experimento, quien comprueba que no se produce movimiento
alguno de las mismas. El resto de dispositivos electrónicos cercanos al experimento son
desconectados para evitar posibles perturbaciones.
2
Por defecto se considera Nrep = 10.
3
Por defecto se considera Nact = 3.
5.5. Descripción del protocolo para el procedimiento On-

line.
En el proceso experimental
“On-line” al usuario se le reali-
menta información del proceso de
clasificación de la señal adquiri-
da en el instante inmediatamen-
te anterior. En pantalla se mues-
tra el icono objetivo, en forma
de cuadrado, dispuesto aleatoria-
mente en la parte izquierda o en
la derecha; un cursor, en forma
de rombo, se desplaza horizontal-
mente dependiendo del resultado
de la clasificación.
La figura 5.4 presenta el flujogra-
ma de desarrollo del experimen-
to. Se emplean las mismas acti-
vidades cognitivas que en el pro-
cedimiento “Off-line”, utilizando
los registros de señal previamente
adquiridos para entrenar un cla-
sificador basado en redes neuro-
nales de tipo RBF. El supervisor
del experimento indica el núme-
ro de actividades cognitivas con-
sideradas, Nact , y el número de
réplicas a realizar, Nrep , ası́ mis-
mo se realiza la asociación de ac-
tividad cognitiva con el sentido
de movimiento, comunicándoselo
verbalmente al usuario. La dura-
ción del experimento es de sie-
te segundos, presentando el icono
objetivo con una antelación de
cinco segundos. En cada réplica
el sistema presenta el icono obje-
tivo aleatoriamente en la derecha
o en la izquierda de la pantalla.
Figura 5.4: Flujograma procedimiento “On-line”.

5.6 Procedimientos experimentales de clasiftcación. 145
5.6. Procedimientos experimentales de clasificación.

En esta sección se muestran los diagramas de actividad [Arlow 05] empleados en los
procedimientos de aplicación de las diferentes técnicas de clasificación presentadas en el
capitulo 4, cuyos resultados se recogen en el cap´ıtulo 6.
En la figura 5.5 se muestra el diagrama asociado al procesamiento de los registros de
señal electroencefalográfica, que permite obtener los vectores de caracterı́sticas a partir de
las muestras de señal EEG adquiridas.
Figura 5.5: Procedimiento de procesamiento registros EEG.

5.6.1. Contraste estadı́stico de poblaciones.
La figura 5.6 repre-

senta el diagrama de
actividad empleado en
el procedimiento experi-
mental que implementa
el contraste estad´ıstico
de poblaciones.
Obsérvese que el pro-
cedimiento se realiza
para cada tipo diferen-
te de ventana de pro-
cesamiento, recuperan-
do los vectores de ca-
racter´ısticas a ellas aso-
ciados. Para cada canal
electroencefalográfico se
realizan contrastes inde-
pendientes de las po-
blaciones de cada com-
ponente del vector de
caracter´ısticas, conside-
rando parejas de activi-
dades cognitivas, lo que
da lugar a que el proce-
so se reitere N veces:
. Σ
3
N= ·2·7·6 = 252
2
Figura 5.6: Procedimiento estadı́stico de comparación de poblaciones.

5.6.2. Análisis Discriminante Lineal.
La figura 5.7 repre-

senta el diagrama de ac-
tividad asociado a la
implementación del ex-
perimento basado en la
técnica de Análisis Dis-
criminatorio Lineal.
Al igual que en el ca-
so anterior, el procedi-
miento experimental se
realiza con los vectores
de caracter´ısticas obte-
nidos tras el procesa-
miento de las muestras
de señal electroencefa-
lográfica con cada uno
de los diferentes tipos de
ventas de procesamien-
to.
As´ı mismo, para
determinar la poten-
cia de discriminación
obtenida, con cada
tipo de ventana de
procesamiento cuando
se aplica la técnica
LDA, se utiliza el
contraste estad´ıstico
de poblaciones sobre el
vector de caracter´ısticas
transformado.
Figura 5.7: Procedimiento de aplicación de la técnica LDA.

5.6.3. Clasificadores basados en redes neuronales.
La figura 5.8 representa el

diagrama de actividad asocia-
do al experimento que emplea
clasificadores basados en re-
des neuronales de tipo MLP,
RBF y PNN. Por cada ti-
po de clasificador se realizan
dos implementaciones, una de
ellas considera redes neuro-
nales independientes por ca-
da canal electroencefalográfi-
co, mientras que la segunda
emplea una única red neuro-
nal que considera de forma
conjunta ambos canales.
Figura 5.8: Procedimiento de aplicación de clasificadores basados

en redes neuronales.
5.6.4. Clasificador bietapa RBF-MOM
La figura 5.9 representa el dia-

grama de actividad de la implemen-
tación del experimento basado en
el empleo del clasificador bietapa
RBF-MOM.
La implementación consta de
cuatro bloques principales. En el
primero se genera el conjunto de da-
tos que se emplearan para el entre-
namiento y prueba, considerando los
tres tipos de actividades cognitivas.
Como procedimiento de validación
se emplea el método de validación
cruzada, por lo que del total de se-
siones de datos una de ellas se re-
serva para validación, empleando el
resto para el entrenamiento, el pro-
cedimiento se replica seleccionando
secuencialmente la sesión empleada
para validación.
En el segundo bloque se realiza
el entrenamiento del preclasificador
basado en redes neuronales de ti-
po RBF. Posteriormente se proce-
de al entrenamiento de tres modelos
ocultos de Markov, uno por activi-
dad cognitiva considerada, partien-
do de secuencias de preclasificación
de 9 elementos proporcionadas por
el preclasificador RBF.
Por último en el cuarto bloque
se prueba el conjunto de vectores
de caracter´ısticas reservado para el
proceso de validación cruzada.
Figura 5.9: Procedimiento de aplicación del clasificador

bietapa RBF-MOM.
5.6.5. Clasificador basado en Máquinas de Soporte de Vectores.
La figura 5.10 representa

el diagrama de actividad de la
implementación del expe-
rimento que emplea el clasi-
ficador basado en Máquinas
de Soporte de Vectores. Al
igual que en los apartados an-
teriores, en una primera eta-
pa se realiza la carga de datos
provenientes de las activida-
des cognitivas consideradas.
Posteriormente se proce-
de a la determinación de los
parámetros del kernel y de-
terminación de los conjuntos
de datos para entrenamiento
y prueba.
Se continua con el entre-
namiento del clasificador, ba-
sado en tres sub-clasificadores
bajo el paradigma de uno con-
tra uno, ya que es más selec-
tiva que la comparación uno
contra el resto.
Por último se realiza la
prueba de rendimiento y guar-
dado de datos.
Figura 5.10: Procedimiento de aplicación del clasificador basado en

MSV.
5.7 Descripción de arquitectura dispositivo ICC. 151
5.7. Descripción de arquitectura dispositivo ICC.

En esta sección se presenta la propuesta de arquitectura a nivel de análisis para un
dispositivo ICC, la cual ha sido empleada en una aplicación para deletrear palabras
en un sistema informático basado en entorno PC. Se ha escogido esta aplicación por
su utilidad casi directa por personas que padecen algún tipo de sı́ndrome de bloqueo.
Hay que resaltar que este tipo de aplicación, basada en la utilización de un paradigma
de ICC endógeno y en el empleo de sólo dos canales electroencefalográficos, precisa de
usuarios entrenados y altamente motivados, pues deletrear correctamente una palabra a
través de en un algoritmo de decisión por dicotomı́a requiere un número elevado de
clasificaciones correctamente concatenadas, lo que significa un nivel de concentración
elevado. La definición de la aplicación se realiza empleando UML, [Ambler 05], [Arlow 05],
[Pilone 05], [Rumbaugh 00b], [Rumbaugh. 00a], [Rumbaugh. 99].
5.7.1. Identificación de actores.

En la aplicación para deletrear palabras se han identificado dos actores.
Usuario. Persona encargada de controlar la aplicación a través de sus patrones
cerebrales endógenos, asociados a las actividades cognitivas propuestas.
Controlador. Persona a cargo de realizar los protocolos de preparación del usuario
y del sistema, ası́ como supervisar el correcto funcionamiento de la aplicación y la
puesta en marcha / apagado del sistema.
5.7.2. Descripción de casos de uso.

Los casos de uso indi-
can como se va a compor-
tar la aplicación desde el
punto de vista de los ac-
tores, se trata pues de la
descripción de la funcio-
nalidad requerida al sis-
tema. Desde un punto de
vista de análisis se consi-
deran sólo los casos de uso
claves para los actores, tal
y como se muestra en la
figura 5.11.
Figura 5.11: Casos de uso de la aplicación.

5.7.2.1. Deletrear palabra.

Condiciones iniciales:
Los procedimientos de preparación de usuario y equipo han sido llevados a cabo y
el sistema funciona correctamente.
La aplicación presenta en pantalla una ventana semejante a la mostrada en la figura
5.12, en donde en la parte superior aparecen letras del alfabeto, mientras que en la
parte inferior se muestran caracteres numéricos, ası́ como las secuencias de control
de “Espacio” y “Fin”. En la parte izquierda se muestra el cursor controlado por
el usuario. En la parte central se muestran mensajes de aviso para el usuario. Por
último, inmediatamente debajo de la secuencia de caracteres, en la parte inferior se
muestran los caracteres seleccionados.
La asociación de movimiento vertical del cursor con las actividades cognitivas, se ha
realizado conforme a la elección del usuario.
El usuario ha identificado tanto la palabra que desea deletrear, como la primera letra
de dicha palabra.
Figura 5.12: Interfaz de la aplicación demostrador.

Flujo principal del caso de uso:

1.a El usuario realiza la actividad cognitiva asociada al desplazamiento del cursor, que lo
acerca a la mitad que contiene el carácter que se desea escribir.
2.a La aplicación procede a realizar registros de señal electroencefalográfica siguiendo
el protocolo del procedimiento “On-line”, apartado 5.5, y desplaza el cursor
verticalmente según el patrón cognitivo identificado. Tras N desplazamientos
sucesivos en el mismo sentido, el cursor se posiciona sobre el grupo de caracteres
elegido.4
3.a El paso 2.a. se repite hasta que el cursor se posiciona sobre el grupo de caracteres
superior o inferior.
4.a Si el grupo de caracteres alcanzado queda compuesto por más de un elemento, la
aplicación procederá a presentar la primera mitad en la parte superior y la segunda
en la inferior.5 Si el número de caracteres seleccionado es impar, la primera mitad
tendrá un carácter menos que la segunda. El cursor se reposicionará en el centro de
la ventana y se volverá al punto 1.a.
4.b En caso de que el grupo de caracteres alcanzado quede compuesto por un único
elemento, éste será el carácter seleccionado, pasando a mostrarlo en la zona en la
que se deletrea la palabra elegida.
La aplicación procederá a reposicionar el cursor en la zona central de la ventana,
mostrará el alfabeto en la parte superior y la secuencia numérica en la parte inferior,
tras lo cual se volverá al punto 1.a.
Postcondiciones.
La aplicación permanecerá activa mostrando los caracteres seleccionados hasta que el
supervisor decida finalizarla.
Las muestras de señal electroencefalográfica adquiridas, ası́ como el procesamiento de
las mismas y las selecciones llevadas a cabo serán almacenadas en los correspondientes
ficheros.
Flujos alternativos.
2.b Si el registro de actividad electroencefalográfica no puede clasificarse como
perteneciente a alguna de las actividades cognitivas asociadas a movimiento del
cursor, o su nivel de certeza en el reconocimiento es inferior a un determinado valor
de umbral, el cursor no se desplazará.
4
N será configurable, siendo su valor por defecto N = 3.
5
La selección de los caracteres se realiza por dicotomı́a.
5.7.2.2. Puesta en marcha del sistema.

La preparación del usuario se ha realizado conforme a lo indicado en el apartado 5.1.
El supervisor realiza la puesta en marcha del sistema, verificando el correcto
funcionamiento de los componentes según se describe en el apartado 5.2.
1.a El supervisor inicia la aplicación.
2.a La aplicación solicita del supervisor los parámetros de la sesión:
Identificación de usuario.
Número de sesión.
Número de actividades cognitivas.
Identificación de las actividades cognitivas.
Número de réplicas consideradas.
3.a El supervisor introduce los parámetros de configuración de la sesión.
4.a El sistema crea una estructura de ficheros para almacenar las muestra de señal
electroencefalográfica adquiridas, procesamiento de las mismas, ası́ como los datos
de clasificaciones a las que dieran lugar y estructuras de datos de aprendizaje de los
clasificadores.
5.a La aplicación procede a comunicar que en N6 segundos se va a efectuar la adquisición
de registros de señal EEG relacionada con la actividad cognitiva propuesta. En la
parte central de la ventana se mostrará la cuenta atrás de tiempo para comienzo de
la adquisición de muestras.
6.a La aplicación procede a la captura de muestras de señal electroencefalográfica, según
se ha descrito en el apartado 5.4. Los registros de actividad electroencefalográfica se
almacenarán en la estructura de datos del experimento.
7.a La aplicación procede a extraer y guardar el conjunto de vectores de caracterı́sticas
de los registros de señal efectuados.
8.a Con la población de vectores de caracterı́sticas obtenidos se procede a entrenar al
clasificador, tras lo cual se indica al supervisor el porcentaje de clasificaciones
correctas obtenido. La parametrización del clasificador se almacenará en la estructura
de datos del experimento.
9.a El supervisor decide si con el porcentaje de clasificación obtenido se procede con
el caso de uso de “Deletrear palabra”, o se procede a repetir el caso de uso actual
devolviendo el control al punto 2.a, o bien se finaliza la aplicación.
Postcondiciones.
El sistema guarda tanto la información de los registros de señal electroencefalográfica,
como las estructuras de datos que definen el entrenamiento del clasificador.
4.b Si el sistema detecta que la identificación de la sesión ya existe, procede a
comunicárselo al supervisor, devolviendo el control al punto 2.a, para evitar la
corrupción de datos de sesiones anteriores.
6
N será configurable, por defecto se consideran 5 segundos.
5.7.2.3. Finalización de la aplicación.

Se ha realizado la puesta en marcha del sistema según el caso de uso 5.7.2.2.

1.a El supervisor decide finalizar la aplicación, comunicándolo a través de la consola de
la aplicación.
2.a La aplicación procede a finalizar el proceso de adquisición de muestras de señal
electroencefalográfica. Guardando los últimos registros de señal que no hubieran
sido almacenados.
3.a La aplicación procede a cerrar los flujos de datos de la tarjeta de adquisición.
4.a La aplicación deja de realizar clasificaciones. Guardando la última clasificación no
almacenada.
5.a La aplicación comunica la finalización de la aplicación al usuario y cierra la ventana
de diálogo.
Postcondiciones.
La aplicación queda finalizada y la información asociada a la sesión realizada alma-
cenada en la estructura de ficheros, creada por el caso de uso Puesta en marcha del sistema.
1.b El usuario procede a seleccionar “Fin” como carácter a deletrear.
5.7.3. Estructura de clases de análisis.

Mediante el diagrama de clases de análisis se identifican y relacionan los componentes
que representan una abstracción de conceptos en el dominio de la aplicación. Se trata pues
de una representación estática de todos aquellos elementos y relaciones estructurales entre
los mismos, que se van a utilizar para llevar a cabo la funcionalidad descrita en los casos
de uso.
La arquitectura de dispositivo ICC propuesta, mostrada en la figura 5.13, se basa en el
empleo del patrón del modelo de tres capas [Larman 03], diferenciando entre la capa de
interfaz de la aplicación con los actores, la capa que representa la lógica de la aplicación
y la que considera el almacenamiento de datos.
Se han considerado los siguientes tipos de datos:
Datos Sesión: datos identificativos de la sesión en curso.
Registro EEG: considera la agrupación de muestras de señal EEG que constituyen
una ventana de análisis.
Vector Caracterı́sticas: representa el vector de componentes frecuenciales obtenido
de una ventana de análisis.
Clasificación: actividad cognitiva a la que se asocia el vector de caracterı́sticas

suministrado.
Cad Caract Deletreados: representa a la cadena de caracteres seleccionados por el
usuario.
Cad Caract Inferior: conjunto de caracteres alfanuméricos dispuestos en la parte
inferior de la ventana.
Cad Caract Superior: conjunto de caracteres alfanuméricos dispuestos en la parte
superior de la ventana.
Cadena Aviso: representa al mensaje textual que se comunica al usuario.
Las clases de análisis identificadas han sido:

Tarjeta de Adquisición: clase perteneciente a la capa de interfaz, encargada de
representar la tarjeta de adquisición desde el punto de vista Software. Sus funciones
clave son: configuración, adquisición de muestras y generación de Registro EEG. Tal
y como se indica en el apartado 3.2, se consideran ventanas de análisis de duración
1
3
s, con una frecuencia de muestreo de Fs = 384Hz.
Procesamiento Señal EEG: clase perteneciente a la capa de lógica de la aplicación,
se encarga de extraer los vectores de caracter´ısticas frecuenciales a partir de los
registros de señal electroencefalográfica, según lo indicado en el apartado 3.5.
Clasificador: clase perteneciente a la capa de lógica de la aplicación, encargada de
aprender y reconocer los patrones cerebrales del usuario asociados a las actividades
cognitivas consideradas, véase apartado 5.3. Tras el análisis de los resultados de
los experimentos de la sección 5.6, presentados en el capı́tulo 6, se ha optado por
implementar una versión de clasificador basada en redes neuronales de tipo RBF, y
otra en MSV.
Ventana Diálogo Usuario: clase perteneciente a la capa de interfaz, encargada de
la comunicación con el usuario, gestionando el movimiento del cursor en pantalla,
presentación de secuencia de caracteres y avisos.
Consola Supervisor: es el interfaz con el supervisor, muestra avisos y opciones; punto
de entrada para parámetros de configuración y selecciones.
Grabador Datos: clase perteneciente a la capa de almacenamiento de datos, se
encarga de guardar la información de la sesión en curso.
Control: clase encargada de la secuenciación de funciones de cada una de las clases
anteriores, es en esta clase en donde reside la lógica de la aplicación.
Figura 5.13: Interfaz de la aplicación demostrador.

5.7.4. Realización de los Casos de Uso.

La realización de los Casos de Uso muestran como interactúan las instancias de las
clases de análisis para realizar la funcionalidad del sistema. Representan la Vista Dinámica
del comportamiento del sistema, identificando a alto nivel las relaciones entre las clases de
análisis, operaciones y atributos.
La descripción de la Realización de los Casos de Uso se lleva a cabo mediante
los Diagramas de Interacción, de entre los cuatro tipos existentes7 se han escogido los
diagramas de secuencia como vı́a de documentación de la aplicación de demostración,
debido a su facilidad de comprensión, ası́ en las figuras 5.15 a 5.16 se muestra la realización
de los casos de uso anteriores con las clases de análisis consideradas.
Figura 5.14: Diagrama de secuencia del caso de uso Puesta en marcha del sistema.
7
UML 2.0 reúne los diagramas de: Secuencia, Comunicación, Tiempo y Visión de Interaccion, dentro
del tipo de Diagramas de Interacción.
Figura 5.15: Diagrama de secuencia del caso de uso “Deletrear palabra”.

Figura 5.16: Diagrama de secuencia del caso de uso Finalización de la aplicación.

Capı́tulo 6
Análisis y discusión de los

resultados experimentales.
En este cap´ıtulo se presentan, analizan y discuten los resultados obtenidos con los
clasificadores descritos en el capı́tulo 4, empleando los registros de señal
electroencefalográfica adquiridos a través de los procedimientos experimentales descritos
en el capı́tulo 5, que a su vez aplican las técnicas de adquisición y procesamiento de señal
descritas en el cap´ıtulo 3.
Tras analizar y comprobar que existe evidencia de diferencia estad´ıstica entre las
poblaciones de los vectores de caracter´ısticas, obtenidos cuando los sujetos de los
experimentos realizan las actividades cognitivas propuestas, se procede a comprobar que
dicha diferencia estadı́stica se mantiene aplicando la técnica de Análisis Discriminativo
Lineal, lo que permite proceder a la reducción de la dimensionalidad del espacio de entrada
en clasificadores basados en redes neuronales de los tipos MLP, RBF y PNN. Finalmente
se analizan y discuten los resultados obtenidos con clasificadores de mayor complejidad,
como clasificadores bietapa basados en redes neuronales y modelos ocultos de Markov, ası́
como clasificadores basados en máquinas de soporte de vectores.
Como conclusión, el análisis de los resultados experimentales obtenidos muestra que
los ı́ndices de clasificación más altos se obtienen con máquinas de soporte de vectores, con
Kernels polinómicos de orden 4, empleando las ventanas de procesamiento de Tukey.
6.1. Resultados del método estadı́stico de comparación de

poblaciones.
Mediante los experimentos basados en la comparación estadı́stica de poblaciones,
procedimiento descrito en el apartado 4.1.2, se pretende determinar si existe evidencia
estadı́stica que permita diferenciar entre los registros de señal electroencefalográfica
realizados cuando el sujeto lleva a cabo actividades cognitivas diferentes, valorando
cuantitativamente los siguientes puntos:
Actividades cognitivas que ofrecen mayor poder de discriminación.
Tipo de ventana de procesamiento que da lugar a una mejor discriminación.
Identificación de las componentes del vector de caracterı́sticas que presentan mayor
tasa de discriminación.
Influencia del canal electroencefalográfico en la capacidad de discriminación.
162 Análisis y discusión de los resultados experimentales.
6.1.1. Presentación de resultados.

Las figuras 6.1 y 6.2 que se muestran a continuacion resumen los resultados obtenidos
en 10 sesiones experimentales, realizadas con un mismo voluntario en d´ıas diferentes,
siguiendo los procedimientos operacional y experimental descritos en los apartados 4.1.3
y 5.6.1 respectivamente. Por cada canal se representa una pareja de figuras, en cuyo eje de
abscisas se muestra la comparación entre las diferentes actividades cognitivas
empleadas. Para cada caso se han aplicado los siete tipos de ventana de procesamiento
considerados: rectangular, triangular, Blackman, Hamming, Hanning, Kaiser y Tukey; en
el eje de ordenadas se muestra el porcentaje de veces que cada ventana de procesamiento
ha mostrado diferencia estad´ıstica significativa, (p< 0,05); junto a su nombre, en la parte
superior, se muestra el promedio de caracter´ısticas estad´ısticamente significativas.1 Por
último, inmediatamente encima de la barra identificaba de cada ventana, se muestran las
componentes del vector de caracter´ısticas que han resultado significativas.
6.1.2. Análisis.
El análisis de las figuras 6.1 y 6.2 muestra la existencia de diferencia estadı́stica, entre las
poblaciones de caracterı́sticas extraı́das de la muestras de señal electroencefalográfica,
cuando el usuario realiza diferentes actividades cognitivas.2 As´ı mismo se observa que,
siendo el voluntario analizado diestro, la mayor capacidad de discriminación se obtiene en el
segundo canal electroencefalográfico, asociado a C4’ - C4” (hemisferio cerebral derecho), lo
que muestra una elevada lateralidad cerebral.
Estudiando cada una de las comparaciones de parejas de actividades cognitivas se
observa que:
Comparando “Cálculo matemático” con “Imaginación de movimiento”, véase lado
superior izquierdo de las figuras 6.1 y 6.2, se comprueba que las ventanas de
procesamiento de tipo Tukey, Kaiser y rectangular, son las que presentan mayor
evidencia de diferencia estadı́stica en la comparación de las poblaciones de los
vectores de caracter´ısticas en ambos hemisferios. As´ı mismo se observa que para todos
los tipos de ventanas de procesamiento, las componentes del vector de caracter´ısticas
con mayor poder de discriminación son β1 y β2 .
Analizando “Cálculo matemático” frente a “Realización de movimiento”, véase zona
superior central de las figuras 6.1 y 6.2, se observa que las ventanas de procesamiento
con mayor número de componentes significativas son las de Blackman, Hanning y
Tukey, ya que presentan caracter´ısticas significativas tanto en el hemisferio izquierdo
como en el derecho. Por otro lado las componentes con mayor relevancia en la
discriminación de actividades son α1 y α2 .
1
Este valor es equivalente a la suma de caracterı́sticas que muestran diferencia estadı́stica, divido por
el número de veces que el experimento ha sido replicado, N = 10.
2
Nótese que a efectos experimentales se ha considerado tanto la “Imaginación de movimiento” como
la “Realización de movimiento”, aunque está última actividad no deba ser considerada en dispositivos de
Interfaz Cerebro Computador.
6.1 Resultados del método estadı́stico de comparación de poblaciones. 163
Figura 6.1: Resultados de la comparación de actividades cognitivas en el canal 1.
Analizando “Cálculo matemático” frente a “Relax”, véase parte superior derecha de

las figuras 6.1 y 6.2, se observa que las ventanas de procesamiento más significativas
son las de Tukey y rectangular; mientras que las componentes del vector de
caracterı́sticas con mayor poder de discriminación son β1 seguida de β2 y β3 .
Del estudio de “Imaginación de movimiento” frente a “Relax”, véase parte
inferior izquierda de las figuras 6.1 y 6.2, se observa que la ventana rectangular
Figura 6.2: Resultados de la comparación de actividades cognitivas en el canal 2.

6.1 Resultados del método estadı́stico de comparación de poblaciones. 165
es la que mejor capacidad de discriminación presenta, mostrando tanto diferencia

estad´ıstica significativa en ambos hemisferios cerebrales, como un mayor promedio
de componentes significativas del vector de caracter´ısticas, 1.3 para el hemisferio
izquierdo y 1.6 para el derecho. As´ı mismo se comprueba que con independencia
de la ventana de procesamiento, el hemisferio derecho, canal 2, presenta una mejor
capacidad de discriminación entre ambas actividades cognitivas, siendo las
componentes del vector de caracterı́sticas más relevantes: θ, β1 y β2 , con
independencia de la ventana de procesamiento; mientras que para el canal 1,
hemisferio izquierdo, las caracterı́sticas más significativas obtenidas con una ventana
de procesamiento de tipo rectangular son: α2, β1, β2 y β3.
La pareja de actividades que mejor capacidad de discriminación presenta es
“Imaginación de movimiento” frente a “Realización de movimiento”, véase zona
inferior central de la figura 6.2. Para todos los tipos de ventanas de procesamiento
aplicadas a la señal electroencefalográfica proveniente del canal 2, las caracterı́sticas
más significativas son: θ, α1 , α2 , β1 ; seguidas de β2 y β3 .
Por último, realizando la comparación entre diferentes sesiones de “Relax”, véase
parte inferior derecha de las figuras 6.1 y 6.2, aparecen diferencias significativas
entre poblaciones para las caracter´ısticas α2 y β2 del canal 2, y β1 β2 del canal 1.
6.1.3. Discusión.
Tras el análisis de la capacidad de discriminación de las diferentes actividades cognitivas
propuestas, considerando los registros EEG realizados sobre ambos hemisferios cerebrales,
se confirma que en todos los casos el hemisferio derecho muestra mayor capacidad de
discriminación que el izquierdo. Investigaciones en Neurologı́a indican que el hemisferio
izquierdo es calculador, comunicativo y capaz de construir planes complicados, mientras
que por su parte el derecho es causante de pensamientos creativos, integrales y hol´ısticos,
siendo más emotivo y conceptual [Alarcon 00], [Gazzaniga 92], [Jessell 97]. La razón de
que el hemisferio izquierdo se muestre menos discriminativo puede deberse a que su
nivel de actividad pueda llegar a enmascarar la diferencia ente las actividades cognitivas
propuestas; a este respecto son de especial relevancia los resultados obtenidos en la
comparación de las actividades de “Realización de movimiento” con “Imaginación de
movimiento”, en donde el hemisferio izquierdo (canal 1: C3’-C3”), no muestra ninguna
caracter´ıstica significativa, mientras que para el hemisferio derecho (canal 2: C4’-C4”) es la
pareja de actividades con mayor capacidad de discriminación.
De la inspección de los resultados de la comparación por parejas de las actividades
cognitivas propuestas, se obtiene la siguiente lista, ordenada de mayor a menor capacidad
de discriminación:
1. “Imaginación de movimiento” frente a “Realización de movimiento”.
2. “Cálculo matemático” frente a “Realización de movimiento”.
3. “Cálculo matemático” frente a “Imaginación de movimiento”.
4. “Cálculo matemático” frente a “Relax”.
5. “Imaginación de movimiento” frente a “Relax”.
Del análisis de las ventanas de procesamiento, los mejores resultados se obtienen con
las ventanas de Tukey, Kaiser y rectangular. Las dos primeras son las que menos distorsión
en frecuencia ocasionan sobre la señal que enmarcan. Por su parte la ventana rectangular,
al tener una extensión igual al número de datos considerados en la FFT, N = 27 , minimiza
el efecto de fuga en el dominio frecuencial, ya que considera que la señal, es la repetición
periódica de la ventana de análisis considerada. El resto de las ventanas suavizan los bordes
de la ventana de análisis en el dominio temporal, aunque en menor grado, obteniéndose
los peores resultados con la ventana de tipo triangular o de Bartlett.
En la comparación de la actividad de “Relax” en sesiones diferentes, zona inferior de-
recha de las figuras 6.1 y 6.2, se detectan falsos positivos debido a la captación de ruido en
la señal electroencefalográfica de entrada. Obsérvese que la ventana de Tukey no muestra
diferencia para el hemisferio izquierdo, detectandose sólo la componente α2 , en el hemis-
ferio derecho, como falso positivo.
Considerando las caracterı́sticas que presentan una mejor capacidad de discriminación,

se observa que la banda más significativa comprende a las componentes α2 , β1 y β2 ,
observándose una mayor significación en aquellas componentes cercanas a la zona de
influencia del ritmo μ, en las comparaciones que involucran actividades en las que se
emplea imaginación o realización de movimiento.
6.1.4. Conclusiones.
Del análisis y discusión de los resultados de las pruebas presentadas en el apartado
6.1.2, empleando tests estadı́sticos de comparación bilateral de poblaciones, descritos en
la sección 4.1, se obtienen las siguientes conclusiones:
1. Un clasificador que discriminara entre actividad matemática e imaginación de
movimiento deberı́a considerar en la fase de filtrado y acondicionamiento de la
señal electroencefalográfica ventanas de tipo Tukey y considerar al menos las
caracter´ısticas α2, β1 y β2. Es importante destacar que la ventana de Tukey minimiza
el número de falsos positivos, por lo que es más robusta que otros tipos de ventanas.
2. En los test llevados a cabo, el canal localizado en C4’-C4” es más significativo que
el formado por C3’-C3”.
6.2 Resultados obtenidos aplicando la técnica LDA. 167
6.2. Resultados obtenidos aplicando la técnica LDA.

Una vez demostrada la evidencia de la diferencia estad´ıstica entre las poblaciones de
caracterı́sticas provenientes de la señal electroencefalográfica, cuando el usuario lleva a
cabo diferentes actividades mentales, el siguiente paso para el desarrollo de un clasificador
ICC en lı́nea, es la determinación automática del conjunto caracterı́sticas y combinación
de las mismas, que da lugar a una mejor capacidad de discriminación, para lo cual se
emplea la técnica LDA expuesta en el apartado 4.2. Es ası́ mismo de interés, evaluar el
efecto que la realimentación de la información hacia el usuario tiene sobre dicha capacidad
de discriminación, por lo que para la realización de este estudio se han utilizado los
procedimientos experimentales “Off-line” y “On-line” descritos en los apartados 5.4 y
5.5. El objetivo del procedimiento experimental “Off-line” es la adquisición de muestras
de señal electroencefalográfica del usuario, cuando éste realiza las actividades cognitivas
indicadas a modo de entrenamiento, por su parte el procedimiento “On-line” considera la
realimentación de información al usuario mientras éste realiza dichas actividades. 3

Debido a que se consideran sólo tres tipos de actividades cognitivas, la aplicación de
la técnica LDA da lugar a que sólo dos de los autovalores sean significativos (> 1 ∗ 10−4 ),
con sus autovectores asociados, ocasionando que la aplicación de esta técnica proyecte los
vectores de caracterı́sticas de dimensión 6 en un espacio bidimensional {X1 , X2 }, a través
de la aplicación de los coeficientes de ponderación recogidos en la matriz de transformación
W , manteniendo las propiedades intrı́nsecas de cada actividad cognitiva, véase apartados
4.2.4 y 4.2.5.
Las figuras 6.3 a 6.14 resumen los resultados de los tests estadı́sticos de comparación
bilateral de diferencias, entre las poblaciones de caracter´ısticas transformadas{4 X1, X2} ,
tras la aplicación de la técnica LDA, considerando los paradigmas experimentales
“Off-line” y “On-line”. Para cada canal (C3’-C3” y C4’-C4”) y tipo de ventana de
procesamiento, se muestra el nivel cr´ıtico, p, asociado a cada contraste bilateral de las
actividades cognitivas analizadas. Al objeto de mostrar la dispersión de resultados, se
representa el valor de la moda mediante un cuadrado (C3’-C3”) y un triángulo (C4’-C4”),
y el de los percentiles 15 y 85 mediante una l´ınea vertical.
Las muestras de señal provienen de los procedimientos experimentales descritos en el
cap´ıtulo 5, llevados a cabo sobre cinco voluntarios varones, diestros y sanos, de edades
comprendidas entre los 27 y 35 años.
3
Los resultados, análisis y conclusiones acerca de LDA han sido presentados en [Martı́nez 07] y
[Martinez 09].
4
Véase el apartado 4.1 del capı́tulo 4.
Figura 6.3: Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X1 .
Figura 6.4: Off-line. Cálculo matemático vs Relax. Proyec. sobre X1 .

Figura 6.5: Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 .
Figura 6.6: On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X1 .

Figura 6.7: On-line. Cálculo matemático vs Relax. Proyec. sobre X1 .
Figura 6.8: On-line. Imaginación de movimiento vs Relax. Proyec. sobre X1 .

Figura 6.9: Off-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X2 .
Figura 6.10: Off-line. Cálculo matemático vs Relax. Proyec. sobre X2 .

Figura 6.11: Off-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 .
Figura 6.12: On-line. Cálculo matemático vs Imaginación de movimiento. Proyec. sobre X2 .

Figura 6.13: On-line. Cálculo matemático vs Relax. Proyec. sobre X2 .
Figura 6.14: On-line. Imaginación de movimiento vs Relax. Proyec. sobre X2 .

6.2.2. Análisis.
De los contraste bilaterales llevados a cabo con un nivel de significación α = 2,5 %,
α = 1 p,
− representados en las figuras 6.3 a 6.8 para X1, se observa que:
En la mayorı́a de los casos, la hipótesis nula H0 , que mantiene la igualdad de las
poblaciones de las caracter´ısticas asociadas a las actividades cognitivas, debe ser
rechazada para ambos tipos de experimentos.
As´ı mismo, los niveles cr´ıticos p, de los contrastes obtenidos en las comparaciones de
“Cálculo matemático” frente a “Imaginación de movimiento”, son menores para los
experimentos “On-line” que los obtenidos para los experimentos “Off-line”, en ambos
canales; mientras que la dispersión de los resultados es similar en ambos casos.
En los voluntarios analizados, de forma general el canal C4’-C4”, asociado al
hemisferio derecho, presenta una mejor capacidad de discriminación que C3’-
C3”, excepto en la comparación realizada para experimentos “On- line” entre las
actividades cognitivas “Cálculo matemático” e “Imaginación de movimiento”, en
donde se observa un cambio de tendencia, véase figura 6.6.
La mayor potencia de contraste se obtiene en la comparación entre “Imaginación
de movimiento” y “Relax”, seguido de “Cálculo matemático” y “Relax”, el menor
de ellos se da para la comparación entre “Cálculo matemático” e “Imaginación de
movimiento.”
El mismo tipo de análisis para X2 , figuras 6.9 a 6.14, muestra que la diferencia apenas
aperece en los experimentos “Off-line” y en ningún caso para los experimentos “On-line”,
p < 0,975.
6.2.3. Discusión.
Por lo general, para los dos tipos de experimentos, todas las ventanas de filtrado
muestran evidencia de diferencia estad´ıstica entre las actividades cognitivas propuestas;
los mejores resultados, representados por niveles crı́ticos p más altos y menor dispersión,
son obtenidos para X1 con las ventanas de Tukey y Kaiser. De los resultados numéricos se
observa que cuanto mayor es la magnitud del autovalor, caso de X1 , mayor es la aportación
de una de las componentes del vector de caracter´ısticas original, normalmente en la banda
de frecuencia β, por el contrario, cuanto menor es el autovalor, mayor es la contribución
del resto de los componentes del autovector.
As´ı mismo se observa que, la presencia de artefactos es mayor para los experimentos
“On-line” que para los experimentos “Off-line”.
Por otra parte, para los sujetos analizados, se confirma que le hemisferio derecho
presenta una capacidad de discriminación superior a la del hemisferio izquierdo, excepto
cuando, empleando las actividades cognitivas de “Cálculo matemático” e “Imaginación de
movimiento”, al sujeto se le realimenta información sobre el resultado de la clasificación;
lo que confirma lo indicado en el apartado 6.1.3 acerca de la especialización del
funcionamiento de cada hemisferio.
Del análisis y discusión de los resultados de las pruebas presentadas en el apartado
6.2.2, basado en la utilización de la técnica de Análisis Discriminatorio Lineal, se obtienen
las siguientes conclusiones:
1. Estadı́sticamente se ha probado que a través del uso de la técnica LDA es posible

reducir la dimensionalidad del espacio de caracterı́sticas de entrada original, a la
vez que la capacidad de discriminación entre las actitividades cognitivas propuestas
se mantiene, permitiendo as´ı el control de dispositivos externos por medio de la
asociación de dichas tareas a comandos del dispositivo.
2. De los resultados de experimentos “On-line” y “Off-line” llevados a cabo con cinco
voluntarios se concluye que, la realimentación del resultado de la clasificación al
usuario provoca una disminución de la capacidad de discriminación, pero sin llegar a
comprometer su uso en dispostivos ICC en lı́nea, conclusiones también confirmadas
en [Pineda 03].
3. Se demuestra que las ventanas de procesamiento de tipo Tukey y rectangular mejoran
la capacidad de discriminación entre las actividades cognitivas consideradas.
6.3. Resultados obtenidos con clasificadores basados en

redes neuronales.
Después de comprobar que es posible discriminar entre poblaciones de caracterı́sticas,
provenientes de muestreo de señal electroencefalográfica adquiridas cuando el usuario
realiza las actividades cognitivas propuestas, habiendo sido reducida la dimensionalidad
del espacio de caracter´ısticas original, el siguiente paso es determinar la tecnolog´ıa y
estructura del clasificador que presente una mayor tasa de aciertos con menor variabilidad.
Para tal fin, en este apartado se muestran los resultados obtenidos con clasificadores
basados en redes neuronales de tipo: Perceptrón Multicapa (MLP), redes neuronales
basadas en Funciones de Base Radial (RBF) y Redes Neuronales Probabil´ısticas (PNN);
descritas respectivamente en los apartados: 4.3.1, 4.3.2 y 4.3.3. A efectos de comprobar si
la estructura interna del clasificador influye en el resultado final de la clasificación, se
han considerado dos modalidades de clasificadores para cada tipo de red neuronal, en la
primera modalidad el clasificador consta de dos redes neuronales independientes,
procesando cada una de ellas el flujo de vectores de caracterı́sticas que proviene del
canal electroencefalográfico considerado (C3’-C3” o C4’-C4”); mientras que en la segunda
modalidad, el clasificador consta de una única red neuronal que procesa de forma conjunta
ambos flujos de vectores de caracter´ısticas.
Considerando el efecto de sobre-aprendizaje, las redes neuronales fueron entrenadas
siguiendo lo expuesto en los apartados: 4.3.1.3, 4.3.2.4 y 4.3.3.

Las figuras siguientes resumen los resultados obtenidos, con cinco voluntarios, tras la
aplicación de los clasificadores una vez han sido entrenados con las muestras adquiridas.
En el eje de ordenadas se muestran los porcentajes de clasificaciones correctas obtenidos de
las matrices de confusión, veáse apéndice B, aplicadas a cada uno de los tres clasificadores.
Nótese que la escala ha sido divida a efectos de apreciar la dispersión de los resultados.
En el eje de abcisas se muestran los diferentes tipos de ventanas de preprocesamiento
considerados.
A efectos de mostrar la dispersión en los valores obtenidos, para cada clasificador y
tipo de ventana de procesamiento se muestra una barra con los porcentajes de clasificación
máximo, mı́nimo y valor de la mediana. Ası́ mismo se representan los resultados obtenidos
para las dos modalidades de clasificadores.
6.3 Resultados obtenidos con clasiftcadores basados en redes neuronales. 177
Figura 6.15: Sujeto A. Canal 1. Clasificaciones correctas.
Figura 6.16: Sujeto A. Canal 2. Clasificaciones correctas.

Figura 6.17: Sujeto A. Canal 1 y 2. Clasificaciones correctas.
Figura 6.18: Sujeto B. Canal 1. Clasificaciones correctas.

Figura 6.19: Sujeto B. Canal 2. Clasificaciones correctas.
Figura 6.20: Sujeto B. Canal 1 y 2. Clasificaciones correctas.

Figura 6.21: Sujeto C. Canal 1. Clasificaciones correctas.
Figura 6.22: Sujeto C. Canal 2. Clasificaciones correctas.

Figura 6.23: Sujeto C. Canal 1 y 2. Clasificaciones correctas.
Figura 6.24: Sujeto D. Canal 1. Clasificaciones correctas.

Figura 6.25: Sujeto D. Canal 2. Clasificaciones correctas.
Figura 6.26: Sujeto D. Canal 1 y 2. Clasificaciones correctas.

3
Figura 6.27: Sujeto E. Canal 1. Clasificaciones correctas.
Figura 6.28: Sujeto E. Canal 2. Clasificaciones correctas.

Figura 6.29: Sujeto E. Canal 1 y 2. Clasificaciones correctas.

5
6.3.2. Análisis.
De los resultados anteriores se extraen las siguientes consideraciones:
Los clasificadores basados en redes neuronales de tipo PNN o RBF presentan un
porcentaje de clasificaciones correctas del 84 %, frente al 33 % obtenido con los
clasificadores basados en redes neuronales de tipo MLP.
Estabilidad de resultados. En todos los casos el procedimiento se replicó tres veces.
Con clasificadores basados en PNN o en RBF se obtuvo siempre la misma matriz de
confusión, véase apéndice B, mientras que con clasificadores basados en MLP se
obtuvieron matrices de confusión diferentes para cada replica.
Los clasificadores basados en PNN dan lugar a porcentajes de clasificaciones
correctas más altos que los obtenidos con los clasificadores basados en RBF, sin
embargo por contra también muestran una mayor dispersión.
Clasificadores con redes neuronales distintas, una para cada canal electroencefa-
lográfico, proporcionan mejores resultados que aquellos que consideran una única
red neuronal que procesa conjuntamente ambos vectores de caracter´ısticas.
Considerando los tipos de ventanas de preprocesamiento, los ı́ndices de
discriminación más altos y menor dispersión se obtienen para las ventanas de tipo
Kaiser, Tukey y rectangular.
Un clasificador que emplee en su estructura dos redes neuronales diferentes, una por
cada canal, conectadas a un bloque que pondere las salidas de ambas redes, permite
obtener mejores porcentajes de clasificación correcta que otros clasificadores basados
en una sola red neuronal, que fusione los vectores de caracter´ısticas de ambos canales
en uno solo.
Se observa que el empleo de ventanas de Kaiser, Tukey y rectangular, da lugar a un
incremento en el porcentaje de clasificaciones correctas, a la vez que disminuye su
dispersión, lo cual está en lı́nea con lo expuesto en 6.1.3 acerca del tipo de ventana
de procesamiento.
6.3.3. Discusión.
Con los vectores de caracterı́sticas considerados, basados en la estimación espectral
de potencia de las bandas frecuenciales: θ, α1, α2, β1, β2 y β3; los clasificadores basados
en redes neuronales de tipo probabilı́stico (PNN) o en funciones de base radial (RBF),
presentan mejores resultados que los clasificadores basados en redes neuronales de tipo
Perceptrón Multicapa (MLP), tanto desde el punto de vista de porcentanjes correctos
de clasificación, como en estabilidad de los mismos, conclusión similar se presenta en
[Garrett 03]. Este comportamiento se explica por la función de distribución de probabilidad
de los vectores de caracterı́sticas, y la mayor capacidad de interpolación de las redes
neuronales de tipo PNN o RBF, que la obtenida con las redes de tipo MLP.
As´ı mismo, en l´ınea con lo discutido en los apartados 6.1.3 y 6.2.3, se observa que los
resultados obtenidos con el clasificador basado en redes RBF presenta mejores resultados
para el hemisferio derecho que para el izquierdo.
Por otro lado, la variabilidad de resultados entre los clasificadores basados en redes
neuronales de tipo PNN y los basados en redes neuronales de tipo RBF, se debe no tanto a
la estructura intrı́nseca de ambas redes neuronales, muy próximas entre sı́, tal y como puede
verse en los apartados 4.3.2 y 4.3.3, sino al proceso de aprendizaje y número de neuronas
considerados en la capa oculta. Mientras que para las redes neuronales RBF el número de
neuronas se determina incrementalmente mediante el proceso de aprendizaje, para las redes
neuronales PNN este número se determina a partir del número de elementos considerados
en el conjunto de entrenamiento, dando lugar a que las redes neuronales de tipo PNN
tengan más neuronas en la capa oculta que las redes neuronales de tipo RBF, lo que a su
vez provoca un mayor sobre-aprendizaje del conjunto de entrenamiento, caraterizado por
un porcentaje mayor en el número de clasificaciones correctas sobre dicho conjunto, pero
también una menor capacidad de generalización sobre los conjuntos de validación y test.
Del análisis y discusión de los resultados de las pruebas realizadas con cinco voluntarios,
presentados en el apartado 6.3.2, empleando clasificadores basados en redes neuronales
descritos en la sección 4.3, se obtienen las siguientes conclusiones:
1. Es factible la discriminación entre las actividades cognitivas propuestas, empleando
los registros de señal electroencefalográfica provenientes de los canales C3’-C3” y
C4’-C4”.
2. Es preferible el empleo de un clasificador en cuya arquitectura se empleen dos redes
neuronales diferentes, especializadas respectivamente en cada uno de los dos canales
de señal electroencefalográfica, siendo sus resultados evaluados en un ponderador
que otorgue mayor peso a la red asociada al hemisferio derecho.
3. Se recomienda la utilización de ventanas de procesamiento de Tukey o Kaiser, ya
que dan lugar a un porcentaje mayor de clasificaciones correctas.
6.4 Resultados obtenidos con clasiftcadores bietapa basados en redes neuronales y
Modelos Ocultos de Markov. 187
6.4. Resultados obtenidos con clasificadores bietapa basa-

dos en redes neuronales y Modelos Ocultos de Markov.
En la sección anterior se mostraron los resultados de clasificación conseguidos con
diferentes topologı́as y arquitecturas de redes neuronales. En esta sección se presentan,
analizan y discuten los resultados obtenidos tras la aplicacion del clasificador bietapa,
descrito en el apartado 4.4.6, a las muestras de señal electroencefalográfica provenientes
de seis sesiones realizadas con cinco voluntarios diestros, siguiendo el procedimiento
experimental “Off-line” del cap´ıtulo 5.
Como se describe en el apartado 4.4.6, el clasificador implementado emplea en una
primera etapa de clasificación una red neuronal de tipo RBF, ya que como se muestra en
el punto 6.3.2 anterior, ésta da lugar a un elevado porcentaje de aciertos, semejante al
máximo obtenido con las redes neuronales de tipo PNN, pero con menor dispersión. En
una segunda etapa se compara la secuencia de preclasificaciones proveniente de la etapa
anterior con tres modelos de Markov, entrenados cada uno de ellos con secuencias de
preclasificaciones provenientes de cada una de las actividades cognitivas, la presecuencia
es asignada a la actividad cognitiva cuyo Modelo Oculto de Markov de lugar a una mayor
probabilidad de observación.5 Ası́ mismo, considerando los análisis anteriores acerca de la
influencia del tipo de ventana de preprocesamiento en la clasificación, véanse apartados
6.1.2 y 6.2.2, en la implementación del clasificador se han empleado ventanas de tipo Tukey.
Una primera estimación del efecto de entrenamiento en el usuario puede ser extraı́da de
la comparación de los resultados de las dos sesiones realizadas por el mismo voluntario.

Con objeto de comprobar el funcionamiento del algoritmo de clasificación propuesto
y la influencia que sobre el mismo tienen los parámetros de umbral de asignación, λ,
as´ı como la variable que determina la zona de influencia de cada neurona de entrada de la
red neuronal, Sc, se procede a utilizar las muestras de señal EEG adquiridas de las sesiones
de prueba con los voluntarios del modo siguiente:
6.4.1.1. Evaluación de la capacidad de aprendizaje.

Con un subconjunto de las muestras de señal EEG adquiridas se procede a
entrenar el algoritmo con los siguientes valores: λ = 0,55;
{ 0,65; 0,8 ,}Sc = 0,5; { 0,95 . La
}
determinación del valor de los parámetros viene fijada por los máximos que se
detectan después de una búsqueda extensiva sobre la señal del primer voluntario. Con
posterioridad al entrenamiento se vuelve a procesar la misma señal a través del clasificador,
comparándose la clasificación obtenida con la proporcionada durante el proceso de
aprendizaje, en todos los casos se obtiene un reconocimiento correcto del 100 %.
5
La longitud de la cadena de preclasificaciones ha sido determinada en 9 elementos, tras experimentar con
cadenas sintéticas de longitudes diferentes y entrenar tres Modelos Ocultos de Markov, semejantes a los
empleados en el clasificador.
6.4.1.2. Evaluación de la capacidad de generalización.

Ante el buen comportamiento de la capacidad de aprendizaje se opta por utilizar el
método de validación cruzada, en el que el entrenamiento se hace con nueve sesiones,
todas menos una de las sesiones de señal EEG disponible, dejando la sesión no utilizada
para la evaluación del comportamiento del algoritmo, el proceso se realiza tantas veces
como sesiones disponibles existen, seleccionando en cada ocasión una sesión de evaluación
diferente. Las tablas siguientes muestran los resultados obtenidos para cada voluntario en
función de los citados parámetros: λ y Sc.
Para cada combinación de los mismos, el proceso entero se replica 3 veces. En la fila
superior se muestra el número de identificaciones correctas, en la fila inferior se muestra el
tanto por ciento de mejora que se obtiene al compararlo con un clasificador equiprobable.
Tabla 6.1: Resultados voluntario AL01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
94 103 103 94 81 87 93 92 87 86 97 81
4% 14 % 14 % 4% -10 % -3 % 3% 2% -3 % -4 % 8% -10 %
Tabla 6.2: Resultados voluntario RO01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
103 97 92 118 109 118 97 87 86 117 106 110
14 % 8% 2% 31 % 21 % 31 % 8% -3 % -4 % 30 % 18 % 22 %
Tabla 6.3: Resultados voluntario JA01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
106 97 110 87 90 107 99 106 107 98 108 99
18 % 8% 22 % -3 % 0% 19 % 10 % 18 % 19 % 9% 20 % 10 %
Tabla 6.4: Resultados voluntario DA01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
109 102 104 83 92 92 106 91 110 86 87 92
21 % 13 % 15 % -8 % 2% 2% 18 % 1% 22 % -4 % -3 % 2%
Tabla 6.5: Resultados voluntario RA01.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
106 97 110 87 90 107 99 106 107 91 76 99
18 % 8% 22 % -3 % 0% 19 % 10 % 18 % 19 % 1% -15 % 10 %
Tabla 6.6: Resultados voluntario RA02.
Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95
λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80
102 102 98 102 107 114 103 105 96 116 99 98
13 % 13 % 8% 13 % 19 % 26 % 14 % 16 % 6% 29 % 10 % 9%
6.4 Resultados obtenidos con clasiftcadores bietapa basados en redes neuronales y
Modelos Ocultos de Markov. 189
6.4.2. Análisis.
De los resultados obtenidos de la aplicación del algoritmo de clasificación propuesto se
observa que:
1. La capacidad de aprendizaje es superior a la que se obtiene con una red neuronal de
tipo RBF, 100 % de reconocimiento del conjunto de aprendizaje.
2. La variabilidad en los valores de clasificación de las réplicas es debida al empleo de
modelos ocultos de Markov, tanto en la fase de aprendizaje como durante la fase de
clasificación posterior.
3. Los ı́ndice de clasificación más altos se dan para valores de Sc = 0,5 y λ = 0,65;
aunque se observa una gran dependencia con respecto al usuario y su experiencia en
la utilización del sistema. La discrepancia de resultados entre RA1 y RA2 se
explicada por el proceso de aprendizaje en la utilizacion del dispositivo, la sesión
RA1 es previa a RA2.
4. Los resultados de las pruebas de validación cruzada son mejores que los obtenidos
con un clasificador equiprobable.
6.4.3. Discusión.
La dispersión de máximos en los valores de clasificaciones correctas obtenidos en
las pruebas de validación cruzada, indican que la combinación de los parámetros λ
y Sc es dependiente del usuario, por lo que para un dispositivo ICC que utilice un
algoritmo de este tipo, se deberı́a prever al menos una fase de sintonización que permitiera
ajustar estos parámetros. Si bien es cierto que el algoritmo se comporta mejor que un
clasificador equiprobable, su comportamiento no es todo lo óptimo que cabrı́a esperar
considerando su capacidad de aprendizaje, observándose un sobre-aprendizaje del conjunto
de entrenamiento. El tamaño del conjunto de datos de entrenamiento es determinante
en los resultados obtenidos en la fase de ejecución. El efecto de sobre-aprendizaje se
minimizar´ıa aumentando el conjunto de datos disponibles para el entrenamiento.
Del análisis y discución anteriores, empleando clasificadores bietapa basados en redes
neuronales de tipo RBF y Modelos Ocultos de Markov descritos en la sección 4.4.6, se
obtienen las siguientes conclusiones:
1. La información contenida en la secuencia de asignaciones mejora la capacidad de
clasificación, siendo los modelos ocultos de Markov una técnica válida para la
extracción y utilización de dicha información.
2. Los parámetros de ajuste del algoritmo, λ y Sc, han de modificarse en función
del usuario, ya que influyen notoriamente en la capacidad de generalización y
clasificación del algoritmo, por lo que se precisa un proceso previo de optimización
que determine el valor de dichos parámetros.
6.5. Resultados obtenidos con clasificadores basados en

Máquinas de Soporte de Vectores.
En esta sección se presentan, analizan y discuten, los resultados obtenidos con
clasificadores basados en Máquinas de Soporte de Vectores. Estos clasificadores utilizan el
método de discrimación lineal, en un espacio de caracterı́sticas transformado de dimensión
superior a la del espacio de caracter´ısticas original, tal y como se describe en los apartados:
4.5.1, 4.5.2 y 4.5.5.
Los resultados presentados se han obtenido tras la aplicación del procedimiento descrito
en el apartado 5.6.5, a los datos de once sesiones experimentales realizadas siguiendo el
procedimiento descrito en 4.5.1.
Para determinar que clasificador proporciona los ı́ndices de clasificación correcta más
elevados, con la mayor capacidad de generalización, o lo que es lo mismo con un porcentaje
menor de vectores soporte [Cristianini 05b], se han empleado los datos considerados en la
tabla 6.7.
Tipo de Kernel. Valores de los parámetros caracterı́sticos.
Gaussiano 1, 2, 3, 5 y 10.
Polinómico 2, 3, 4, 7 y 8.
Tabla 6.7: Familia de funciones Kernel y parámetros caracterı́sticos.
Se han seleccionado estos valores con el propósito de evaluar la influencia que, tanto su
magnitud, como la forma de la función Kernel a la que dan lugar6 , tienen tanto sobre
el porcentaje de clasificaciones correctas obtenido, como sobre el número de vectores
soporte seleccionados. As´ı mismo destacar que, un clasificador basado en funciones Kernel
polinómicas de orden 1 darı́a lugar a un clasificador lineal.

A continución se representan para los Kernels considerados, tanto los resultados de
porcentajes de clasificaciones correctas, como el número de vectores soporte seleccionados
del total del conjunto de entrenamiento. Por último, para cada tipo de Kernel, se
muestra una familia de gráficas donde se representa la correlacion entre el porcentaje de
clasificaciones correctas y vectores soporte, considerando los diferentes tipos de ventanas
de procesamiento.
6.5.1.1. Clasiftcaciones correctas frente a parámetros del Kernel.

En las figuras 6.30 a 6.33 se representan, para cada tipo de ventana de
preprocesamiento, función Kernel del tipo de clasificador y parámetros considerados en
6
Con Kernels de tipo polinómicos, valores pares del parámetro dan lugar a funciones kernel simétricas,
mientras que valores impares dan lugar a funciones kernel anti-simétricas.
6.5 Resultados obtenidos con clasiftcadores basados en Máquinas de Soporte de
Vectores. 191
el mismo, los resultados de porcentaje de clasificaciones correctas obtenidos a partir de las

matrices de confusión, véase apéndice B, tras la aplicación de las muestras a los
clasificadores una vez entrenados.
Las figuras muestran diagramas de cajas, en donde el valor medio de clasificación se
muestra por la l´ınea central en la muesca de la caja, la certeza de dicho valor se representa
por el tamaño de la caja, mientras que la variabilidad de los datos se muestra por la
longitud de los segmentos a ambos extremos de cada caja, siendo equivalentes a 1.5 veces
la desviación tı́pica. En el caso de aparecer datos que difieran del valor medio en más de
1.5 desviaciones tı́picas, se muestran como pequeñas circunferencias, mientras que por el
contrario, si todos los datos quedan dentro de ambos segmentos se representa un punto en
el extremo.
6.5.1.2. Número de vectores soporte frente a parámetros del Kernel.

Las figuras 6.34 a 6.37, muestran los resultados de porcentaje de vectores soporte
seleccionados en el clasificador, en función de los parámetros considerados para los
diferentes tipos de funciones Kernel.
6.5.1.3. Clasiftcaciones correctas frente a número de vectores soporte.

Por último en las figuras 6.38 a 6.53 se representan para ambos canales: C1 y
C2, el porcentaje de clasificaciones correctas en función del porcentaje del número de
vectores soporte seleccionados, considerando tanto los diferentes tipos de ventanas de
preprocesamiento, como los valores de parametrización de las funciones Kernel. Ası́ mismo
se muestra una tabla con los valores numéricos de valores medios y desviaciones tı́picas
obtenidos en cada caso.
Al igual que en el apartado anterior, se representa tanto el valor medio como la
desviación tı́pica asociada a ambos porcentajes, por lo que en lugar de utilizar diagrama
de cajas se utiliza una elipse para cada tipo de ventana de preprocesamiento, su centro
representa el valor medio, mientras que los diámetros horizontal y vertical muestran,
respectivamente, las desviaciones tı́picas de los porcentajes del número de vectores soporte
y clasificaciones correctas.
A diferencia de los apartados anteriores, la representación para Kernels polinómicos
de grado 5 o superior no se realiza, ya que como se muestra en las figuras 6.36 y 6.37 se
obtiene la práctica totalidad de clasificaciones correctas con Kernels polinómicos de grado
4, salvo casos excepcionales.
Figura 6.30: Porcentaje de clasificaciones correctas. Canal 1. Kernel gaussiano.
Figura 6.31: Porcentaje de clasificaciones correctas. Canal 2. Kernel gaussiano

Vectores. 193
Figura 6.32: Porcentaje de clasificaciones correctas. Canal 1. Kernel polinómico.
Figura 6.33: Porcentaje de clasificaciones correctas. Canal 2. Kernel polinómico.

Figura 6.34: Porcentaje de vectores soporte. Canal 1. Kernel gaussiano.
Figura 6.35: Porcentaje de vectores soporte. Canal 2. Kernel gaussiano

Vectores. 195
Figura 6.36: Porcentaje de vectores soporte. Canal 1. Kernel polinómico.
Figura 6.37: Porcentaje de vectores soporte. Canal 2. Kernel polinómico.

Tabla 6.8: Resultados Kernel gaussiano (P:1).
Canal: C1 C2
Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)
Rectangular 100.00 0.1 96.87 10.85 100.00 0.1 96.81 11.06
Triangular 97.50 3.90 95.96 10.45 97.92 2.75 96.93 10.10
Blackman 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01
Hamming 98.33 3.39 96.18 10.25 98.75 1.66 96.82 10.50
Hanning 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01
Kaiser 99.67 0.78 96.77 10.83 100.00 0.10 96.81 11.06
Tukey 99.67 0.78 96.75 11.04 100.00 0.10 96.81 11.06
Figura 6.38: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=1.
Vectores. 197
Canal: C1 C2
Rectangular 99.75 0.62 96.88 10.64 100.00 0.10 96.90 10.74
Triangular 84.67 10.89 93.49 10.38 85.25 11.26 96.15 9.19
Blackman 88.50 8.23 93.67 10.20 88.08 9.05 96.11 9.19
Hamming 90.33 7.08 94.48 9.87 90.17 7.63 96.50 9.20
Hanning 88.58 8.28 93.65 10.22 88.08 9.05 96.13 9.18
Kaiser 96.92 3.82 96.70 9.28 97.75 2.26 97.12 9.93
Tukey 98.58 2.97 96.33 10.46 99.08 1.24 96.98 10.45
Canal: C1 C2
Rectangular 98.83 2.08 96.84 9.77 98.67 1.92 97.17 9.81
Triangular 77.08 17.50 89.84 12.78 74.92 17.39 92.92 10.36
Blackman 81.00 14.89 90.74 11.90 77.83 16.04 93.59 10.61
Hamming 80.92 14.18 91.54 11.69 79.17 15.26 95.03 9.85
Hanning 80.08 15.10 90.82 11.83 77.92 16.06 93.63 10.58
Kaiser 91.00 6.58 95.68 8.84 91.08 5.99 96.58 9.28
Tukey 94.17 4.88 95.59 10.17 94.08 5.12 96.80 9.75
Vectores. 199
Canal: C1 C2
Rectangular 89.67 7.08 95.83 9.49 89.75 7.82 97.03 8.60
Triangular 77.50 17.83 81.03 14.47 75.08 17.87 83.88 11.78
Blackman 78.08 16.98 83.53 13.87 75.42 18.08 85.78 12.10
Hamming 77.00 17.79 84.78 14.11 74.67 18.22 86.89 11.52
Hanning 78.17 16.88 83.59 13.87 75.42 18.08 85.82 12.13
Kaiser 78.75 15.48 91.41 11.32 76.67 15.98 94.52 10.00
Tukey 81.58 13.48 92.60 11.23 79.67 14.48 95.13 10.44
0 Tabla 6.12: Resultados Kernel gaussiano (P:10).
Canal: C1 C2
Rectangular 74.67 19.06 88.08 13.56 74.25 18.48 91.52 11.03
Triangular 85.33 14.15 65.71 13.86 83.08 16.30 69.52 11.93
Blackman 84.00 14.81 67.94 14.00 82.33 17.12 72.38 12.24
Hamming 83.25 15.27 68.29 13.68 80.83 17.31 73.68 11.95
Hanning 84.00 14.81 67.97 13.96 82.33 17.12 72.48 12.24
Kaiser 78.58 17.80 78.27 14.75 76.00 17.65 81.22 12.00
Tukey 76.83 18.36 81.55 15.19 75.00 17.70 85.46 11.85
Vectores. 201
Tabla 6.13: Resultados Kernel polinómico (P:2).
Canal: C1 C2
Rectangular 69.33 18.97 66.63 15.51 71.83 20.85 67.47 13.96
Triangular 75.83 19.08 61.20 11.59 72.50 20.30 67.71 12.16
Blackman 77.42 19.64 60.99 9.95 73.50 20.02 66.93 12.44
Hamming 76.33 19.46 61.20 9.71 72.50 20.59 67.42 13.04
Hanning 77.42 19.64 60.97 9.95 73.42 20.10 66.95 12.42
Kaiser 73.50 19.57 63.51 11.89 71.33 20.50 66.59 13.14
Tukey 73.67 19.18 62.78 10.79 72.67 21.01 65.92 11.33
Canal 1. Kernel polinomico, n=2
80
Rect.
Trian.
Black.
Hamm.
Hann.
75 Kaiser
Tukey.
% Clasificaciones correctas.
70
65
60
55
55 60 65 70 75 80 85 90
% Vectores soporte.
Figura 6.48: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinómico P=2.
80
Rect.
Trian.
Black.
Hamm.
Hann.
75 Kaiser
Tukey.
70
65
60
55
55 60 65 70 75 80 85 90
% Vectores soporte.
2 Tabla 6.14: Resultados Kernel polinómico (P:3).
Canal: C1 C2
Rectangular 56.00 15.62 85.54 11.81 55.92 16.75 86.57 12.48
Triangular 57.17 13.97 85.08 11.59 56.50 15.44 85.40 12.61
Blackman 57.58 13.63 87.26 9.82 57.58 15.38 85.51 12.82
Hamming 56.58 13.41 85.25 10.80 56.58 15.56 85.02 12.77
Hanning 57.58 13.66 85.83 10.91 57.58 15.38 85.51 12.82
Kaiser 54.67 14.59 85.81 11.43 54.58 15.64 86.98 12.30
Tukey 55.75 15.11 85.83 11.06 54.75 16.73 85.57 13.03
94
Rect.
Trian.
92 Black.
Hamm.
Hann.
Kaiser
90 Tukey.
88
86
84
82
80
78
76
46 48 50 52 54 56 58 60 62 64 66
% Vectores soporte.
94
Rect.
Trian.
92 Black.
Hamm.
Hann.
Kaiser
90 Tukey.
88
86
84
82
80
78
76
46 48 50 52 54 56 58 60 62 64 66
% Vectores soporte.
Vectores. 20
Tabla 6.15: Resultados Kernel polinómico (P:4). 3
Canal: C1 C2
Rectangular 45.25 10.52 100.00 0.10 45.00 11.36 96.58 11.84
Triangular 48.00 10.79 99.40 1.35 45.42 8.20 99.94 0.20
Blackman 49.67 12.02 99.27 1.58 46.25 9.56 100.00 0.10
Hamming 47.83 10.14 99.53 1.22 45.25 8.41 100.00 0.10
Hanning 49.75 12.11 99.27 1.58 46.17 9.49 100.00 0.10
Kaiser 45.25 9.28 99.96 0.14 44.33 9.03 100.00 0.10
Tukey 45.50 9.96 99.98 0.10 43.25 10.90 96.26 12.96
101
Rect.
Trian.
Black.
Hamm.
100.5 Hann.
Kaiser
Tukey.
100
99.5
99
98.5
98
40 42 44 46 48 50 52 54 56
% Vectores soporte.
Rect.
102 Trian.
Black.
Hamm.
Hann.
Kaiser
100
Tukey.
98
96
94
92
90
38 40 42 44 46 48 50 52
% Vectores soporte.
6.5.2. Análisis.
De la inspección de los resultados obtenidos con los clasificadores basados en Kernels
gaussianos se observa que:
Conforme se aumenta la extensión de la zona de influencia de la función Kernel: 1,
2, 3, 5 y 10; el porcentaje de clasificaciones correctas disminuye, con independencia
tanto del canal como del tipo de ventana de procesamiento, pasando de un 100 % de
clasificaciones correctas para n=1 con cualquier tipo de ventana de preprocesameinto
a valores comprendidos entre el 80 % - 90 % en el caso de ventanas de tipo rectangular,
Kaiser y Tukey, o 65 % - 75 % para el resto de ventanas de preprocesamiento, cuando
se consideran clasificadores con funciones Kernel gaussianas con n=10.
Conforme aumenta el parámetro de la función Kernel, el porcentaje de vectores
soporte considerados disminuye, pasando del 100 % del conjunto de datos de
entrenamiento para n=1, a valores comprendidos entre el 74 % - 85 % dependiendo del
tipo de ventana de preprocesamiento, al igual que para el porcentaje de clasificaciones
correctas, los valores menores se obtienen con ventanas de tipo rectangular, Kaiser y
Tukey, obteniéndose la menor variabilidad para ventanas de Kaiser.
El mismo tipo de análisis llevado a cabo sobre los clasificadores basados en Kernels
polinómicos muestra que:
Al aumentar el orden del polinomio aumenta el número de clasificaciones correctas,
a la vez que disminuye el porcentaje de vectores soporte, llegándose a obtener un
100 % de clasificaciones correctas con Kernels polinómicos de orden 4 o superior, para
Kernels de orden 4 se obtiene un 100 % de clasificaciones correctas con ventanas de
preprocesamiento de tipo rectangular, Kaiser y Tukey, ver figuras 6.32 y 6.33.
Para Kernels de orden 4 o superior el porcentaje de vectores soporte seleccionados se
estabiliza entre el 45 % - 50 % dependiendo del tipo de ventana de preprocesamiento,
los valores menores se obtienen para ventanas de tipo rectangular, Kaiser, Tukey (ver
figuras 6.36, 6.37, 6.52, 6.53), volviéndose a obtener la menor variabilidad para
ventanas de Kaiser.
Realizando una comparación entre los resultados obtenidos con clasificadores cuya
información proviene del canal C3’-C3” frente a los del C4’-C4”, se observa que
el segundo muestra un mejor comportamiento al presentar porcentajes ligeramente
mayores de clasificaciones correctas con menores porcentajes de vectores soporte que
los mostrados por sus homólogos en C3’-C3”, ver figuras 6.30 y 6.31, 6.32 y 6.33.
6.5.3. Discusión.
Los clasificadores basados en Kernels gaussianos tienden al sobre-aprendizaje del
conjunto de entrenamiento, ya que cuando el parámetro caracterı́stico es pequeño, todos
los patrones de entrenamiento presentados se convierten en vectores soporte, conforme el
parámetro caracterı́stico del Kernel aumenta, lo que es equivalente a aumentar la zona
de influencia de cada uno de los vectores soporte seleccionados, el número de los mismos
Vectores. 205
disminuye, reduciendo as´ı mismo el porcentaje obtenido de clasificaciones correctas. Tal y

como se desprende de los dos primeros puntos del análisis previo, los mejores resultados
se obtienen con las ventanas de procesamiento de tipo rectangular, Kaiser y Tukey.
Los clasificadores basados en Kernels polinómicos no muestran el efecto de sobre-
aprendizaje del conjunto de entrenamiento, ya que como se indica en los puntos tercero y
cuarto del análisis anterior, conforme se aumenta el orden del polinomio, disminuye el
número de vectores soporte a la vez que aumenta el número de clasificaciones correctas
conseguido; sin embargo para Kernels polinómicos de orden superior a 5 no se observa una
mejora significativa.
Comparando clasificadores basados en Kernels gaussianos con clasificadores basados
en Kernels polinómicos, se observa un mejor comportamiento en los segundos, pues se
consiguen porcentajes de clasificaciones correctas mayores, prácticamente del 100 %, con
menor porcentaje de vectores soporte, entre un 45 % - 50 % para el caso de Kernels
polinómicos, frente a un 74 % - 85 % para Kernels gaussianos, lo que indica que para este
tipo de aplicación la capacidad de generalización de los Kernels polinómicos es superior
a la de los Kernels gaussianos. El mejor comportamiento del canal asociado al hemisferio
derecho, C4’-C4”, coincide con lo expuesto en 6.1.3, 6.2.3 y 6.3.3.
Del análisis y discusión de los resultados de las pruebas realizadas con cinco voluntarios,
presentados en los apartados anteriores, empleando clasificadores basados en MSV
descritas en la sección 4.5.5, se obtienen las siguientes conclusiones:
1. Es preferible la utilización de Kernels polinómicos a Kernels gaussianos.
2. La arquitectura del clasificador a emplear deberı́a emplear Kernels polinómicos
de orden 4 ó 5 ( 5 con la finalidad de aumentar la confianza en la capacidad de
generalización del mismo, mas no de orden superior, ya que no se aprecia mejora
significativa), utilizando una ventana de preprocesamiento de tipo Kaiser, Tukey o
rectangular.
6.6. Corolario.
A modo de resumen, las principales conclusiones de los apartados anteriores se
condensan en los puntos siguientes:
Es factible la discriminación de las actividades cognitivas propuestas, partiendo de
los registros de señal electroencefalográfica adquiridos cuando el usuario desarrolla
dichas actividades.
En todos los experimentos realizados, el hemisferio derecho muestra mayor capacidad
de discriminación que el izquierdo, confirmando las observaciones de diferencias
funcionales entre los mismos.
La consideración de ventanas de procesamiento de Tukey, derivadas del análisis
del efecto de enmarcado de la señal, permite obtener una mejor capacidad de
discriminación de las actividades cognitivas consideradas.
Las componentes del vector de caracter´ısticas que muestran una mejor capacidad de
discriminación son α2 , β1 y β2 .
El espacio de caracterı́sticas original puede ser transformado, mediante combinación
lineal de las mismas, en un espacio de caracter´ısticas menor, sin que por ello se pierda
la capacidad de discriminación de las actividades cognitivas propuestas.
La realimentación del resultado de la clasificación al usuario da lugar a una ligera
disminución en la capacidad de discriminación, pero sin llegar a comprometer su
utilización en dispositivos ICC en lı́nea.
Las caracterı́sticas de la señal electroencefalográficas, intrı́nsecas a cada una de
las actividades cognitivas propuestas, pueden ser aprendidas e identificadas por
clasificadores que empleen el procedimiento de aprendizaje supervisado.
Los mejores resultados se obtienen con clasificadores basados en Máquinas de Soporte
de Vectores con funciones Kernel polinómicas de orden cuatro o superior, seguidos de
los que se basan en redes neuronales de tipo RBF y PNN. Clasificadores basados en
Máquinas de Soporte de Vectores con Kernels gaussianos muestran peores resultados
que los basados en Kernels polinómicos, mientras que por su parte los clasificadores
basados en redes neuronales de tipo MLP no llegan a aprender de modo efectivo el
conjunto de muestras de entrenamiento.
En la arquitectura de los clasificadores basados en redes neuronales, las versiones que
emplean redes diferentes dedicadas a cada canal encefalográfico, muestran valores de
capacidad de discriminación superiores a las versiones en las que se emplea una única
red neuronal que considere ambos canales al mismo tiempo.
La secuencia de clasificaciones contiene información que mejora la capacidad
de discriminación entre las actividades cognitivas consideradas, mostrándose los
modelos ocultos de Markov como técnica válida para la extracción y utilización
de esta información.
Los parámetros de ajuste del clasificador bietapa presentado, son muy dependientes
del usuario, por lo que es necesario un proceso de presintonización que determine el
valor de los mismos.
Capı́tulo 7
Conclusiones y futuros desarrollos.

7.1. Conclusiones.
En la presente tesis se ha descrito la novedosa tecnolog´ıa de Interfaz Cerebro
Computador, mostrando los principales descubrimientos cient´ıficos y desarrollos
tecnológicos que han permitido su aparición, a la vez que se han indicado las razones
que justifican el interés actual que, las aplicaciones prácticas de esta tecnologı́a, suscita
entre los diversos grupos de investigación a nivel mundial, describiéndose los desarrollos y
lı́neas de investigación más importantes que sobre esta tecnologı́a existen.
También se han mostrado las bases fisiológicas, actualmente conocidas1 , en las que se
fundamenta. Ası́ mismo se han analizado y discutido las diferentes técnicas, empleadas
hoy en dı́a, en la adquisición de actividad cerebral y su aplicabilidad en esta tecnologı́a.
Posteriormente se han mostrado los componentes de que consta un dispositivo ICC.
Posteriormente se han descrito las técnicas de procesamiento de señal aplicadas a la
señal electroencefalográfica, previas al proceso de identificación y clasificacion de señal
EEG, realizando un especial análisis sobre la influencia que el efecto de ventaneado de
la señal tiene sobre la capacidad de discriminación de la señal EEG, adquirida cuando
el usuario realiza las diferentes actividades cognitivas propuestas; estudio que ha sido
presentado en [Mart´ınez 06].
Ası́ mismo se han presentado las diferentes técnicas de clasificación, más comunmente
utilizadas por los diferentes grupos de investigación sobre ICC a nivel mundial.
Entre las contribuciones de esta tesis se encuentran:
Análisis que sobre la capacidad de discriminación tiene el efecto de ventaneado con
diferentes tipos de ventanas de procesamiento.
Desarrollo de un novedoso clasificador en dos etapas basado en la aplicación
secuencial de redes neuronales de tipo RBF y Modelos Ocultos de Markov.
Desarrollo de un demostrador bajo el paradigma de dispositivo endógeno según lo
expuesto en la sección 5.7 empleando un mı́nimo número de electrodos superficiales.
1
Debido a la complejidad del sistema nervioso en general y del cerebro en particular, en Neurologı́a se
mantienen activas diferentes lı́neas de investigación, que tratan de explicar el funcionamiento del cerebro,
cuyos resultados podrı́an dar lugar a la aparición de nuevos mecanismos aplicables en ICC.
208 Conclusiones y futuros desarrollos.
Evaluación de las diferentes técnicas de clasificacion con experimentos realizados

por sujetos reales, a fin de evaluar la aplicación de esta tecnologı́a en el control de
dispositivos externos genéricos, lo que permite concluir que:
• Es factible el empleo de la tecnolog´ıa de Interfaz Cerebro Computador, bajo el
paradigma de sistema endógeno, empleando un número mı́nimo de electrodos
superficiales localizados sobre las zonas encefálicas con mayor poder de
discriminación; estando en lı́nea con lo expuesto en [Alarcon 00], [Gazzaniga 92]
y [Jessell 97], entre otros.
• El empleo de ventanas de procesamiento de tipo Tukey, Kaiser o rectangular de
duración equivalente al tamaño de la FFT de procesamiento empleada, mejora
la capacidad de discriminación; un estudio detallado sobre este punto puede
encontrarse en [Martı́nez 06].
• La banda frecuencial con mayor capacidad de discriminación comprende a
las componentes α y β, coincidiendo con los ritmos μ de des-sincronización
y posterior sincronización asociados a la planificació n de movimiento; lo cual
está en lı́nea con lo expuesto en [Pfurtscheller 03].
• El hemisferio cerebral derecho presenta una mayor capacidad de discriminación.
• Es posible reducir la dimensión del espacio de caracterı́sticas, realizando una
combinación de las mismas, sin que esto de lugar a una pérdida de la capacidad
de discriminación. Un análisis detallado sobre esta conclusión ha sido presentada
en [Mart´ınez 07].
• Los clasificadores basados en redes neuronales de tipo PNN o RBF presentan
un mejor comportamiento que clasificadores basados en redes neuronales
de tipo MLP, tanto desde el punto de vista de clasificaciones correctas
conseguidas, como estabilidad de las mismas. La descripción pormenorizada
de esta conclusión ha sido descrita en [Martı́nez 08]
• Un clasificador basado en un algoritmo bi-etapa RBF-HMM tiende a sobre-
aprender el conjunto de datos de entrenamiento, presentando una muy buena
capacidad de aprendizaje, pero una reducida generalización; por lo que se
recomienda el uso de dicho clasificador cuando exita una elevada cantidad de
información que pueda ser empleada durante el aprendizaje, por ejemplo
registros electroencefalográficos de varias horas de duración. La descripción
detallada tanto del algoritmo de clasificación, como los resultados y conclusiones
extraidos de su aplicación pueden encontrarse en [Martinez 10].
• El clasificador vasado en Máquina de Soporte de Vectores con Kernel polinómico
de orden 4 y ventana de procesamiento de tipo Tukey es el que mejores resultado
de clasificación aporta.
• La realimentación del resultado de la clasificación al usuario ocasiona una
disminución de la capacidad de discriminación, en lı́nea con lo expuesto en
[Pineda 03], la descripción detallada de esta conclusión ha sido expuesta en
[Martinez 09].
7.2 Futuros desarrollos. 209
7.2. Futuros desarrollos.

Con la aplicación de demostración desarrollada según lo expuesto en la sección 5.7
bajo el paradigma de dispositivo endógeno empleando un mı́nimo número de electrodos
superficiales, es posible analizar y evaluar la aplicabilidad de un dispositivo basado en la
tecnologı́a ICC a una persona y anticipar una estimación de los resultados obtenibles.
Las actuales lı́neas de investigación existentes sobre ICC darán respuesta a las carencias
que esta tecnologı́a presenta hoy dı́a para una utilización masiva de la misma, como por
ejemplo el desarrollo e implantacion de un algoritmo de clasificación seguro que permita
una adaptación continua al usuario, que considere el efecto que el cansancio y otros tipos
de factores psicológicos causan sobre la capacidad de producción de los patrones cerebrales
del usuario.
Para que la tecnologı́a ICC pase de la fase de demostración tecnológica a ser una
realidad en la vida diaria, se precisa que el modo de operación del clasificador pueda ser
supervisado por parte del usuario, deciendo éste cuando el dispositivo se encuentra activo,
en estado de reposo, o en fase de aprendizaje y adaptación. Para ello es preciso que se
desarrollen estudios a más largo plazo, que consideren la interacción entre el dispositivo
y el usuario. Estos estudios requerirán la creación de equipos multidisciplinares, donde se
considere el desarrollo de este tipo de tecnologı́a a nivel global, no sólo desde un punto
de vista de ingenierı́a, considerando aspectos neurológicos y psicologicos, como los efectos
que el aprendizaje por parte del usuario en el uso de un determinado tipo de dispositivo
ICC causarán sobre su capacidad de clasificación.
La evaluación de la ergonomı́a en la usabilidad del dispositivo también es de gran
importancia, un dispositivo que sea ergonómico en su empleo es más cómodo para el
usario, a la vez que evita que se produzcan lesiones o molestias en su empleo; as´ı mismo la
consideración de aspectos motivacionales por parte del usuario en el empleo de este
tipo de tecnolog´ıa son fundamentales, ya que esta tecnolog´ıa supone el desarrollo de un
nuevo canal de comunicación, distinto a los utilizados conmunmente, lo que puede dar
lugar a que inicialemente en la fase de aprendizaje se produzcan en el usuario momentos
de frustración ante la respuesta obtenida.
Por último, pero no por ello menos importante, queda el aspecto comercial y económico,
para que la tecnologı́a ICC alcance un nivel de implantación elevado, es preciso que el
precio final de comercialización de este tipo de dispositivos sea admisible por parte del
usuario final, en donde se ha de considerar tanto los costes de investigación y desarrollo
como mantenimiento y reparación. Actualmente esta tecnologı́a se encuentra en la fase de
demostración tecnológica obteniéndose resultados aceptables en escenarios de aplicación
muy especı́ficos.
210 Conclusiones y futuros desarrollos.
Apéndices
Apéndice A
Adquisición de señal.
Las señales biológicas, al igual que la gran mayorı́a de señales presentes en la naturaleza,
son de carácter analógico lo que implica su continuidad en el tiempo y en los valores de su
amplitud; sin embargo los procesadores digitales operan sobre códigos discretos asociados
a determinados instantes de tiempo. La conversión analógico/digital permite convertir un
tipo de señal en otro, conservando la mayor cantidad de información, idealmente la señal
analógica recuperada a partir de la señal digital deberı́a ser una copia fiel de la señal
analógica de partida.
La conversión analógico/digital contempla la realización de tres procesos distintos:
muestreo, cuantificación y codificación; a través de los cuales la información de la señal se
convierte de un tipo a otro.
A.1. Muestreo de señales.

El muestro de señal es un proceso lineal que transforma una señal continua en el tiempo
y de banda limitada, en una serie temporal de valores de amplitud en instantes discretos.
Si los instantes de tiempo en que se adquieren los valores de amplitud están equiespaciados
al muestreo se le denomina muestreo uniforme, siendo éste el más habitual.
Existen diferentes tipos de muestreos de señal:
Muestreo natural. La serie temporal de valores es un tren de impulsos cuya amplitud
queda modulada por el valor de la amplitud de la señal que se muestrea, lo que puede
interpretarse como el producto de señal de entrada por la señal muestreadora.
Sm(nT ) = S(t)m(t) (A.1)
El teorema de muestreo establece la relación que existe entre el periodo de muestreo y

el valor de la componente frecuencial más alta presente en la señal analógica, fM . Se
demuestra que
fM
T < (A.2)
2
214 Adquisición de señal.
Para evitar que componentes frecuenciales superiores a fM /2 se mezclen con

componentes frecuenciales menores a fM /2, efecto de “aliasing”, es preciso asegurar
que la señal que se muestrea sea de banda limitada, por lo que antes de proceder al
muestreo se utilizan filtros de paso bajo, de forma que el valor de amplitud de las
componentes frecuenciales no deseadas presentes en la señal original sean inferiores
a la resolución del conversor A/D o al valor máximo del error de cuantificación.
Cuanto mayor sea la relación entre la frecuencia de muestreo con la frecuencia de
las señales no deseadas, menor podrá ser el orden del filtro empleado.
Muestreo ideal uniforme. Algunas realizaciones prácticas de conversores A/D,

requieren que la señal que se muestrea mantenga su valor durante el instante de
tiempo en que se realiza la conversión, por lo que antes de efectuar la conversión
se utiliza un circuito que mide y retiene el valor de la entrada durante el tiempo que
dura la conversión. El teorema de Shannon afirma que si S(t) es una señal cuya
transformada de Fourier S(f ) no contiene frecuencia superiores a |f | ≥ fM entonces
n=+∞
Σ sen(2πfM (t − nT ))
S(t) = S(nT ) (A.3)
n=−∞
2πfM (t − nT )
donde T = 12fM , siendo fM la denominada frecuencia de Nyquist y 1/T la frecuencia

de muestreo.
A la función
sen(2πfM t
h(t) = (A.4)
2πfM t
se la denomina retención cardinal, coincidiendo con la respuesta impulsional de un
filtro de paso bajo ideal.
Muestreo de señales pasabanda. Este tipo de muestreo se da en aplicaciones

industriales e instrumentación, cuando la señal portadora se modula en amplitud
por la magnitud de interés, cuya frecuencia es mucho menor que la de la portadora.
Muestreo repetitivo secuencial. Cuando a priori se conoce que la señal que se

muestrea es repetitiva, se puede emplear este conocimiento para tomar muestras de
la señal en periodos diferentes. Se precisa de un punto de sincronismo y un
circuito de temporización que genere con respecto a dicho punto la base de tiempos
para la adquisición. En caso de no conocer el periodo de la señal original es preciso
determinarlo. Esta técnica de submuestreo se emplea en osciloscopios digitales de
bajo coste y voltı́metros digitales de precisión.
A.2 Cuantiftcación. 215
A.2. Cuantificación.
Mediante este procedimiento no lineal se representa el valor de amplitud de la señal
analógica mediante una serie finita de niveles de amplitud. Existen dos tipos de
cuantificación.
Cuantificación uniforme. En la figura siguiente se representa el proceso de

cuantificación uniforme. Dependiendo del valor de la entrada, x, la salida, y, toma
una serie de valores discretos, as´ısi (0 x ≤
q/2)≤y = 1, si
→(q/2 x 3q/2) ≤ ≤ →
y = 2, y as´ı sucesivamente.
Figura A.1: Cuantificación uniforme.
A q se le denomina intervalo de cuantificación, siendo la diferencia entre los valores

de entrada mayor y menor para los que la salida mantiene el mismo valor. Si la salida
del cuantificador sólo depende del valor actual de la entrada, y no de valores
anteriores, al cuantificador se le denomina de memoria cero, en contraposición con
los cuantificadores secuenciales que consideran el valor de la entrada en el momento
actual y anteriores.
Dependiendo del número de estados considerados, N , ası́ será la resolución de

cuantificador, la cual se expresa en bits (n), N = 2n.
El margen de entrada, M , viene determinado por la diferencia entre los valores
máximo y mı́nimo aceptados a la entrada. Para los cuantificadores uniformes q es
constantes en todo el margen M , cumpliéndose:
M
q= (A.5)
2n
Como puede observarse la curva en escalera de la cuantificación introduce un error,

ya que la entrada, x(t), no puede reconstruirse a partir de la secuencia de valores ya
cuantificados, y(t). El máximo error cometido en cuantificadores uniformes ideales
es de q/2, teniendo una curva en forma de diente de sierra, con valor medio nulo, ē =
0, y varianza:
∫ ∞ 2
2 e q2
vare = E(e − ē) = de = (A.6)
−∞ q 12
El valor eficaz del ruido es equivalente a la ra´ız cuadrada de la suma del valor medio al
cuadrado y la varianza, obteniéndose
q
R= √ (A.7)
2 3
De dónde se desprende que para reducir el valor del ruido hay que reducir
proporcionalmente el intervalo de cuantificación, q. Reducción que queda limitada
por factores tecnológicos y el ruido asociado a los componentes electrónicos.
La relación señal / ruido (S/R), calculada como el cociente del valor eficaz de una
señal senoidal de amplitud entre 0 y (2n − 1/2)q y el ruido presente será:
(2n − 1/2)2 q2/2 2n
S/R = = 6·2 para n > 4. (A.8)
q2/12
S/R(dB) = 10log6 + 20nlog2 = 7,78 + 6,02n (A.9)
Como puede comprobarse la expresión anterior se obtiene para señales cuyo rango de
amplitud cubre el margen de entrada del cuantificador, como es obvio para señales
menores la relación S/R será menor, motivo por el que es muy importante amplificar
la señal de entrada antes de proceder a la cuantificación
Cuantificación no uniforme. Como se ha indicado en el punto anterior, la relación

S/R disminuye cuando la amplitud de la entrada analógica es menor que el
margen del cuantificador, el error relativo es menor para señales pequeñas que
para señales grandes, en caso de querer tener una relación S/R constante se puede
A.3 Codiftcación. 217
variar el intervalo de cuantificacion proporcionalmente a la amplitud de entrada.

Técnicas como la Modulación de Impulsos Codificados1 hacen uso de este tipo de
cuantificación, permitiendo a su vez reducir el número de bits
A.3. Codificación.
Mediante el proceso de codificación se asocia biunı́vocamente cada uno de los
valores discretos de la salida del codificador a un sı́mbolo dentro de un alfabeto finito,
[Shannon 48]. Si el alfabeto queda compuesto por combinaciones de dos caracteres, y la
posición de cada uno de ellos se corresponde con una potencia entera de dos, se obtienen
los códigos binarios, entre los que se encuentran:
Código binario unipolar. A = An−1 An−2 . . . A1 A0 = An−1 × 2n−1 + An−2 × 2n−2 +

··· + A1 × 21 + A0 × 20
Código binario bipolar. En el que además del valor de la magnitud de la amplitud
es necesario indicar si ésta es positiva o negativa. Entre estos códigos se encuentran:
• Código binario con complemento a uno. Las cantidades negativas se codifican

mediante el complemento a uno del valor absoluto de la magnitud. Existen pues
dos representaciones para el cero.
• Código binario con complemento a dos. Por definición el complemento a dos
de un número binario es aquel otro número que sumado al primero da cero.
Para las magnitudes positivas se añade un cero a la izquierda de la codificación
binaria, mientras que para el cómputo de las cantidades negativas se calcula el
complemento a uno de la magnitud y se añade uno.
• Código binario decalado. Equivalente al código binario en complemento a dos
con la salvedad de cambiar el criterio para la representación de las magnitudes
positivas, añadiendo un uno a la izquierda en lugar de un cero, y un cero para
las negativas.
• Código binario con signo añadido. En este caso las magnitudes positivas quedan
representadas por el código binario unipolar añadiendo un cero a la izquierda,
mientras que para las negativas se añade un uno.
Otros códigos. Existen codificadores que realizan operaciones más exóticas a efectos
de evitar y detectar comportamientos anómalos, como por ejemplo:
• Código Gray. Se trata de un código cı́clico de representación, en el que entre un

sı́mbolo y su inmediato seguidor sólo se permite el cambio de un dı́gito, se evita
ası́ que en la transición secuencial de códigos se produzcan lecturas erróneas.
1
En inglés Pulse Code Modulation, PCM
• Códigos con corrección de errores. Se aplica cuando se realiza transmisión o

almacenamiento de la información digital proporcionada por el codificador,
añadiendo una codificación adicional que facilita la identificación y posible
corrección de errores. Ejemplos de este tipo de códigos son los bits de paridad
o el código Hamming.
Apéndice B
Matriz de confusión.
Para presentar los resultados de clasificación obtenidos con la tras la aplicación de un
clasificador a un conjunto de datos se utilizan las matrices de confusión. Éstas proporcionan
información detallada sobre el rendimiento del clasificador para cada una de las clases
consideradas [Nabney 02].
En la matriz de confusión C, las filas representan la asignación real de las muestras
candidatas a cada una de las clases, mientras que las columnas representan las asignaciones
predichas. De este modo la componente Cij de la matriz de confusión representa al número
de muestras que perteneciendo a la clase i han sido asignadas dentro de la clase j; as´ı pues
el clasificador ideal, aquél que no comete errores, serı́a una matriz diagonal.
Uno de los beneficios de la utilización de las matrices de confusión es comprobrar si el
clasificador confunde dos o más clases entre sı́.
Para obtener resultados representativos sobre la bondad del clasificador, es
recomendable que el número de muestras considerados en cada una de las clases sea
semejante, en caso contrario la tasa de error puede llega a no ser representativa de la
bondad de su rendimiento.
A modo de ejemplo considérense las matrices de confusión mostradas en las tablas
B.1 y B.2. En la primera, del clasificador ideal, se observa que todas las muestras son
asignadas a las clases correctas, y el número de muestras considerado es equivalente en las
tres clases.
Cálculo matemático Imaginación movimento Relax
Cálculo matemático 60 0 0
Imaginación movimento 0 65 0
Relax 0 0 55
Tabla B.1: Matriz de confusión del clasificador ideal.
Mientras que en la matriz de la tabla B.2 se observa que un tercio de las muestras
pertenecientes a Cálculo matemático son clasificadas de forma errónea, con tendencia a
confundirlas con las muestras de la clase Relax. Por su parte todas las muestras de
Imaginación de movimiento son catalogadas de forma correcta. Por último, analizando
la clase Relax se observa que el número de muestras consideradas es del orden de la
220 Matriz de confusión.
quinta parte del considerado en las otras dos clases, y la confusión de cinco de las doce
muestras como pertenecientes a la clase Imaginación de movimiento hace sospechar que
el clasificador en cuestión no pueda discriminar entre ambas clases.
Cálculo matemático Imaginación movimento Relax
Cálculo matemático 40 8 12
Imaginación movimento 0 65 0
Relax 0 5 7
Tabla B.2: Matriz de confusión para un clasificador real.
El rendimiento de este clasificador ser´ıa del 82 %. Predicción

Considerando un clasificador que separara entre dos (−) (+)
clases, { +, −}, las entradas de la matriz de confusión Real (−) a b
tienen el siguiente significado: (+) c d
a es el número de predicciones correctas para la clase de muestras negativas.
b es el número de falsos positivos o muestras negativas clasificadas erróneamente.
c es el número de falsos negativos o muestras positivas clasificadas como positivas.
d es el número de predicciones correctas para la clase de muestras positivas.
Definiéndose la siguiente terminologı́a:
Exactitud (E): porporción de clasificaciones correctas.
a+d
E= (B.1)
a+b+c+d
Tasa de Verdaderos Positivos (TVP): proporción de muestras positivas
correctamente clasificadas.
d
TV P = (B.2)
c+d
Tasa de Falsos Positivos (TFP): proporción de muestras negativas clasificadas
erróneamente.
b
TFP = (B.3)
a+ b
Tasa de Verdaderos Negativos (TVN): proporción de muestras negativas
correctametne clasificadas.
a
TV N = (B.4)
a+ b
Tasa de Falsos Negativos (TFN): proporción de muestras positivas clasificadas
erróneamente.
c
TFV = (B.5)
c+d
Precisión (P): proporción de muestras positivas correctamente clasificadas
considerando todas las predicciones positivas.
d
P= (B.6)
b+d
Bibliografı́a
[Alarcon 00] R. Alarcon & M.J. Blanca. Asimetrı́a hemisférica en la dicotomica

holı́stica-analı́tica en tareas de atención focalizada. Psicothema, vol. 12,
no. 2, pages 15–17, 2000.
[Allen 77] J. B. Allen & Lawrence R. Rabiner. A Unified Approach to Short-Time

Fourier Analysis and Synthesis., November 1977 1977.
[Allison 03] B. Z. Allison & J. A. Pineda. ERPs evoked by different matrix sizes:
implications for a brain computer interface (BCI) system. Neural
Systems and Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages
110–113, 2003.
[Ambler 05] Scott W. Ambler. The elements of uml 2.0 style. Cambridge University
Press, 2005.
[Areny 93] Ramon P. Areny. Adquisición y distribución de señales. Marcombo

S.A., Barcelona, 1993.
[Arlow 05] Jim Arlow & Ila Neustadt. Uml 2. Anaya Multimedia, Madrid, 2005.
[Arnao 97] A. C. Arnao. Guia de acceso al ordenador para personas con

discapacidad. Instituto de Migraciones y Servicios Sociales. Ministerio
de Trabajo y Asuntos Sociales, Madrid, 1997.
[Babiloni 00] F. Babiloni, F. Cincotti, L. Lazzarini, J. Millan, J. Mourino, M. Varsta,

J. Heikkonen, L. Bianchi & M. G. Marciani. Linear classification of
low-resolution EEG patterns produced by imagined hand movements.
Rehabilitation Engineering, IEEE Transactions on [see also IEEE
Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 186–
188, 2000.
[Bai 01] Ou Bai, M.Ñakamura & H. Shibasaki. Compensation of hand

movement for patients by assistant force: relationship between human
hand movement and robot arm motion. Neural Systems and
222 BIBLIOGRAFÍA

Trans.on Rehabilitation Engineering], vol. 9, no. 3, pages 302–307,
2001.
[Baker 89] L. A. Geddes; L. E. Baker. Principles of applied biomedical

instrumentation. Wiley, New York ; Chichester, 1989. L.A.
Geddes, L.E. Baker; .A Wiley-Interscience publication.”; Includes
bibliographies.
[Barreno 97] Pedro Garc´ıa Barreno. Medicina virtual. en los bordes de lo real.
Debate, Madrid, 1997. 019: M. 1045-1997; Pedro Garc´ıa Barreno.
[Barreno 02] Pedro Garc´ıa Barreno. Horizontes culturales. historia de la ciencia

española. santiago ramon y cajal. .Espasa”, 2002.
[Baum 66] L.E. Baum & Petrie T. Statistical Inference for probabilistic functions
of Finite State Markov Chains, 1966.
[Baum 70] L.E. Baum, Petrie T., Soules G. & Weiss N. A Maximization Technique
Ocurring in the Statistical Analysis of Probabilistic Functions of
Markov Chains, 1970.
[Bayliss 00] J. D. Bayliss & D. H. Ballard. A virtual reality testbed for brain-
computer interface research. Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Neural Systems and
Rehabilitation], vol. 8, no. 2, pages 188–190, 2000.
[Bayliss 03] J. D. Bayliss. Use of the evoked potential P3 component for control in
a virtual apartment. Neural Systems and Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Rehabilitation
Engineering], vol. 11, no. 2, pages 113–116, 2003.
[Bengio 96] Y. Bengio & P. Frasconi. Input-output HMMs for sequence processing,
1996.
[Bianchi 03] L. Bianchi, F. Babiloni, F. Cincotti, M. Arrivas, P. Bollero & M. G.

Marciani. Developing wearable bio-feedback systems: a general-purpose
platform. Neural Systems and Rehabilitation Engineering, IEEE
Transactions on [see also IEEE Trans.on Rehabilitation Engineering],
vol. 11, no. 2, pages 1–3, 2003.
[Birbaumer 00] N. Birbaumer, A. Kubler, N. Ghanayim, T. Hinterberger, J. Perel-

mouter, J. Kaiser, I. Iversen, B. Kotchoubey, N.Ñeumann & H. Flor.
The thought translation device (TTD) for completely paralyzed pa-
tients. Rehabilitation Engineering, IEEE Transactions on [see also
BIBLIOGRAFÍA 223
IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages

190–193, 2000.
[Birbaumer 03] N. Birbaumer, T. Hinterberger, A. Kubler & N.Ñeumann. The thought-

translation device (TTD): neurobehavioral mechanisms and clinical
outcome. Neural Systems and Rehabilitation Engineering, IEEE
vol. 11, no. 2, pages 120–123, 2003.
[Birch 00] G. E. Birch & S. G. Mason. Brain-computer interface research

at the Neil Squire Foundation. Rehabilitation Engineering, IEEE
[Birch 03] G. E. Birch, S. G. Mason & J. F. Borisoff. Current trends in brain-

computer interface research at the Neil Squire foundation. Neural
123–126, 2003.
[Bishop 95] Christopher M. Bishop. Neural networks for pattern recognition.

Oxford University Press, Great Britain, 2000 1995.
[Blankertz 04] B. Blankertz, K. R Muller, G. Curio, T. M. Vaughan, G. Schalk,
J. R. Wolpaw, A. Schlogl, C.Ñeuper, G. Pfurtscheller, T. Hinterberger,
M. Schroder & N. Birbaumer. The BCI competition 2003: progress
and perspectives in detection and discrimination of EEG single trials.
Biomedical Engineering, IEEE Transactions on, vol. 51, no. 6, pages
1044–1051, 2004.
[Borisoff 04] J. F. Borisoff, S. G. Mason, A. Bashashati & G. E. Birch. Brain-

computer interface design for asynchronous control applications:
improvements to the LF-ASD asynchronous brain switch. Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 985–992, 2004.
[Bronzino 95a] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press
: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;
Includes bibliographical references and index.
[Bronzino 95b] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press
: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;
Includes bibliographical references and index.
[Burges 98] Christopher J.C. Burges. A Tutorial on Support Vector Machines for
Pattern Recognition., 1998.
224 BIBLIOGRAFÍA
[Cajal 05] Santiago Ramon y Cajal. Histologı́a del sistema nervioso del hombre y
de los vertebrados, 1905.
[Canu 05] Y. Grandvalet; V. Guigue; A. Rakotomamonjy; S. Canu. SVM and

Kernel Methods Matlab Toolbox. Perception Systemes et Information,
INSA de Rouen, Rouen, France, 2005.
[Castro 03] J.L. Alba Castro. Maquinas de Soporte de Vectores, 2003.
[Chang 07] Chih-Chung Chang & Chih-Jen Lin. LIBSVM – A Library for Support
Vector Machines, 2007.
[Chapin 99] J. K. Chapin & K. A. Moxon. Real-time control of a robot arm using
simultaneously recorded neurons in the motor cortex, 1999 1999.
[Chervonenkis 74] V. Vapnik; A. Chervonenkis. Theory of Pattern Recognition. Nakua,

Moscow, 1974.
[Chiappa 06] Silvia Chiappa. ANALYSIS AND CLASSIFICATION OF EEG SIG-

NALS USING PROBABILISTIC MODELS FOR BRAIN COMPU-
TER INTERFACES. PhD thesis, IDIAP Research Institute, 2006.
[Chinchilla 43] Anastasio Chinchilla. Anales históricos de la medicina en general, y

biográfico-bibliográfico de la española en particular. Imprenta de Lopez
y Cia., 1843.
[Cincotti 03] F. Cincotti, D. Mattia, C. Babiloni, F. Carducci, S. Salinari, L. Bianchi,

M. G. Marciani & F. Babiloni. The use of EEG modifications due
to motor imagery for brain-computer interfaces. Neural Systems and
2003.
[Colbert 98] Charles Colbert. A measure of perfection: Phrenology and the fine arts
in america. The University of North Carolina Press, 1998.
[Cox 00] Richard V. Cox, Candace A. Kamm, Lawrence R. Rabiner, Juergen

Schroeter & Jay G. Wilpon. Speech and Language Processing for Next-
Millennium Communications Services., August 2000 2000.
[Cristianini 00] Nello Cristianini & John Shawe-Taylor. An introduction to support

vector machines : and other kernel-based learning methods. Cambridge
University Press, Cambridge, 2000. Nello Cristianini and John Shawe-
Taylor.; Includes bibliographical references and index.
[Cristianini 05a] Nello Cristianini. Kernel Methods for General Pattern Analysis, 2005.
BIBLIOGRAFÍA 225
[Cristianini 05b] Nello Cristianini & John Shawe-Taylor. And Introduction to Support
Vector Machines and other kernel-based learning methods. Cambridge
University Press, The Edinburgh Building, Cambridge CB2 2RU, UK,
2005.
[Donchin 00] E. Donchin, K. M. Spencer & R. Wijesinghe. The mental

prosthesis: assessing the speed of a P300-based brain-computer
interface. Rehabilitation Engineering, IEEE Transactions on [see also
174–179, 2000.
[Duda 01] Richard Oswald Duda, Peter Elliot Hart & David G. Strok. Pattern
classification. John Wiley and sons, New York etc., 2001. Richard O.
Duda, Peter E. Hart, David G. Strok.
[Espinoza 03] J.W. Espinoza. El Genoma Humano y sus implicancias jurúdico

penales dentro de la antropologı́a jurı́dica., 2003.
[Ferre 97] M. Ferre. Diseño de Interfases Avanzados para Robots Teleoperados.

Desarrollo de un Entorno de Teleoperación. PhD thesis, Universidad
Politécnica de Madrid, 1997.
[Fisher 36] R. A. Fisher. THE USE OF MULTIPLE MEASUREMENTS IN

TAXONOMIC PROBLEMS. Annals of Eugenics, vol. 7, pages 179–
188, 1936 1936.
[Florian 98] G. Florian, C. Andrew & G. Pfurtscheller. Do changes in coherence

always reflect changes in functional coupling? Electroencephalography
and Clinical Neurophysiology,, vol. 106, no. 1, pages 87–91, 1 1998.
[Forney 73] G.D. Forney. The Viterbi Algorithm, 1973.
[Freeman 93] James A. Freeman & David M. Skapura. Redes neuronales :

algoritmos, aplicaciones y técnicas de programación. Addison-Wesley
Iberoamericana; D´ıaz de Santos, Reading Massachusetts; Madrid, 1993.
James A. Freeman, David M. Skapura; 19930929.
[Friedman 89] J. H. Friedman. Regularized Discriminant Analysis. Journal of the

American Statistical Association, July 1988 1989.
[Fuente O’Connor 93] José Luis Fuente O’Connor. Tecnologı́as computacionales para
sistemas de ecuaciones, optimización lineal y entera. Editorial Reverte,
España, 1993.
226 BIBLIOGRAFÍA
[Galan 07] F. Galan & R. Millan. Feature Extraction for Multi-class BCI using
Canonical Variates Analysis. Presentacion WISP 2007 2007 IEEE
International Symposium on Intelligent Signal Processing, Octuber
2007.
[Garrett 03] D. Garrett, D. A. Peterson, C. W. Anderson & M. H. Thaut.

Comparison of linear, nonlinear, and feature selection methods for EEG
signal classification. Neural Systems and Rehabilitation Engineering,
[Gazzaniga 92] Michael Gazzaniga. Nature’s Mind: The biological roats of thinking,
emotions, sexuality, language and Intelligence. Harmonsdsworth,
Penguin Books, 1992.
[Gerstner 04] J. R. Millan; F. Renkens; J. Mourino; W. Gerstner. Noninvasive brain-

actuated control of a mobile robot by human EEG. Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 1026–1033,
2004.
[Guger 99] B. Obermaier; C. Guger & G. Pfurtscheller. HMM used for the offline
classification of EEG data, 1999.
[Guger 05] Christoph Guger. g.tec, 2005.
[Gunn 98] Steve R. Gunn. Support Vector Machines for Classification and
Regression, 1998.
[Gunn 03] Steve R. Gunn. Sparse Kernel Methods, 2003.
[Gunn 05] Steve Gunn. Matlab Support Vector Machine Toolbox, 2005.
[Harrington 97] Anne Harrington. The placebo effect : an interdisciplinary exploration.

Harvard University Press, Cambridge, Mass. ; London, 1997. editor,
Anne Harrington.; Includes bibliographical references and index.
[Herreo 98] Oscar Luengo Herreo. TELEOPERACION BILATERAL SEMIATO-

MATICA EN ACTIVIDADES CON ELEVADAS FUERZAS DE RE-
ACCION CON EL CONTORNO, 1998.
[Hinterberger 04] T. Hinterberger, N. Weiskopf, R. Veit, B. Wilhelm, E. Betta &

N. Birbaumer. An EEG-driven brain-computer interface combined
with functional magnetic resonance imaging (fMRI). Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 971–974, 2004.
BIBLIOGRAFÍA 227
[Holzapfel 98] S. Holzapfel, Strehl U., Kotchoubey B. & Birbaumer N. Behavioral

Psychophysiological Intervention in a Mentally Retarded Epileptic
Patient with Brain Lesion. Applied Psychophysiology and Biofeedback,
vol. 23, pages 189–202(14), September 1998.
[HONDA 09] HONDA. HONDA, 2009.
[Hoogerwerf 94] A. C. Hoogerwerf. A three-dimensional microelectrode array for chronic

neural recording, 1994. ID: 1.
[Instruments 01] National Instruments. The Measurement and Automation, 2001.
[Isaacs 00] R. E. Isaacs. Work toward real-time control of a cortical neural

prothesis, 2000. ID: 1.
[Ivanciuc 07] Ovidiu Ivanciuc. Applications of Support Vector Machines in

Chemistry, 2007.
[J. 75] Baker J. The Dragon System. An overview., February 1975.
[Jacques 94] G. E. Jacques. Application of quality function deployment in

rehabilitation engineering, 1994. ID: 1.
[Jelinek 80] F. Jelinek & R. L. Mercer. Interpolated estimation of Markov source

parameters from sparse data, 1980.
[Jessell 91] E. R. Kandel; J. H. Schwartz; T. M. Jessell. Principles of neural science.

.Elsevier/North Holland”, ”New York Elsevier/North Holland”, 1991.
[Jessell 97] E. R. Kandel; J. H. Schwartz; T. M. Jessell. Neurociencia y conducta.

Prentice Hall, 1997.
[Juang 91] B. H. Juang & Lawrence R. Rabiner. Hidden Markov Models for Speech
Recognition, August 1991 1991.
[Kennedy 97] Philip R. Kennedy & Roy A. E. Bakay. Activity of single action
potentials in monkey motor cortex during long-term task learning.
Brain Research,, vol. 760, no. 1-2, pages 251–254, 6/20 1997.
[Kennedy 00] P. R. Kennedy, R. A. E. Bakay, M. M. Moore, K. Adams &

J. Goldwaithe. Direct control of a computer from the human central
nervous system. Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2,
pages 198–202, 2000.
228 BIBLIOGRAFÍA
[Kipke 03] D. R. Kipke, R. J. Vetter, J. C. Williams & J. F. Hetke. Silicon-

substrate intracortical microelectrode arrays for long-term recording
of neuronal spike activity in cerebral cortex. Neural Systems and
2003.
[Kositsky 03] M. Kositsky, A. Karniel, S. Alford, K. M. Fleming & F. A. Mussa-

Ivaldi. Dynamical dimension of a hybrid neurorobotic system. Neural
155–159, 2003.
[Kostov 00] A. Kostov & M. Polak. Parallel man-machine training in development

of EEG-based cursor control. Rehabilitation Engineering, IEEE
[Krusienski 00] D. J. Krusienski, E. W. Sellers, D. J. McFarland, T. M. Vaughan &

J. R. Wolpaw. Toward enhanced P300 speller performance. Journal of
Neuroscience Methods,, vol. In Press, Corrected Proof, page 550, 2000.
[Kumlbler 01] Andrea Kumlbler, Nicola Neumann, Jochen Kaiser, Boris Kotchoubey,
Thilo Hinterberger & Niels P. Birbaumer. Brain-computer
communication: Self-regulation of slow cortical potentials for verbal
communication. Archives of Physical Medicine and Rehabilitation,,
vol. 82, no. 11, pages 1533–1539, 11 2001.
[Laitinen 03] L. Laitinen. Neuromagnetic sensorimotor signals in brain computer

interfaces. PhD thesis, Helsinki University of Technology, 2003.
[Larman 03] C. Larman. UML Y PATRONES. Una introduccion al analisis y diseño

orientado a objetos y al proceso unificado. Pearson Educacion, Madrid,
2003.
[Lauer 00] R. T. Lauer, P. H. Peckham, K. L. Kilgore & W. J. Heetderks.

Applications of cortical signals to neuroprosthetic control: a critical
review. Rehabilitation Engineering, IEEE Transactions on [see also
205–208, 2000.
[Lauritzen 96] S. Lauritzen. Graphical models. Oxford Science Publications, 1996.
[Lauzon; 01] Y. Bengio; V. P. Lauzon; & R. Ducharme. Experiments on the

applications of IOHMMs to model financial return series, 2001.
BIBLIOGRAFÍA 229
[Leeb 05] Robert Leeb. Usefulness of an EEG-based brain-computer interface to

establish communication in ALS. Journal of the Neurological Sciences,,
vol. 238, no. 1, pages 341–458, 2005.
[Levine 00] S. P. Levine, J. E. Huggins, S. L. BeMent, R. K. Kushwaha, L. A.

Schuh, M. M. Rohde, E. A. Passaro, D. A. Ross, K. V. Elisevich &
B. J. Smith. A direct brain interface based on event-related potentials.
185, 2000.
[Luengo 98] O. Luengo. Teleoperación Bilateral Semiautónoma en Actividades con

Elevadas Fuerzas de Reacción con el Entorno. PhD thesis, Universidad
[Mahajan 98] D. Mahajan, D. B. Reynolds, K. S. Rattan, C. A. & Phillips. A Fuzzy

Logic Controller For Leg Extension Exercise in a Spinal Cord Injured
Person, 1998 1998.
[Mardia 79] K.V. Mardia. Multivariate analysis. Academic Press, 1979.
[Martinez 01] A. M. Martinez & A. C. Kak. PCA versus LDA. IEEE Transactions
on Pattern Analysis and Machine Intelligence, vol. 23, no. 2, pages
228–233, February 2001 2001.
[Martinez 09] J.L. Martinez & A. Barrientos. Feedback effect analysis by comparison
of discrimination capability of On-line and Off-line experimental
procedures based on LDA. Proceedings of the BIODEVICES
International Conference on Biomedical Electronics and Devices.,
vol. 1, no. 1, pages 20–25, January 2009.
[Martinez 10] J.L. Martinez & A. Barrientos. Brain Computer Interface. Application
of an adaptive bi-stage classifier based on RBF-HMM. Proceedings of
the BIODEVICES International Conference on Biomedical Electronics
and Devices., vol. 1, no. 1, page Próxima aparición, January 2010.
[Mart´ınez 06] J.L. Mart´ınez & A. Barrientos. The windowing Effect in Cerebral
Pattern Classification. An Application to BCI Technology. IASTED
Biomedical Engineering BioMED 2006, pages 1186–1191, February
2006.
[Mart´ınez 07] J.L. Mart´ınez & A. Barrientos. Linear Discriminant Analysis on Brain
Computer Interface. IEEE. Internacional Symposium on Intelligent
Signal Processing. Conference Proceedings Book, pages 859–864,
November 2007.
230 BIBLIOGRAFÍA
[Mart´ınez 08] J.L. Mart´ınez & A. Barrientos. Brain Computer Interface. Comparison
of neural networks classifiers. Proceedings of the BIODEVICES
[Maynard 99] E. M. Maynard, N. G. Hatsopoulos, C. L. Ojakangas, B. D. Acuna,

J.Ñ. Sanes, R. A. Normann & J. P. Donoghue. Neuronal Interactions
Improve Cortical Population Coding of Movement Direction. Journal
of Neuroscience, vol. 19, no. 18, pages 8083–8093, September 15 1999.
[McFarland 97] D. J. McFarland & Jonathan R. Wolpaw. Design and operation of

an EEG-based brain-computer interface with digital signal processing
technlogy, 1997 1997.
[McLachlan 97] McLachlan & T. Krishnan. The em algorithm and extensions. John
Wiley and Sons, 1997.
[McLachlan 04] Geoffrey J. McLachlan. Discriminant analysis and statistical pattern

recognition. John Wiley and sons, Hoboken New Jersey, 2004. Geoffry
J. McLachlan.
[Middendorf 00] M. Middendorf, G. McMillan, G. Calhoun & K. S. Jones. Brain-

computer interfaces based on the steady-state visual-evoked response.
214, 2000.
[Millan 03] J.R. Millan & J. Mourino. Asynchronous BCI and local neural
classifiers: an overview of the adaptive brain interface project. Neural
159–161, 2003.
[Millan 04] J.R. Millan, F. Renkens, J. Mourino & W. Gerstner. Brain-actuated

interaction. Artificial Intelligence,, vol. 159, no. 1-2, pages 241–259, 11
2004.
[Miner 98] Laurie A. Miner, Dennis J. McFarland & Jonathan R. Wolpaw.

Answering questions with an electroencephalogram-based brain-
computer interface, ,. Archives of Physical Medicine and
Rehabilitation,, vol. 79, no. 9, pages 1029–1033, 9 1998.
[Montaner 91] Montaner. Diccionario Enciclopédico Hispano-Americano., 1891.
[Montoya 02] R. S. Montoya. Ordenador y discapacidad. CEPE, Madrid, 2002.

BIBLIOGRAFÍA 231
[Moreno 06] J.C. Moreno. Exoesquelos Robóticos para Valoración y Compensación

Funcional de Marcha Patológica. PhD thesis, Universidad Politécnica
de Madrid, 2006.
[Muller 03a] B. Obermaier; G. R. Muller & G.Pfurtscheller. Virtual Keyboard

controlled by spontaneous EEG activity, 2003.
[Muller 03b] K. R Muller, C. W. Anderson & G. E. Birch. Linear and

nonlinear methods for brain-computer interfaces. Neural Systems
and Rehabilitation Engineering, IEEE Transactions on [see also IEEE
2003.
[Nabney 02] Ian Nabney. Netlab : algorithms for pattern recognition. Springer,
London, 2002. Ian T. Nabney.; Includes bibliographical references (p.
[407]-412) and indexes.; NETLAB toolbox is available via the Internet.
[NASA 08] NASA. Air Force and NASA Research on pilots has revealed the
secrects of peak mental performance, 2008.
[Neuper 01] B. Obermaier; C. Guger; C. Neuper & G. Pfurtscheller. Hidden Markov

Models for online classification of single trial EEG data, 2001.
[Nicolau 08] N.; Nicolau, J. Georgiou & M.Polycarpou. Autoregressive features

for thought to speech converter. Proceedings of the BIODEVICES
[Obermaier 01a] B. Obermaier. Dessign and implementation of an EEG based virtual

keyboard using hidden Markov models, 2001.
[Obermaier 01b] Bernhard Obermaier, Christa Neuper, Christoph Guger & Gert
Pfurtscheller. Information Transfer Rate in a Five-Classes Brain-
Computer Interface. IEEE Transactions on Neural Systems and
Rehabilitation Engineering, vol. 9, no. 3, pages 283–288, September
2001. Importante.
[Oppenheim 96] A. Oppenheim. Signals and systems. Prentice-Hall Signal Processing

Series, Cambridge, 1996.
[Peña Sánchez 86] Daniel Peña Sánchez. Estadı́stica : modelos y métodos, volume 109-
110. Alianza, Madrid, 1986. Daniel Peña Sánchez de Rivera; 2 v. 23
cm; 1. Fundamentos – 2. Modelos lineales y series temporales.
[Penny 99] W. Penny & S. Roberts. Experiments with an eegbased computer

interface, 1999.
232 BIBLIOGRAFÍA
[Penny 00] W. D. Penny, S. J. Roberts, E. A. Curran & M. J. Stokes. EEG-

based communication: a pattern recognition approach. Rehabilitation
Engineering, IEEE Transactions on [see also IEEE Trans.on Neural
Systems and Rehabilitation], vol. 8, no. 2, pages 214–215, 2000.
[Perelmouter 99] J. Perelmouter. Language support program for thought-translation-

devices, 1999 1999.
[Perelmouter 00] J. Perelmouter & N. Birbaumer. A binary spelling interface with

random errors. Rehabilitation Engineering, IEEE Transactions on [see
also IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2,
pages 227–232, 2000.
[Peñı́n 98] L.F. Peñı́n. Control Bilateral de Robots Teleoperados. Contribución en

Reflexión de Fuerzas. PhD thesis, Universidad Politécnica de Madrid,
1998.
[Pfurtscheller 00] G. Pfurtscheller, C.Ñeuper, C. Guger, W. Harkam, H. Ramoser,

A. Schlogl, B. Obermaier & M. Pregenzer. Current trends in Graz
brain-computer interface (BCI) research. Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Neural Systems and
[Pfurtscheller 03] G. Pfurtscheller, C.Ñeuper, G. R. Muller, B. Obermaier, G. Krausz,

A. Schlogl, R. Scherer, B. Graimann, C. Keinrath, D. Skliris, M. Wortz,
G. Supp & C. Schrank. Graz-BCI: state of the art and clinical
applications. Neural Systems and Rehabilitation Engineering, IEEE
vol. 11, no. 2, pages 1–4, 2003.
[Pierce 80] John Robinson Pierce. An introduction to information theory :

symbols, signals and noise. Dover Publications, New York, 1961 1980.
John R. Pierce.; Previously published as: Symbols, signals, and noise.
1961.; Includes bibliographical references and index.
[Pilone 05] Dan Pilone & Neil Pitman. Uml 2.0 in a nutshell. O’Reilly, 2005.
[Pineda 00] J. A. Pineda, B. Z. Allison & A. Vankov. The effects of self-

movement, observation, and imagination on /spl mu/ rhythms and
readiness potentials (RP’s): toward a brain-computer interface (BCI).
222, 2000.
BIBLIOGRAFÍA 233
[Pineda 03] J. A. Pineda & et al. Learning to Control Brain Rhythms: Making a
Brain-Computer Interface Possible. IEEE TRANS. ON REH. ENG.,
vol. 11, no. 2, pages 181–184, June 2003.
[Pintado 77] Prudencio Gomez Pintado. Caminos abiertos por santiago ramon y
cajal. ”Libreria y Casa Editorial Hernando, S.A.”, 1977.
[Proakis 97] John G. Proakis & Dimitri G. Manolakis. Tratamiento digital de

señales : [principios, algoritmos y aplicaciones]. Prentice-Hall, Madrid,
1997.
[Rabiner 89] Lawrence R. Rabiner. A Tutorial on Hidden Markov Models and

Selected Applications in Speech Recognition, February 1989.
[Ratey 03] John J. Ratey. El cerebro: Manual de instrucciones. DeBolsillo,

Barcelona Constitució 19, 2003.
[Reilly 99] R. B. Reilly. Adaptive noncontact gesture-based system for

augmentative communication, 1999.
[Rezek 00] A. Flexer; P. Sykacek; I. Rezek & G. Dorffner. Using hidden Markov
models to build an automatic, continuous and probabilistic sleep stager,
2000.
[Rich 94] Elaine Rich & Kevin Knight. Inteligencia artificial. McGraw-
Hill, Madrid, 1994. Elaine Rich, Kevin Knight; Agotado (3-11-05);
19950223.
[Ripley 96] Brian D. Ripley. Pattern recognition and neural networks. Cambridge
University Press, United Kingdom, 2000 1996.
[Roberts 89] N. Birbaumer; Larry E. Roberts. Self-Report During Feedback

Regulation of Slow Cortical Potentials, July 1989 1989.
[Robinson 93] C. Robinson. What is rehabilitation engineering? IEEE Transactions

on Rehabilitation Engineering, vol. 1, no. 1, March 1993.
[Robinson 00a] C. Robinson. Commentary on Brain-Computer Interfacing and its

impact on rehabilitation science and clinical applicability. IEEE
Transactions on Rehabilitation Engineering, vol. 8, pages 161–163,
June 2000.
[Robinson 00b] Charles J. Robinson. A Commentary on Brain-Computer Interfacing

and Its Impact on Rehabilitation Science and Clinical Applicability,
June 2000 2000.
234 BIBLIOGRAFÍA
[Rockstroh 89] Brigitte Rockstroh. Slow brain potentials and behavior. Urban
and Schwarzenberg, Baltimore, 1989. Brigitte Rockstroh ... [et al.].;
Bibliography: p. 229-250.
[Rocon 06] Eduardo Rocon. Reducción activa de temblor patológico de miembro
superior mediante exoesqueletos robóticos. PhD thesis, Universidad
[Rousche 98] Patrick J. Rousche & Richard A. Normann. Chronic recording
capability of the Utah Intracortical Electrode Array in cat sensory
cortex. Journal of Neuroscience Methods,, vol. 82, no. 1, pages 1–15,
7/1 1998.
[Rubio 00] José Luis Bardasano Rubio & José Ignacio Elorrieta Pérez de Diego.
Bioelectromagnetismo. ciencia y salud. McGraw-Hill, Madrid etc.,
2000. 019: M. 10344-2000; José Luis Bardasano Rubio, José Ignacio
Elorrieta Pérez de Diego.
[Rumbaugh. 99] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.
Addison Wesley Iberoamericana, Madrid, 1999.
[Rumbaugh. 00a] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.
manual de referencia. Pearson Educacion, Madrid, 2000.
[Rumbaugh 00b] Jacobson; Booch; Rumbaugh. El proceso unificado de desarrollo de
software. Pearson Educacion, Madrid, 2000.
[Rupp 06] R. Rupp, G. MÃ41 ller-Putz, R. Scherer, G. Pfurtscheller & H. J.
Gerner. Moving thoughts. A brain-computer interface for control of
grasp neuroprostheses in tetraplegic patients. Journal of Biomechanics,,
vol. 39, no. Supplement 1, pages S371–548, 2006.
[Sarcinelli 09] Andre Ferreira; Teodiano Freire; Mario Sarcinelli & J. L. MartÃn
Sanchez. Evaluation of PSD components and AAR parameters as
input features for a SVM classifier applied to a robotic wheelchair.
Proceedings of the BIODEVICES International Conference on
Biomedical Electronics and Devices., vol. 1, no. 1, pages 7–12, January
2009.
[Schalk 04] G. Schalk. BCI2000: a general-purpose brain-computer interface (BCI)
system, 2004. ID: 1.
[Scherer 04] R. Scherer, G. R. Muller, C.Ñeuper, B. Graimann & G. Pfurtsche-
ller. An asynchronously controlled EEG-based virtual keyboard: impro-
vement of the spelling rate. Biomedical Engineering, IEEE Transactions
on, vol. 51, no. 6, pages 979–984, 2004.
BIBLIOGRAFÍA 235
[Schmidt 88] E. Schmidt, J. Mcintosh & M. Bak. Long-term implants of Parylene-

C coated microelectrodes. Medical and Biological Engineering and
Computing, vol. 26, no. 1, pages 96–101, 01/29 1988. M3:
10.1007/BF02441836.
[S.E.; 83] Levinson S.E.; & Rabiner L.R. An introduction to the Application of
the Theory of Probabilistic Functions of a Markov Process to Automatic
Speech Recognition, April 1983.
[Segovia 38] A.M. Segovia. Frenonologı́a. Semanario Pintoresco, vol. III, no. 11,
pages 770–774, November 1838.
[Sellers 06] EricW Sellers & Emanuel Donchin. A P300-based brain-computer
interface: Initial tests by ALS patients. Clinical Neurophysiology,,
vol. 117, no. 3, pages 538–548, 3 2006.
[Shannon 48] C. E. Shannon. A Mathematical Theory of Communication, July,
October, 1948 1948.
[Shannon 75] Claude E. Shannon & Warren Weaver. The mathematical theory of
communication. University of Illinois Press, Urbana, 1975. by Claude
E. Shannon, and Warren Weaver.
[Sheikh 03] Hesham Sheikh, Dennis J. McFarland, William A. Sarnacki
& Jonathan R. Wolpaw. Electroencephalographic(EEG)-based
communication: EEG control versus system performance in humans.
Neuroscience Letters,, vol. 345, no. 2, pages 89–92, 7/17 2003.
[Siegfried 97] Othmer Siegfried, F. Othmer Susan, & A. Kaiser David. EEG
Biofeedback: A Generalized Approach to Neuroregulation, 1997.
[Sutter 92] Erich E. Sutter. The brain response interface: communication through
visually-induced electrical brain responses. Journal of Microcomputer
Applications,, vol. 15, no. 1, pages 31–45, 1 1992.
[Sykacek 03] P. Sykacek, S. Roberts, M. Stokes, E. Curran, M. Gibbs &
L. Pickup. Probabilistic methods in BCI research. Neural Systems
2003.
[Taylor 03] D. M. Taylor, S. I. H. Tillery & A. B. Schwartz. Information
conveyed through brain-control: cursor versus robot. Neural Systems
2003.
236 BIBLIOGRAFÍA
[Tomé 07] A.M. Tomé & A. R. Teixeira. Single-channel electroencephalogram

analysis using non-linear subspace techniques. IEEE. Internacional
Symposium on Intelligent Signal Processing. Conference Proceedings
Book, pages 871–876, November 2007.
[Vapnik 63] V. Vapnik & A. Lerner. Pattern Recognition Using Generalized Portrait
Method., 1963.
[Vapnik 92] B.E. Boser; I.M. Guyon; V.Ñ. Vapnik. A training algorithm for optimal
margin classifiers., 1992.
[Vapnik 95] Corinna Cortes; V.Ñ. Vapnik. Support-Vector Networks, 1995.
[Velázquez 97] J.M. Velázquez. Curso elemental de Psicologı́a, October 1997.
[Vidal 73] Jacques J. Vidal. Toward direct brain-computer communication, 1973.
[Vidal 77] J. J. Vidal. Real-time detection of brain events in EEG, 1977. ID: 1.
[Wang 04] Yijun Wang, Zhiguang Zhang, Yong Li, Xiaorong Gao, Shangkai Gao
& Fusheng Yang. BCI competition 2003-data set IV:An algorithm
based on CSSD and FDA for classifying single-trial EEG. Biomedical
Engineering, IEEE Transactions on, vol. 51, no. 6, pages 1081–1086,
2004.
[Wang 08] S. Aamodt; S. Wang. Entra en tu cerebro. Ediciones B, Barcelona,
2008.
[Webster 78] John G. Webster & John W. Clark. Medical instrumentation :
application and design. Houghton Mifflin, Boston, 1978. John G.
Webster, editor ; contributing authors, John W. Clark ... [et al.].;
Includes bibliographies and index.
[Webster 92] John G. Webster & John G. Webster. Solutions manual [for] : Medical
instrumentation : application and design. Houghton Mifflin, Boston,
1992. John G. Webster, editor ; contributing authors, John W. Clark
... [et al.].
[Webster 95] John G. Webster & John W. Clark. Medical instrumentation :
application and design. Wiley, New York ; Chichester, 1992 1995. John
G. Webster, editor ; contributing authors, John W. Clark, Jr ...... [et al.];
Includes bibliographical references.
[Webster 98] John G. Webster & John W. Clark. Medical instrumentation.
application and design. Wiley, New York ; Chichester, 1998. John
G. Webster, editor ; contributing authors: John W. Clark, Jr ........ [et
al.].; Includes bibliographical references and index.
BIBLIOGRAFÍA 237
[Webster 04] John G. Webster. Bioinstrumentation. John Wiley & Sons, Hoboken,
N.J., 2004. John G. Webster, editor.; Includes bibliographical
references and index.
[Williams 99] Justin C. Williams, Robert L. Rennaker & Daryl R. Kipke. Long-term
neural recording characteristics of wire microelectrode arrays implanted
in cerebral cortex. Brain Research Protocols,, vol. 4, no. 3, pages 303–
313, 12 1999.
[Wolpaw 00a] J. R. Wolpaw, N. Birbaumer, W. J. Heetderks, D. J. McFarland,

P. H. Peckham, G. Schalk, E. Donchin, L. A. Quatrano, C. J.
Robinson & T. M. Vaughan. Brain-computer interface technology: a
review of the first international meeting. Rehabilitation Engineering,
IEEE Transactions on [see also IEEE Trans.on Neural Systems and
[Wolpaw 00b] J. R. Wolpaw, D. J. McFarland & T. M. Vaughan. Brain-

computer interface research at the Wadsworth Center. Rehabilitation
Engineering, IEEE Transactions on [see also IEEE Trans.on Neural
Systems and Rehabilitation], vol. 8, no. 2, pages 222–226, 2000.
[Wolpaw 02] Jonathan R. Wolpaw, Niels Birbaumer, Dennis J. McFarland, Gert

Pfurtscheller & Theresa M. Vaughan. Brain-computer interfaces for
communication and control, March 2002. Articulo muy bueno.
[Wolpaw 03] J. R. Wolpaw, D. J. McFarland, T. M. Vaughan & G. Schalk.

The Wadsworth Center brain-computer interface (BCI) research and
development program. Neural Systems and Rehabilitation Engineering,
[Wolpaw 07] Jonathan R. Wolpaw. BRAIN-COMPUTER INTERFACES AS NEW

BRAIN OUTPUT PATHWAYS. THE JOURNAL OF PHYSIOLOGY,
Jan 25, 2007 2007.
[Zhong 02] S. Zhong & J. Ghosh. HMM’s and coupled HMM’s for multi-channel
EEG classification, 2002.

Jose Luis Martinez Perez

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Jose Luis Martinez Perez

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES

COMUNICACIÓN CON COMPUTADOR

José Luis Martı́nez Pérez.

COMUNICACIÓN CON COMPUTADOR

Autor: José Luis Martı́nez Pérez.

Director: Dr. Antonio Barrientos Cruz.

Presidente : Ramón Galán

Acuerdan otorgar la caliﬁcación de:

Avances recientes en hardware para ordenadores personales y procesamiento de señal

Lista de Tablas. XXI

2.2.7. Imagen cerebral: SPECT ................................................................................................45

3. Adquisición y procesamiento de señal EEG. 57

4.5.5. Descripción del clasiﬁcador no lineal ........................................................ 134

5. Procedimientos experimentales y aplicación de demostración. 139

6. Análisis y discusión de los resultados experimentales. 161

7. Conclusiones y futuros desarrollos. 207

A. Adquisición de señal. 213

B. Matriz de confusión. 219

1.1. Representación del sistema ICC ................................................................................. 2

2.1. Diagrama frenológico ................................................................................................. 16

2.29. En MRI, la bobina de radio frecuencia excita las secciones en el eje Y . Un

3.1. Colocación de los electrodos ..................................................................................... 58

4.1. Proceso contraste de hipótesis .................................................................................. 68

4.9. Comparación clasiﬁcación MLP vs RBF .............................................................. 100

4.25. Separación lineal: margen blando .......................................................................... 134

5.1. Localización de los electrodos ................................................................................. 140

6.1. Resultados de la comparación de actividades cognitivas en el canal 1 ............. 163

6.19. Sujeto B. Canal 2. Clasiﬁcaciones correctas ................................................................. 179

6.49. Clasiﬁcaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinómico

A.1. Cuantiﬁcación uniforme .......................................................................................... 215

2.1. Terminolog´ıa de formas de onda para EEG.......................................................................... 32

3.1. Tipos de ventanas de preprocesamiento considerados.................................................. 62

4.1. Vector de caracter´ısticas......................................................................................................................................75

6.1. Resultados voluntario AL01..................................................................................................... 188

B.1. Matriz de confusión del clasiﬁcador ideal ............................................................. 219

1.1. La tecnologı́a de Interfaz Cerebro Computador.

[Wolpaw 02]. Lo cual la hace especialmente valiosa en áreas como rehabilitación

Figura 1.1: Representación del sistema ICC

1.1.1. Clasiﬁcación de dispositivos ICC.

Otro tipo de clasiﬁcación con base ﬁsiológica, se realiza atendiendo a la utilización de

Figura 1.2: Clasiﬁcación de dispositivos ICC.

1.1.2. Componentes de un dispositivo ICC.

Figura 1.3: Componentes de un sistema ICC.

1. Adquisición de señal encefalográﬁca. En este bloque se contempla el proceso a través

2. Preprocesamiento. Este bloque comprende las operaciones que se realizan sobre la

3. Extracción de caracterı́sticas. Para cada segmento temporal de señal analizado se

4. Aprendizaje y clasiﬁcación. En este bloque se consideran los mecanismos a través

Dispositivos de ICC diferentes utilizan diferentes algoritmos de traducción,

1.2. Aplicación de la tecnologı́a ICC.

1.2.1. Ciencia de la rehabilitación.

1.3. Motivaciones de la tesis.

1.3.1. Objetivos de la tesis.

Exposición, análisis y evaluación, de las diferentes técnicas de adquisición de

Comparación de la capacidad de discriminación de la señal electroencefalográﬁca

Explicación, aplicación y evaluación de los algoritmos de clasiﬁcación empleados.

Evaluación de esta tecnologı́a en control de dispositivos externos genéricos.

Inﬂuencia de la realimentación de información al usuario sobre la capacidad de

Desarrollo de un demostrador que permita evaluar la aplicabilidad de la tecnolog´ıa

Evaluar la viabilidad de su utilización ambulante.

1.3.2. Aportaciones de la tesis.

Realización de baterı́as de experimentos, tanto fuera de lı́nea (“Oﬀ-line”) como en

• La capacidad de discriminación de las muestras de los registros electroencefa-

1.4. Estructura de la tesis.